* Gemini Aggiornamenti API: con un limite di dimensione dei file notevolmente aumentato e nuovi modi per integrare i file, lavorare con set di dati più grandi e strutture complesse diventa più semplice. WorkflowÈ notevolmente più semplice. Gli sviluppatori possono usarlo per creare soluzioni multimodali. KI- Per rendere le applicazioni più flessibili, più veloci e più vicine alla realtà del loro panorama di dati.
Maggiore flessibilità: file in linea ora fino a 100 MB
Forse la modifica più importante è l'estensione del caricamento di file in linea consentito fino a... 100 MBIn precedenza, vi erano limiti significativamente più severi per quanto riguarda l'uso di Gemini L'API è stata limitata per le risorse più grandi.
Il nuovo limite massimo consente ora, tra le altre cose, di incorporare direttamente nelle richieste dati aziendali e multimediali di grandi dimensioni:
- immagini ad alta risoluzione e lunghe sequenze di immagini
- PDF e presentazioni dettagliate
- file di registro complessi o file JSON e CSV strutturati
- input multimodali combinati, come testo più file di immagini di grandi dimensioni
Il limite di dimensione del file esteso rende il Gemini API più pratica per dati aziendali reali e grandi raccolte multimediali.
Per gli sviluppatori, questo significa: meno pre-elaborazione, meno sforzi per la suddivisione delle strategie e una gestione significativamente più naturale dei dati grezzi direttamente nell'API.
Nuovi modi per inserire file: GCS e HTTP
Oltre a ridimensionare semplicemente i file, l'API Gemini ora apre anche un canale di input per i file. Invece di inviare direttamente i contenuti, per la prima volta è possibile includere file da fonti esterne.
Integrazione diretta da Google Cloud Storage
Particolarmente rilevante per le applicazioni cloud-native è il supporto di Google Cloud Storage (GCS)Bucket come origine. Ora è possibile indirizzare i file direttamente senza doverli trasferire manualmente tramite il client in precedenza.
- Utilizzo dei bucket GCS esistenti come repository di file centrale
- Elaborazione di grandi asset già presenti nel data lake
- Separazione migliorata tra archiviazione dei dati e logica di inferenza
Ciò rende l'API Gemini notevolmente più compatibile con le architetture cloud esistenti nelle aziende in cui GCS spesso funge da nucleo dell'infrastruttura dati.
Accesso tramite HTTP e URL firmati
Inoltre, l'API ora supporta l'input di file tramite HTTP e URL firmatiCiò consente di fare riferimento ai file da qualsiasi fonte accessibile pubblicamente o in modo sicuro, come reti di distribuzione di contenuti, sistemi interni o piattaforme partner.
- Integrazione di file da sistemi di archiviazione esterni
- Contenuto rilasciato temporaneamente tramite link firmati
- Integrazione flessibile in infrastrutture distribuite e ibride
Con le sorgenti GCS e HTTP, l'API Gemini diventa l'interfaccia tra diverse posizioni di archiviazione e moderne KI-Workflows.
Nuove opportunità per le applicazioni dell'intelligenza artificiale
La combinazione di un limite di dimensione dei file più ampio e di percorsi di input più flessibili apre nuove possibilità, soprattutto in ambienti professionali. Gli esempi spaziano dall'analisi dei media all'automazione dei documenti.
Flussi di lavoro creativi per contenuti e media
Per le aziende dei media, Marketing o l'e-commerce consentirà nuovi modelli di utilizzo dinamici:
- Analisi di grandi raccolte di immagini direttamente da GCS, ad esempio per il tagging automatico.
- Generazione di descrizioni di prodotti basate su immagini e metadati estesi
- Garanzia della qualità dei contenuti multimediali, ad esempio attraverso ispezioni visive utilizzando modelli
L'accesso alle risorse tramite URL consente di semplificare le pipeline dei contenuti: anziché spostare i file più volte tra i sistemi, sono sufficienti i riferimenti alle fonti originali.
Elaborazione dei documenti in ambienti aziendali
Anche all'interno dell'azienda Process Automation L'estensione dimostra i suoi punti di forza. I tipici ambiti di applicazione includono:
- Valutazione di report e contratti estesi come file PDF di grandi dimensioni
- Estrazione e strutturazione delle informazioni dai documenti d'archivio
- Analisi dei dati di log e di monitoraggio per la risoluzione dei problemi e l'ottimizzazione
Chi KI Chiunque voglia applicarlo a dati aziendali reali ed eterogenei fa affidamento su file di grandi dimensioni e percorsi file flessibili: è proprio qui che entra in gioco l'aggiornamento dell'API Gemini.
Implicazioni per sviluppatori e architetti
Con le nuove funzionalità, il ruolo dell'API Gemini si sposta da un semplice accesso al modello a un elemento costitutivo di flussi di lavoro end-to-end completi. Ciò ha implicazioni in termini di architettura, sicurezza e costi.
- architettura: I flussi di dati possono essere maggiormente centralizzati, ad esempio tramite GCS come unica fonte di verità.
- di sicurezza: Gli URL firmati consentono un controllo degli accessi molto granulare senza dover aprire eccessivamente le posizioni di archiviazione effettive.
- Costi e prestazioni: Un minor numero di trasferimenti e caricamenti di dati ridondanti può ridurre la latenza e risparmiare risorse.
Per gli sviluppatori, vale la pena rivedere le integrazioni esistenti: laddove in precedenza erano necessarie soluzioni alternative per le dimensioni dei file o per processi di caricamento complessi, la nuova funzionalità può semplificare molti passaggi.
Conclusione: maggiore rilevanza pratica per l'intelligenza artificiale multimodale
Le funzionalità avanzate dell'API Gemini sono più di una semplice funzionalità di praticità. Offrono funzionalità multimodali... KI un passo più vicino ai requisiti dei sistemi produttivi, dove file di grandi dimensioni, storage distribuito e flussi di dati complessi sono la norma.
Con 100 MB di file in linea e input da GCS o HTTP, l'API Gemini sta diventando uno strumento notevolmente più flessibile per le applicazioni moderne. KI-Applicazioni.
Chi già utilizza Gemini o sta pianificando progetti simili otterrà nuove libertà, sia nella progettazione dell’architettura tecnica che nell’uso creativo di KI attraverso un'ampia varietà di fonti di dati.