OpenAI annuncia l'integrazione delle capacità di generazione immagini di Sora in ChatGPT

OpenAI ha recentemente preso una decisione importante, integrando le capacità di generazione di immagini di Sora direttamente in ChatGPT. Questa novità, denominata “Immagini in ChatGPT,” segna un passo significativo nella fruibilità degli strumenti di intelligenza artificiale, poiché consente agli utenti di generare immagini direttamente all’interno della piattaforma, senza la necessità di un sito web separato. Con questa mossa, OpenAI mira a migliorare l’esperienza degli utenti, unendo funzionalità avanzate in un’unica interfaccia.

Indice dei contenuti

Caratteristiche di Sora

Sora era inizialmente presentato come un generatore di video potenziato dall’intelligenza artificiale, ma la versione attuale si concentra esclusivamente sulla creazione di immagini. Questa nuova funzionalità sarà accessibile per tutti gli utenti, comprese le modalità ChatGPT Plus, Pro, Team e Free. Gli utenti del piano gratuito, in particolare, avranno limiti di utilizzo simili a quelli di DALL-E, ma, come ha evidenziato la portavoce Taya Christianson, non sono stati forniti numeri specifici, suggerendo che le regole potrebbero modificarsi nel tempo in base alla domanda formulata dagli utenti. In precedenza, gli utenti del piano gratuito potevano generare “tre immagini al giorno con DALL·E 3”, e il destino di DALL-E, secondo Christianson, rimarrà assicurato tramite un GPT personalizzato.

Miglioramenti nella qualità delle immagini

Il ricercatore Gabriel Goh ha affermato che “questo modello rappresenta un cambiamento decisivo rispetto ai modelli precedenti”. Il team ha utilizzato la base di GPT-4o, un modello “omnimodale” che ha la capacità di generare diversi tipi di dati, inclusi testo, immagini, audio e video. Tra le importanti migliorie implementate, Goh ha citato “binding,” fenomeno che definisce la corretta associazione tra attributi e oggetti nelle immagini generate. Modelli di scarsa qualità in questo ambito, per esempio, potrebbero confondere le relazioni tra colori e forme, creando risultati inadeguati. Sora, al contrario, mostra la capacità di gestire correttamente le relazioni anche per 15-20 oggetti contemporaneamente, un notevole avanzamento in termini di accuratezza.

Testo e immagini: un connubio facilitato

Un altro aspetto che gli utenti noteranno è il miglioramento nel rendering del testo all’interno delle immagini, un compito notoriamente difficile per i generatori di immagini. Goh ha spiegato che se piccole scritte presentano errori, l’intera immagine può risultare inservibile. Questo processo ha richiesto iterazioni e miglioramenti nel corso di diversi mesi, culminando in un risultato che, sebbene non perfetto, offre una qualità di testo sufficientemente buona per l’uso immediato. La sfida di ottenere un rendering del testo corretto è stata affrontata, portando a progressi tangibili e significativi.

Un approccio innovativo nella generazione delle immagini

Il sistema di Sora utilizza un metodo autoregressivo per generare le immagini, lavorando progressivamente da sinistra a destra e dall’alto verso il basso, in modo simile alla scrittura del testo. Questo rappresenta una divergenza rispetto alla tecnica usata dalla maggior parte dei generatori di immagini, come DALL-E, che creano l’intera immagine simultaneamente. Goh ha ipotizzato che questa differenza tecnica potrebbe essere la causa di una migliore capacità di rendering del testo e di binding rispetto a quanto offerto da altri modelli.

Applicazioni pratiche e future prospettive

Prima del lancio, il team di OpenAI ha mostrato esempi delle capacità del sistema, come diagrammi scientifici con componenti etichettati correttamente, fumetti a più pannelli con personaggi e dialoghi coerenti, e poster informativi con testi accurati. Sono state evidenziate anche applicazioni pratiche, come la creazione di immagini con sfondi trasparenti da utilizzare per adesivi e loghi. Jackie Shannon, responsabile dei prodotti multimodali di ChatGPT, ha chiarito che il modello porta in sé una vasta conoscenza globale, consentendo agli utenti di ricevere immagini anche senza dover fornire spiegazioni dettagliate.

Considerazioni finali sul tempo di generazione delle immagini

È importante rilevare che, sebbene il nuovo sistema possa richiedere più tempo per generare le immagini rispetto alle versioni precedenti, OpenAI sostiene che questo sia un compromesso valido. “Anche se ci sono margini di miglioramento sulla latenza… la qualità e la capacità delle immagini giustificano i secondi in più di attesa,” ha affermato Shannon.

Da notare che il nuovo sistema di generazione di immagini non include watermark visivi che indichino che le immagini sono state create dall’IA. Tuttavia, Shannon ha confermato che tutte le immagini generate conterranno metadati standard C2PA per identificare la loro origine, e l’azienda avrà strumenti interni per poter verificare le immagini. “Nessun sistema è perfetto, ma stiamo continuamente migliorando i nostri strumenti di sicurezza,” ha concluso, sottolineando che gli utenti possiedono le immagini generate e possono utilizzarle nel rispetto delle politiche previste.