Lanciato Mercury Coder: il nuovo modello linguistico AI che rivoluziona la generazione di testo

Seguici su Google News

In un'innovativa rivelazione avvenuta giovedì scorso, Inception Labs ha presentato Mercury Coder, un modello linguistico di intelligenza artificiale che utilizza tecniche di diffusione per generare testo in modo significativamente più veloce rispetto ai modelli tradizionali. A differenza di quelli convenzionali, che procedono nella creazione del testo parola per parola, Mercury Coder è capace di generare intere risposte simultaneamente, partendo da uno stato iniziale mascherato e affinandole fino a produrre un testo coerente.

La differenza tra modelli tradizionali e modelli di diffusione

I modelli linguistici tradizionali costruiscono il testo procedendo da sinistra a destra, aggiungendo un token alla volta mediante una tecnica nota come "autoregressione." Questa metodologia richiede che ogni parola attenda il completamento di quelle precedenti prima di poter apparire. In contrapposizione, i modelli di diffusione testuale come Mercury operano secondo un approccio di masking, ispirato alle tecniche utilizzate nei modelli di generazione di immagini come Stable Diffusion, DALL-E e Midjourney. Questi modelli iniziano con contenuti completamente oscurati, rimuovendo gradualmente l'oscuramento e rivelando, in un unico passaggio, tutte le parti della risposta.

Nei modelli di diffusione per immagini, viene aggiunto del rumore continuo ai valori dei pixel, ma i modelli di diffusione testuale non possono applicare questo tipo di rumore ai token discreti, che rappresentano porzioni di dati testuali. Invece di ciò, utilizzano token maschera speciali, i quali funzionano come un'equivalente del rumore. Nel caso di LLaDA, un modello simile a Mercury, la probabilità di mascheramento controlla il livello di rumore, dove si ha un alto mascheramento per situazioni di elevato rumore e un basso mascheramento per condizioni di scarsa rumorosità. Il processo di diffusione avanza da un alto a un basso livello di rumore, creando un'interessante sinergia nelle tecniche di generazione testuale.

Processo di addestramento dei modelli di diffusione testuale

La creazione di modelli di diffusione testi richiede un complesso processo di addestramento di una rete neurale su dati parzialmente oscurati. In questa fase, il modello deve prevedere il completamento più probabile di una porzione di testo e confrontare i risultati ottenuti con la risposta reale. Se la previsione si rivela corretta, le connessioni all'interno della rete neuronale che hanno portato a tale risposta vengono rafforzate. Con un numero sufficiente di esempi, il modello diventa capace di generare output con un livello di accuratezza e plausibilità sufficiente da risultare utile.

Secondo quanto riferito da Inception Labs, l'approccio adottato consente a Mercury Coder di migliorare progressivamente gli output e di correggere eventuali errori, dal momento che non è vincolato a considerare solo il testo generato in precedenza. Questo processo di elaborazione parallela permette a Mercury di raggiungere una velocità di generazione superiore a 1.000 token al secondo, utilizzando le potenti GPU NVIDIA H100.

Implicazioni future della tecnologia di diffusione

Con l’introduzione di Mercury Coder, il panorama della generazione testuale potrebbe subire un cambiamento significativo, portando a repentine evoluzioni nelle applicazioni pratiche di questa tecnologia. Gli sviluppatori e i ricercatori potrebbero sfruttare questa innovazione per creare esperienze più fluide e interattive, sia nel campo della scrittura automatizzata sia in altri ambiti in cui la generazione di testo riveste un ruolo cruciale.

La rapida elaborazione di informazioni e il miglioramento continuo delle capacità di apprendimento delle intelligenze artificiali potrebbero consentire applicazioni che vanno al di là delle attuali limitazioni. L'evoluzione dei modelli di diffusione testuale segna un passaggio interessante nella ricerca e nello sviluppo dell'intelligenza artificiale, aprendo scenari inaspettati e opportunità per il futuro dell'interazione con i sistemi basati su AI.

Seguici su Telegram per ricevere le migliori offerte tech
Argomenti:

Chi siamo?

OutOfBit è un progetto nato nel Maggio 2013 da un’idea di Vittorio Tiso e Khaled Hechmi. Il progetto nasce per creare un sito di blogging che sappia differenziarsi ed appagare il lettore al fine di renderlo parte fondamentale del blog stesso.
Entra nello staff
COPYRIGHT © 2023 OUTOFBIT P.IVA 04140830243, TUTTI I DIRITTI RISERVATI.
crossmenu linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram