DALL-E, l’IA che rende il testo immagini

Dall-E, l’intelligenza artificiale che si crede un pittore

Dall-E: un nome un programma. Letteralmente! La pronuncia corretta del nome, infatti, è Dallì, in riferimento al famosissimo pittore surrealista Salvador Dalì, mixato con l’acronimo del robottino Pixar WALL-E. Si tratta di un algoritmo di intelligenza artificiale in grado di creare da zero delle immagini sulla base delle descrizioni testuali inserite.

E così, se vuoi vedere come sarebbe la cavalcata di un astronauta nello spazio, ti basterà scrivere, ovviamente in inglese, “an astronaut riding a horse”. Ma non solo: oltre al soggetto, Dall-E ti permette anche di scegliere lo stile: fotorealistico, pop art o come disegno a matita?

Dall-E crea un astronauta che cavalca nello spazio, e il risultato è iper-realistico… ma se vuoi, ne puoi vedere anche uno sketch!

 

Sì, perché le immagini che Dall-E è in grado di creare possono davvero essere iper-realistiche al pari di una fotografia, oppure molto più fantasiose. Specialmente nella seconda versione, gli stili di Dall-E si sono evoluti in maniera incredibile!

Dall-E cosa è e come funziona esattamente?

Il concetto di Dall-E non è nuovo, però porta l’intelligenza artificiale a nuovi livelli. Presentato il 5 gennaio 2021, Dall-E è una creazione di OpenAI, organizzazione senza scopo di lucro che vuole promuovere e sviluppare l’Intelligenza Artificiale. Un’AI “amichevole”, come la chiamano, in grado di produrre benefici all’umanità. Ovviamente, con questi presupposti, uno dei membri fondatori di quest’ente non profit non poteva che essere Elon Musk.

Dall-E e Dall-E 2 (la versione migliorata del programma) sono dei trasformatori in grado di generare immagini digitali a partire da descrizioni in linguaggio naturale. Ok, tempo. Un trasformatore è un modello di deep learning che sfrutta il meccanismo di auto-attenzione (l’equivalente artificiale della nostra concentrazione) per distinguere le varie parti dell’input. Il linguaggio naturale, invece, è quel linguaggio che si è evoluto e continua ad evolversi naturalmente negli esseri umani attraverso l’uso.

Dall-E sfrutta il suo database di oltre 12 miliardi di parametri per trovare il match migliore con il testo inserito

 

Quindi, Dall-E è in grado di prendere il linguaggio comune, quello parlato (anzi, scritto!), decodificarlo e associarlo al miglior risultato. Risultato trovato nel suo database di oltre 12 miliardi di parametri GPT-3, il modello linguistico sviluppato sempre da OpenAI per riprodurre il linguaggio naturale.

È così che Dall-E scambia il testo con i pixel!

Dall-E è unico nel suo genere? No!

Sebbene OpenAI non abbia rilasciato il codice sorgente né per Dall-E né per Dall-E2, ci sono in circolazione altri programmi molto simili. E per fortuna! Sì, perché al momento Dall-E non si può “provare”: sono aperte le prenotazioni per una “beta” di test, ma è riservata unicamente ad alcuni richiedenti selezionati. La motivazione? Questioni di sicurezza e di etica.

E se i fortunati betatester potranno divertirsi con Dall-E a partire da luglio 2022, a noi comuni mortali non resta che ripiegare sui programmi opensource… che non sono affatto male, anzi! Nella lista troviamo il più famoso generatore di meme, quello che una volta era stato chiamato Dall-E mini (ma che poi ha dovuto ovviamente cambiare nome): Craiyon. Ma anche Dall-E Flow, che, sotto una grafica molto meno curata del suo omonimo, fa esattamente la stessa cosa.

Le implicazioni morali

Le questioni etiche e di sicurezza per cui il codice non è stato ancora rilasciato, in realtà, non sono proprio un’esagerazione. Prima di poter essere rilasciato al pubblico, OpenAI vuole analizzare l’impatto sulla società e il potenziale pregiudizio nei confronti di Dall-E.

Sì, perché se ad un primo sguardo può sembrare un sito per puro uso ricreativo, i risvolti etici possono essere davvero spinosi. In particolare, diversi artisti digitali hanno espresso qualche preoccupazione sui diritti d’autore e sulla proprietà delle immagini. Perché Dall-E, da qualche parte, le immagini e i modelli li dovrà anche prendere… e potrebbe finire per copiare un po’ troppo lo stile dell’artista.

Dall-E e la volpe in stile Monet, i risultati a confronto tra le due versioni.

 

D’altro canto, anche Imagen, il software di text-to-image di Google che si basa su Dall-E si sta concentrando su queste implicazioni etiche, cercando di limitare al massimo un uso improprio che si potrebbe fare di queste tecnologie.

dall-eElon Muskfuturogoogleintelligenza artificiale