Negli ultimi anni, l’hype intorno all’intelligenza artificiale è aumentato (di nuovo). La maggior parte è dovuta a aziende come OpenAI, Google, DeepMind (sussidiaria di Google), Meta e altre che producono ricerche rivoluzionarie e showcase innovativi nel campo. Dalle macchine che vincono giochi complessi come Go e Dota 2 a una varietà di tecniche di generazione di contenuti che producono testo, immagini, audio e ora video, queste tecnologie avranno un impatto sul nostro futuro.
Sembra che abbiamo già sperimentato questo hype verso l’IA in passato, ma non si è mai materializzato in qualcosa di rilevante per le nostre vite. Dai tentativi di Watson di IBM di rivoluzionare la sanità alle profezie delle auto a guida autonoma, ci è sempre stato detto come l’IA migliorerà la nostra società, eppure sembra sempre esserci qualcosa che ci impedisce di arrivarci.
Tuttavia, questa volta sembra diverso. In primo luogo, i casi d’uso sono molto meno ambiziosi rispetto al passato e hanno applicazioni pratiche (e divertenti) concrete; in secondo luogo, la ricerca negli ultimi 5-10 anni ha avuto alcuni dei maggiori progressi di sempre nei campi del machine learning e deep learning. Generative Adversarial Networks (GANs), Diffusion Models e Transformer Models sono buoni esempi di tali breakthrough.
Dove siamo e come ci siamo arrivati?#
Quindi, dove siamo adesso? Negli ultimi 5-7 anni, diverse innovazioni specifiche e applicazioni pratiche dell’IA hanno portato la tecnologia (e le sue rispettive implicazioni) alla discussione pubblica.
2015 - Google crea DeepDream - Leggi di più
Google rilascia un nuovo metodo usando Reti Convoluzionali che può sognare nuove immagini basate sul suo training set.
2016 - Google costruisce AlphaGo che batte il campione mondiale di Go - Leggi di più
AlphaGo è stato addestrato usando tecniche di apprendimento non supervisionato per far competere la rete contro se stessa milioni di volte.
2019 - OpenAI Five batte i campioni di Dota 2 - Leggi di più
OpenAI Five è stato addestrato usando tecniche simili ad AlphaGo.
2020 - OpenAI rivela GPT-3 - Leggi di più
Generative Pre-trained Transformer 3 (GPT-3) è un modello di linguaggio autoregressivo che usa il deep learning per produrre testo simile a quello umano.
2021/22 - OpenAI annuncia Dall-E e Dall-E 2 - Leggi di più
Dall-E e Dall-E 2 sono reti addestrate usando diffusion models per generare immagini da prompt testuali.
2022 - Leap Motion rilascia Midjourney - Leggi di più
Midjourney è anche un modello text-to-image con capacità simili a Dall-E.
2022 - Stable Diffusion rilasciato da Stability AI, CompVis LMU e Runway - Leggi di più
Stable Diffusion è un altro modello per generare immagini da prompt testuali. La differenza principale è che è open source.
È magia?#
Tutti questi recenti progressi sono principalmente attribuiti a tre grandi pietre miliari nella ricerca sul Deep Learning: Generative Adversarial Networks (GANs), Diffusion Models e Transformer Models.
GAN è stato un framework rivoluzionario per addestrare reti massive. Ad alto livello, il metodo definisce che due reti diverse competeranno l’una contro l’altra in un gioco dove solo una può vincere. I Deepfakes, ad esempio, sono solitamente generati usando questo metodo.
I Diffusion Models sono stati creati in modo che il problema della generazione di un’immagine valida non avvenga in un passo, ma lungo un processo di denoising che può richiedere N passi.
Infine, abbiamo i Transformer Models, uno dei progressi più importanti nel campo del machine learning. Questi modelli sono reti neurali che possono imparare il contesto e quindi dedurre il significato da dati sequenziali.
Democratizzazione dell’IA#
Una delle principali differenze tra questa ondata di hype dell’IA e quelle passate è che il numero di persone che possono provarla e interagire con essa è molto maggiore di quanto non sia mai stato.
Da un’altra angolazione, non ci sono mai stati così tanti progressi resi disponibili come tecnologie open source. OpenAI ha recentemente rilasciato whisper e il suo modello Dall-E 2 al pubblico. Il modello Stable Diffusion è anche disponibile per la community. Se sei interessato a eseguire Stable Diffusion localmente, ho scritto un tutorial a riguardo.

Una delle aziende che sta guidando questi sforzi è HuggingFace. Un esempio è BLOOM, un modello di linguaggio open source creato collaborativamente da milioni di ricercatori.
Questa democratizzazione dell’IA è una caratteristica unica di questa nuova ondata di hype:
- I casi d’uso sono divertenti e tutti possono provarli
- Quasi tutti possono provarlo anche se non capiscono come funziona
- La community può costruirci sopra facilmente
Cosa puoi farci oggi?#
Questi modelli e tecnologie stanno commoditizzando la capacità di generare contenuti, che era l’ultimo passo nella Catena del Valore della Propagazione delle Idee che doveva ancora essere fondamentalmente disrupted dalla tecnologia.
Come esempio, ho usato Stable Diffusion per generare la thumbnail di questo articolo.
Inoltre, ci sono già interi siti focalizzati sull’indicizzazione e fornitura dei migliori prompt. Lexica e Prompthero sono due esempi.
Oltre le immagini#
Ho iniziato a giocare con Stable Diffusion un paio di settimane fa, e devo ammettere che le notizie uscite da allora mi hanno stupito.
Oh no... https://t.co/ZNivykXQP4
— Marques Brownlee (@MKBHD) October 19, 2022
Sono stato sorpreso che ci fossero già risultati così buoni per i modelli text-to-video. Quella settimana ho scoperto una startup chiamata Runway che sta lavorando a un editor video alimentato da tutte queste innovazioni di machine learning. Ho anche visto articoli sulla nuova rete text-video di Google, Imagen Video, e l’annuncio di Meta di Make-a-Video.
Tuttavia, la più sorprendente (e anche un po’ inquietante per le potenziali implicazioni) è stata un podcast in cui Joe Rogan intervista Steve Jobs, creato da podcast.ai. Steve Jobs è notoriamente deceduto. Quei due uomini non hanno mai avuto la possibilità di essere nella stessa stanza insieme, eppure ci sono 20 minuti di audio di loro che parlano come se la conversazione fosse avvenuta.
Mentre pensavo agli impatti dell’uso di queste tecnologie per emulare persone che non sono più tra noi, mi sono imbattuto in questo articolo. Ci sono aziende come DeepBrain AI che già monetizzano un tale servizio.
Potenziali insidie#
Legali & Etiche#
Una delle potenziali insidie sono le implicazioni legali ed etiche di questi nuovi sistemi di IA. Chi possiede il prodotto finale quando si genera un’immagine? La persona che crea il prompt? Il team che costruisce il modello? Gli artisti le cui immagini erano nel training set?
Una delle discussioni rilevanti su questo argomento riguarda i problemi di copyright del prodotto Copilot di GitHub. Maggiori informazioni qui.
Gli artisti stanno anche scoprendo come la loro arte è stata usata per addestrare questi modelli e non sono contenti.
Valore percepito & Contraccolpo#
Inizialmente pensavo che questa tecnologia avrebbe reso tutti buoni artisti, ma dopo averci giocato, non ne sono più convinto. Al momento, penso che queste tecnologie permetteranno alle persone normali di creare qualcosa, ma daranno agli artisti professionisti superpoteri.
C’è già una nuova area chiamata Prompt Engineering.
Cosa succede dopo?#
Con il disclaimer sopra, ecco cosa penso succederà in questo spazio nei prossimi 2-5 anni:
- Le questioni legali sulla proprietà aumenteranno fino a quando non verrà trovata una buona soluzione
- Aumento drammatico dei finanziamenti per le aziende che lavorano su questi problemi:
- La tecnologia inizierà a essere prodottizzata come funzionalità in prodotti esistenti - Adobe ha già iniziato a includere questi strumenti nel suo software
- Tutte queste aree inizieranno a fondersi con risultati coerenti
- Giochi, VR e Metaverse - Il più grande potenziale sta in quanto questa tecnologia può accelerare la creazione di contenuti






