Aller au contenu
  1. Articles/

Le Nouveau Battage Médiatique de l'Intelligence Artificielle

Nuno Coração
Auteur
Nuno Coração
Principal Product Manager @ Docker
Sommaire
Le Nouveau Battage Médiatique de l'IA - Cet article fait partie d'une série.
Partie 1: Cet article

Ces dernières années, le battage médiatique autour de l’intelligence artificielle a augmenté (encore une fois). La majeure partie est due à des entreprises comme OpenAI, Google, DeepMind (filiale de Google), Meta et d’autres produisant des recherches révolutionnaires et des démonstrations innovantes dans le domaine. Des machines gagnant des jeux complexes comme Go et Dota 2 à une variété de techniques de génération de contenu produisant du texte, des images, de l’audio et maintenant de la vidéo, ces technologies auront un impact sur notre avenir.

On a l’impression d’avoir déjà vécu ce battage médiatique autour de l’IA dans le passé, mais il ne s’est jamais vraiment matérialisé en quelque chose de pertinent pour nos vies. Des tentatives de Watson d’IBM de révolutionner la santé aux prophéties des voitures autonomes, on nous a toujours dit comment l’IA améliorerait notre société, mais il semble toujours y avoir quelque chose qui nous empêche d’y arriver.

Cependant, cette fois-ci, c’est différent. Premièrement, les cas d’utilisation sont bien moins ambitieux que par le passé et ont des applications pratiques (et amusantes) concrètes ; deuxièmement, la recherche des 5-10 dernières années a connu certains des plus grands bonds dans les domaines du machine learning et du deep learning. Les Generative Adversarial Networks (GANs), les Modèles de Diffusion et les Modèles Transformer sont de bons exemples de telles percées.

On estime qu’OpenAI a dépensé environ 10 à 20 millions de dollars pour entraîner son modèle text-to-text GPT-3. Le coût devrait être plus élevé avec les modèles traitant des images.

Où en sommes-nous et comment en sommes-nous arrivés là ?
#

Alors, où en sommes-nous actuellement ? Au cours des 5 à 7 dernières années, plusieurs innovations spécifiques et applications pratiques de l’IA ont mis en avant la technologie (et ses implications respectives) dans la discussion publique.

2015 - Google crée DeepDream - En savoir plus

Google publie une nouvelle méthode utilisant des Réseaux Convolutionnels qui peut rêver de nouvelles images basées sur son ensemble d’entraînement.

2016 - Google construit AlphaGo qui bat le champion du monde de Go - En savoir plus

AlphaGo a été entraîné en utilisant des techniques d’apprentissage non supervisé pour faire concourir le réseau contre lui-même des millions de fois.

2019 - OpenAI Five bat les champions de Dota 2 - En savoir plus

OpenAI Five a été entraîné avec des techniques similaires à AlphaGo.

2020 - OpenAI révèle GPT-3 - En savoir plus

Generative Pre-trained Transformer 3 (GPT-3) est un modèle de langage autorégressif qui utilise le deep learning pour produire du texte semblable à celui d’un humain.

2021/22 - OpenAI annonce Dall-E et Dall-E 2 - En savoir plus

Dall-E et Dall-E 2 sont des réseaux entraînés avec des modèles de diffusion pour générer des images à partir de prompts textuels.

2022 - Leap Motion lance Midjourney - En savoir plus

Midjourney est également un modèle text-to-image avec des capacités similaires à Dall-E.

2022 - Stable Diffusion publié par Stability AI, CompVis LMU et Runway - En savoir plus

Stable Diffusion est un autre modèle pour générer des images à partir de prompts textuels. La principale différence est qu’il est open source.

Est-ce de la magie ?
#

Tous ces récents progrès sont principalement attribués à trois grandes étapes dans la recherche en Deep Learning : les Generative Adversarial Networks (GANs), les Modèles de Diffusion et les Modèles Transformer.

GAN était un framework révolutionnaire pour entraîner des réseaux massifs. À haut niveau, la méthode définit que deux réseaux différents vont s’affronter dans un jeu où un seul peut gagner. Les Deepfakes, par exemple, sont généralement générés avec cette méthode.

Les Modèles de Diffusion ont été créés pour que le problème de la génération d’une image valide ne se produise pas en une seule étape, mais le long d’un processus de débruitage qui peut prendre N étapes.

Enfin, nous avons les Modèles Transformer, l’une des avancées les plus importantes dans le domaine du machine learning. Ces modèles sont des réseaux neuronaux qui peuvent apprendre le contexte et donc déduire le sens à partir de données séquentielles.

Démocratisation de l’IA
#

L’une des principales différences entre cette vague de battage médiatique de l’IA et les précédentes est que le nombre de personnes qui peuvent l’essayer et interagir avec elle est bien plus grand qu’il ne l’a jamais été.

D’un autre angle, il n’y a jamais eu autant d’avancées rendues disponibles en tant que technologies open source. OpenAI a récemment publié whisper et son modèle Dall-E 2 au public. Le modèle Stable Diffusion est également disponible pour la communauté. Si vous êtes intéressé par l’exécution de Stable Diffusion localement, j’ai écrit un tutoriel à ce sujet.

L’une des entreprises qui mène ces efforts est HuggingFace. Un exemple est BLOOM, un grand modèle de langage open source créé de manière collaborative par des millions de chercheurs.

Cette démocratisation de l’IA est une caractéristique unique de cette nouvelle vague de battage médiatique :

  • Les cas d’utilisation sont amusants et tout le monde peut les essayer
  • Presque tout le monde peut l’essayer même sans comprendre comment ça fonctionne
  • La communauté peut facilement construire dessus

Que pouvez-vous faire avec aujourd’hui ?
#

Ces modèles et technologies commoditisent la capacité à générer du contenu, ce qui était la dernière étape de la Chaîne de Valeur de Propagation des Idées qui n’avait pas encore été fondamentalement perturbée par la technologie.

À titre d’exemple, j’ai utilisé Stable Diffusion pour générer la miniature de cet article.

De plus, il existe déjà des sites entiers dédiés à l’indexation et à la fourniture des meilleurs prompts. Lexica et Prompthero sont deux exemples.

Au-delà des images
#

J’ai commencé à jouer avec Stable Diffusion il y a quelques semaines, et je dois admettre que les nouvelles sorties depuis m’ont époustouflé.

J’ai été surpris qu’il y ait déjà de si bons résultats pour les modèles text-to-video. Cette semaine, j’ai découvert une startup appelée Runway qui travaille sur un éditeur vidéo alimenté par toutes ces innovations de machine learning. J’ai également vu des articles sur le nouveau réseau text-video de Google, Imagen Video, et l’annonce de Meta de Make-a-Video.

Cependant, la plus surprenante (et aussi un peu dérangeante en raison des implications potentielles) était un podcast que j’ai trouvé de Joe Rogan interviewant Steve Jobs, créé par podcast.ai. Steve Jobs est décédé. Ces deux hommes n’ont jamais eu la chance d’être dans la même pièce ensemble, pourtant il y a 20 minutes d’audio d’eux parlant comme si la conversation avait eu lieu.

En réfléchissant aux impacts de l’utilisation de ces technologies pour émuler des personnes qui ne sont plus parmi nous, je suis tombé sur cet article. Il existe des entreprises comme DeepBrain AI qui monétisent déjà un tel service.

Pièges potentiels
#

Juridiques & Éthiques
#

L’un des pièges potentiels concerne les implications juridiques et éthiques de ces nouveaux systèmes d’IA. Qui possède le produit final lors de la génération d’une image ? La personne qui crée le prompt ? L’équipe qui construit le modèle ? Les artistes dont les images étaient dans l’ensemble d’entraînement ?

L’une des discussions pertinentes sur ce sujet concerne les problèmes de droits d’auteur du produit Copilot de GitHub. Plus d’informations ici.

Les artistes découvrent également comment leur art a été utilisé pour entraîner ces modèles et ne sont pas contents.

Valeur perçue & Réaction
#

Initialement, je pensais que cette technologie ferait de tout le monde un bon artiste, mais après avoir joué avec, je n’en suis plus convaincu. Actuellement, je pense que ces technologies permettront aux gens normaux de créer quelque chose, mais donneront aux artistes professionnels des super-pouvoirs.

Il existe déjà un nouveau domaine appelé Prompt Engineering.

Quelle est la suite ?
#

Avec l’avertissement ci-dessus, voici ce que je pense qu’il se passera dans cet espace dans les 2 à 5 prochaines années :

Note : En attendant, j’ai créé un compte Instagram pour partager mes créations Stable Diffusion.

Le Nouveau Battage Médiatique de l'IA - Cet article fait partie d'une série.
Partie 1: Cet article

Articles connexes