In den letzten Jahren hat der Hype um künstliche Intelligenz (wieder einmal) zugenommen. Der Großteil davon ist auf Unternehmen wie OpenAI, Google, DeepMind (Google-Tochter), Meta und andere zurückzuführen, die bahnbrechende Forschung und innovative Showcases in diesem Bereich produzieren. Von Maschinen, die komplexe Spiele wie Go und Dota 2 gewinnen, bis hin zu einer Vielzahl von Content-Generierungstechniken, die Text, Bilder, Audio und jetzt auch Video produzieren - diese Technologien werden einen Einfluss auf unsere Zukunft haben.
Es fühlt sich an, als hätten wir diesen KI-Hype in der Vergangenheit schon erlebt, aber er hat sich nie wirklich in etwas Relevantes für unser Leben materialisiert. Von IBMs Watson-Versuchen, das Gesundheitswesen zu revolutionieren, bis hin zu den Prophezeiungen selbstfahrender Autos - uns wurde immer erzählt, wie KI unsere Gesellschaft verbessern wird, doch es scheint immer etwas zu geben, das uns daran hindert, dort anzukommen.
Diesmal fühlt es sich jedoch anders an. Erstens sind die Anwendungsfälle weit weniger ambitioniert als in der Vergangenheit und haben konkrete praktische (und unterhaltsame) Anwendungen; zweitens hatte die Forschung in den letzten 5-10 Jahren einige der größten Sprünge im Machine Learning und Deep Learning überhaupt. Generative Adversarial Networks (GANs), Diffusion Models und Transformer Models sind gute Beispiele für solche Durchbrüche. Drittens ist diesmal die erforderliche Technologie und Rechenleistung vorhanden, um diese massiven Netzwerke zu betreiben und zu trainieren.
Wo stehen wir und wie sind wir hierher gekommen?#
Also, wo stehen wir gerade? In den letzten 5 bis 7 Jahren haben mehrere spezifische Innovationen und praktische Anwendungen von KI die Technologie (und ihre jeweiligen Implikationen) in die öffentliche Diskussion gebracht. Bevor wir darauf eingehen, was bereits möglich ist, gehen wir die relevanteren Ankündigungen der letzten Jahre durch.
2015 - Google erschafft DeepDream - Mehr erfahren
Google veröffentlicht eine neue Methode mit Convolutional Networks, die neue Bilder basierend auf dem Trainingsset träumen kann.
2016 - Google baut AlphaGo, das den Go-Weltmeister schlägt - Mehr erfahren
AlphaGo wurde mit unüberwachten Lerntechniken trainiert, um das Netzwerk millionenfach gegen sich selbst antreten zu lassen. AlphaGo schlug den Go-Champion und konnte sogar Go-Züge zeigen, die noch nie gesehen wurden.
2019 - OpenAI Five schlägt die Dota 2-Champions - Mehr erfahren
OpenAI Five wurde mit ähnlichen Techniken wie AlphaGo trainiert. Die Herausforderung bei einem Multiplayer-Online-3D-Spiel wie Dota 2 war der immense Aktionsraum, der dem Spieler zur Verfügung steht.
2020 - OpenAI enthüllt GPT-3 - Mehr erfahren
Generative Pre-trained Transformer 3 (GPT-3) ist ein autoregressives Sprachmodell, das Deep Learning verwendet, um menschenähnlichen Text zu produzieren. Das Netzwerk wurde mit mehr als 400 Milliarden Text-Tokens trainiert.
2021/22 - OpenAI kündigt Dall-E und Dall-E 2 an - Mehr erfahren und hier
Dall-E und Dall-E 2 sind Netzwerke, die mit Diffusion Models trainiert wurden, um Bilder aus Textprompts zu generieren.
2022 - Leap Motion veröffentlicht Midjourney - Mehr erfahren
Midjourney ist ebenfalls ein Text-zu-Bild-Modell mit ähnlichen Fähigkeiten wie Dall-E.
2022 - Stable Diffusion wird von Stability AI, CompVis LMU und Runway veröffentlicht - Mehr erfahren
Stable Diffusion ist ein weiteres Modell zur Generierung von Bildern aus Textprompts. Der Hauptunterschied ist, dass es Open Source ist.
Ist das Magie?#
All diese jüngsten Fortschritte werden hauptsächlich drei großen Meilensteinen in der Deep-Learning-Forschung zugeschrieben: Generative Adversarial Networks (GANs), Diffusion Models und Transformer Models.
GAN war ein revolutionäres Framework für das Training massiver Netzwerke. Auf hoher Ebene definiert die Methode, dass zwei verschiedene Netzwerke in einem Spiel gegeneinander antreten, bei dem nur eines gewinnen kann. Deepfakes werden beispielsweise normalerweise mit dieser Methode generiert.
Diffusion Models wurden entwickelt, damit das Problem der Bildgenerierung nicht in einem Schritt, sondern entlang eines Entrauschungs-Prozesses in N Schritten erfolgt.
Schließlich haben wir Transformer Models, einer der wichtigsten Fortschritte im Machine-Learning-Bereich. Diese Modelle sind neuronale Netzwerke, die Kontext lernen und daher Bedeutung aus sequenziellen Daten ableiten können.
KI-Demokratisierung#
Einer der Hauptunterschiede zwischen dieser KI-Hype-Welle und früheren ist, dass die Anzahl der Menschen, die sie ausprobieren und damit interagieren können, viel größer ist als je zuvor.
Von einem anderen Blickwinkel aus wurden nie so viele dieser Fortschritte als Open-Source-Technologien verfügbar gemacht. OpenAI hat kürzlich whisper und sein Dall-E 2-Modell öffentlich freigegeben. Das Stable Diffusion-Modell ist ebenfalls für die Community verfügbar. Wenn du daran interessiert bist, Stable Diffusion lokal auszuführen, habe ich ein Tutorial dazu geschrieben.

Eines der Unternehmen, das diese Bemühungen anführt, ist HuggingFace. Ein Beispiel dafür ist BLOOM, ein Open-Source-Large-Language-Modell, das kollaborativ von Millionen von Forschern erstellt wurde.
Diese KI-Demokratisierung ist ein einzigartiges Merkmal dieser neuen Hype-Welle:
- Anwendungsfälle sind unterhaltsam und jeder kann sie ausprobieren
- Fast jeder kann es ausprobieren, auch wenn man nicht versteht, wie es funktioniert
- Die Community kann leicht darauf aufbauen
Was kann man heute damit machen?#
Diese Modelle und Technologien kommerzialisieren die Fähigkeit, Inhalte zu generieren, was der letzte Schritt in der Ideenverbreitungs-Wertschöpfungskette war, der noch nicht grundlegend durch Technologie gestört wurde.
Als Beispiel habe ich Stable Diffusion verwendet, um das Thumbnail für diesen Artikel zu generieren.
Außerdem gibt es bereits ganze Websites, die sich auf die Indexierung und Bereitstellung der besten Prompts konzentrieren. Lexica und Prompthero sind zwei Beispiele.
Jenseits von Bildern#
Ich begann vor ein paar Wochen mit Stable Diffusion zu spielen, und die Neuigkeiten, die seitdem herauskamen, haben mich umgehauen.
Oh no... https://t.co/ZNivykXQP4
— Marques Brownlee (@MKBHD) October 19, 2022
Ich war überrascht, dass es bereits so gute Ergebnisse für Text-zu-Video-Modelle gab. Diese Woche entdeckte ich ein Startup namens Runway, das an einem Videoeditor arbeitet, der von all diesen Machine-Learning-Innovationen angetrieben wird. Außerdem sah ich Artikel über Googles neues Text-Video-Netzwerk Imagen Video und Metas Ankündigung von Make-a-Video.
Das Überraschendste (und auch etwas beunruhigend aufgrund potenzieller Implikationen) war jedoch ein Podcast, auf den ich stieß, in dem Joe Rogan Steve Jobs interviewt, erstellt von podcast.ai. Steve Jobs ist bekanntlich verstorben. Diese beiden Männer hatten nie die Chance, im selben Raum zu sein, dennoch gibt es 20 Minuten Audio von ihnen, als ob das Gespräch stattgefunden hätte.
Während ich über die Auswirkungen nachdachte, diese Technologien zu verwenden, um Menschen zu emulieren, die nicht mehr unter uns sind, stieß ich auf diesen Artikel. Es gibt Unternehmen wie DeepBrain AI, die einen solchen Service bereits monetarisieren.
Potenzielle Fallstricke#
Rechtlich & Ethisch#
Einer der potenziellen Fallstricke sind die rechtlichen und ethischen Implikationen dieser neuen KI-Systeme. Wer besitzt das Endprodukt bei der Generierung eines Bildes? Die Person mit dem Prompt? Das Team, das das Modell erstellt? Die Künstler, deren Bilder im Trainingsset waren?
Eine der relevanten Diskussionen zu diesem Thema betrifft die Urheberrechtsprobleme von GitHubs Copilot-Produkt. Weitere Informationen hier.
Künstler finden auch heraus, wie ihre Kunst verwendet wurde, um diese Modelle zu trainieren, und sind nicht glücklich darüber.
Wahrgenommener Wert & Gegenreaktion#
Anfangs dachte ich, dass diese Technologie jeden zu einem guten Künstler machen würde, aber nachdem ich damit gespielt habe, bin ich davon nicht mehr überzeugt. Derzeit denke ich, dass diese Technologien normalen Menschen ermöglichen werden, etwas zu erschaffen, aber professionellen Künstlern Superkräfte verleihen werden.
Es gibt bereits einen neuen Bereich namens Prompt Engineering.
Was kommt als Nächstes?#
Mit dem obigen Disclaimer ist hier, was ich denke, in diesem Bereich in den nächsten 2 bis 5 Jahren passieren wird:
- Rechtliche Fragen rund um das Eigentum werden zunehmen, bis eine gute Lösung gefunden wird
- Dramatische Zunahme der Finanzierung für Unternehmen, die an diesen Problemen arbeiten:
- Die Technologie wird als Features in bestehenden Produkten produktisiert - Adobe hat bereits begonnen, diese Tools in ihre Software zu integrieren
- Alle diese Bereiche werden mit kohärenten Ergebnissen verschmelzen
- Spiele, VR und das Metaverse - Das größte Potenzial liegt darin, wie sehr diese Technologie die Content-Erstellung beschleunigen kann






