メインコンテンツへスキップ
  1. 記事/

新しい人工知能の熱狂

Nuno Coração
著者
Nuno Coração
Principal Product Manager @ Docker
目次
The New AI Hype - この記事は連載の一部です
パート 1: この記事

過去数年間、人工知能に対する熱狂が(再び)高まっています。そのほとんどは、OpenAIGoogleDeepMind(Googleの子会社)、Metaなどの企業が、この分野で真に画期的な研究と革新的なショーケースを生み出していることによるものです。囲碁Dota 2のような複雑なゲームに勝つ機械から、テキスト、画像、音声、そして今やビデオを生成するさまざまなコンテンツ生成技術まで、これらの技術は私たちの未来に影響を与えるでしょう。

過去にAIに対するこの熱狂を経験したことがあるように感じますが、それは私たちの生活に関連するものには実際には実現しませんでした。IBMのWatsonがヘルスケアを革命化しようとした試みから、自動運転車の_予言_まで、AIが私たちの社会をどのように改善するかについて言われてきましたが、そこに到達するのを妨げる何かが常にあるようです。一方では、いくつかの高度な問題に対しては技術がまだそこにないかもしれませんし、他方では、人間は機械が自分たちの専門分野のいくつかを引き継ぐことに懐疑的になる傾向があります(スカイネットはここで助けになりませんでした)。

しかし、今回は違うように感じます。まず、ユースケースは過去よりもはるかに野心的ではなく、具体的で実用的な(そして楽しい)アプリケーションがあります。第二に、過去5〜10年の研究は、機械学習とディープラーニングの分野でこれまでで最大の飛躍のいくつかを遂げました。敵対的生成ネットワーク(GAN)拡散モデルトランスフォーマーモデルは、そのようなブレークスルーの良い例です。第三に、今回は必要な技術と処理能力がこれらの大規模なネットワークを実行し訓練することを可能にしています。

OpenAIはGPT-3テキストtoテキストモデルの訓練に約1,000万〜2,000万ドルを費やしたと推定されています。画像を扱うモデルではコストがより高くなるはずです。

私たちはどこにいて、どうやってここに来たのか?
#

では、今私たちはどこにいるのでしょうか?過去5〜7年間で、いくつかの具体的なイノベーションとAIの実用的なアプリケーションが、この技術(およびその影響)を公の議論に持ち込みました。すでに可能なことに入る前に、過去数年間のより関連性の高い発表を見ていきましょう。

2015年 - GoogleがDeepDreamを作成 - 詳細を読む

Googleは、畳み込みネットワークを使用して訓練セットに基づいて新しい画像を_夢見る_ことができる新しい手法をリリースしました。このネットワークは、例えば、大量の実際の猫の画像から学習した後、猫の新しい画像を生成できました。

2016年 - GoogleがAlphaGoを構築し、囲碁の世界チャンピオンを破る - 詳細を読む

AlphaGoは、教師なし学習技術を使用して訓練され、ネットワークが自分自身と数百万回対戦して、各反復でゲームが上達するようにしました。AlphaGoは囲碁チャンピオンを破り、これまで見られなかった囲碁の手を披露することさえでき、他のゲームからの手を_学習_するだけでなく、独自のプレイを発見していたことを示しました。

2019年 - OpenAI FiveがDota 2のチャンピオンを破る - 詳細を読む

OpenAI FiveはAlphaGoと同様の技術を使用して訓練され、このネットワークは自分自身と数百万回のゲームを行い、どんどん上達しました。Dota 2のようなマルチプレイヤーオンライン3Dゲームをプレイする際の課題は、プレイヤーが利用できる膨大な_アクションスペース_でした。OpenAIは、そのモデルと新しい訓練技術を使用することで、これらの問題を成功裏に解決できることを証明しました。

2020年 - OpenAIがGPT-3を発表 - 詳細を読む

**Generative Pre-trained Transformer 3(GPT-3)**は、ディープラーニングを使用して人間のようなテキストを生成する自己回帰言語モデルです。このネットワークは、巨大なテキスト訓練セットから4,000億以上のテキストトークンで訓練されました。このモデルは、初期プロンプトが与えられると、テキストを書き続けることができます。印象的なのは、文法的・構文的に正しいだけでなく、語られている物語が文を超えて一貫していることです。何ができるかの例を見たい場合は、以下のビデオをご覧ください。何が起こっているかのより詳細な説明については、ネットワークが南アメリカでユニコーンを発見した科学者についての非常に_信じられる_物語を思いつくこのビデオをチェックできます。

2021/22年 - OpenAIがDall-EとDall-E 2を発表 - 詳細を読むこちら

Dall-EとDall-E 2は、テキストプロンプトから画像を生成できるように拡散モデルを使用して訓練されたネットワークです。文章を書くと、AIが短時間でその画像を思いついてくれます。このモデルはさまざまなスタイルを出力でき、以前の画像を使用して新しい画像の作成をガイドすることができます。

2022年 - Leap MotionがMidjourneyをリリース - 詳細を読む

Midjourneyもtext-to-imageモデルです。できることはDall-Eとほぼ同じですが、異なる訓練セットのため、提供される出力に顕著な違いがあります。必ずしも一方が他方より優れているわけではなく、単に異なるだけです。

2022年 - Stability AI、CompVis LMU、RunwayのコラボレーションによりStable Diffusionがリリース(EleutherAIとLAIONのサポートあり) - 詳細を読む

Dall-EやMidjourneyと同様に、Stable Diffusionもテキストプロンプトから画像を生成する別のモデルです。主な違いは、このモデルを作成したエンティティがオープンソースにしたことで、誰でも遊ぶことができます。以前のモデルは当時プロプライエタリだったため、これは多くの話題を生みました。

現時点では、これらの技術のほとんどをローカルまたはサービス(例:OpenAI API)を通じて使用して、テキストと画像を生成することが可能です。テキストの小さなプロンプトから本の章全体を生成することが可能で、_リリース準備完了_の出力ではないかもしれませんが、少なくともライターズブロックの助けにはなるでしょう。また、テキストから画像を生成したり、画像から画像を生成したり、既存の画像をインペイント・アウトペイントすることも可能です。さらに、持っている画像の一部を消去し、これらのモデルの1つに別の画像またはテキストプロンプトを使用して完成させることも可能です。加えて、同じ技術を使用して既存の画像を拡張することも可能です(下の例)。

これは魔法なのか?
#

これらの最近の進歩はすべて、主にディープラーニング研究における3つの大きなマイルストーンに起因しています:敵対的生成ネットワーク(GAN)拡散モデルトランスフォーマーモデル

GANは、完全なデータセットがなくても大規模なネットワークを訓練するための革命的なフレームワークでした。高レベルでは、この方法は2つの異なるネットワークが1つだけが勝てるゲームで互いに競争し、各インタラクションで学習して上達することを定義しています。ディープフェイクは、例えば、通常この方法を使用して生成されます。1つのネットワークが誰かの_偽の_画像を生成しようとし、もう1つがそれが偽物か本物かを推測しようとします。この方法はAlphaGOとOpenAI Fiveの開発にも使用されました。

これらの技術の問題は、訓練が難しく、ネットワークが2番目のネットワークを_騙す_方法を知った後、興味深い新しいことを試すインセンティブがほとんどまたはまったくないことです。

そこで登場するのが拡散モデルです。これらのモデルは、有効な画像を生成する問題が1つのステップではなく、_N_ステップかかる_ノイズ除去_プロセスに沿って発生するように作られました。訓練セットは、有効な実際の画像(およびそれぞれのテキスト説明)にさまざまなレベルのノイズを追加することによって構築されます。学習プロセスは、ネットワークが最終画像に到達するために少量のノイズを除去する方法を学習することで構成されます。これにより、学習プロセスに対する制御が増し、以前よりもはるかに多くの出力を生成できるネットワークを生み出すことになります。すべてがどのように機能するかについてもっと知りたい場合は、以下のビデオをお勧めします。

最後に、トランスフォーマーモデルがあります。これは機械学習分野で最も重要な進歩の1つであり、間違いなく今日私たちが見ているすべてを可能にする礎石の1つです。これらのモデルは、コンテキストを学習し、したがって順次データから意味を推測できるニューラルネットワークです。

トランスフォーマー以前は、ネットワークは大きなラベル付きデータセットから_学習_するために畳み込みニューラルネットワーク(CNN)再帰型ニューラルネットワーク(RNN)に依存していました。これらは生成に長い時間とお金がかかり、最終モデルの複雑さを増しました。トランスフォーマーは数学的にパターンを見つけることができるため、ラベル付きデータセットを必要としません。これは、インターネットや企業のデータベースにある何兆もの画像やペタバイトのテキストデータで新しいモデルを訓練することが可能になったことを意味します。

AIの民主化
#

この_AIハイプの波_と過去のものとの主な違いの1つは、それを試してインタラクションできる人の数がかつてないほど多いことです。インターネットにより、何が可能かを探索し、人々がそれで遊べるようにするサービスを作成することが可能になりました。場合によっては、これらのイノベーションの背後にある企業に新しいビジネスモデルを作成することさえできます。個人的に、何人の人がDall-Eで遊ぶためにOpenAIにお金を払っているのかまだ不思議に思っています。

別の角度から見ると、これらの進歩がオープンソース技術として利用可能になり、人々がダウンロードし、遊び、さらにはそれを基に構築できるようになったことはかつてないほどです。OpenAIは最近whisperとそのDall-E 2モデルを一般に公開しました。Stable Diffusionモデルもコミュニティに利用可能であり、その背後にはすでにいくつかの注目すべきプロジェクトがあります。Stable Diffusionをローカルで実行することに興味がある場合は、それについてのチュートリアルを書きましたので、興味があれば試してみてください。

これらの取り組みを先導している企業の1つがHuggingFaceです。この会社は、ユーザーがオープンソース技術とコードに基づいて機械学習モデルを構築、訓練、デプロイできるようにするツールを提供しています。また、多くの当事者がモデルを共有し、互いに構築するのを支援しています。その例がBLOOMで、数百万人の研究者の間で協力して作成されたオープンソースの大規模言語モデルです。

このAIの民主化は、世界が経験しているこの新しいハイプの波のユニークな特徴であり、3つの理由から、それが私たちの生活にどのように影響するかの結果を完全に変える可能性があります:

  • ユースケースが楽しく、誰でも試すことができる - 自動運転の予言や80年代の_すべてを知る_ヘルスケアAIとは異なり、これらのユースケースははるかにシンプルでユビキタスであり、したがってより多くの人々にアピールします。
  • 仕組みを理解していなくても、ほぼ誰でも試すことができる - オープンソースソフトウェアライセンスまたはウェブサイトを通じて利用可能で、望む人はほぼ誰でもこれらを試して楽しむことができます。
  • コミュニティが簡単にその上に構築できる - これらの一部が一般に公開されるという事実は、この分野で起こるイノベーションを指数関数的に増加させるでしょう。

最終的に、上記のすべての理由は、AI全体をより広く普及し、よく受け入れられる技術にすることに貢献し、うまくいけば_ターミネーター_や_マトリックス_のような映画のポップカルチャーのビジョンから私たちを遠ざけるでしょう。

今日、これで何ができるのか?
#

これらのモデルと技術は、コンテンツを生成する能力を商品化しており、これは技術によって根本的に破壊されていなかった_アイデア伝播バリューチェーン_の最後のステップでした。インターネットはすでにコンテンツを配布する方法(チェーンの最後の部分)を完全に変えました。ほぼすべてのファイルはデジタルであり、ゼロコストでコピーでき、地球上の誰にでもほぼ瞬時に送信できます。これらの新しい技術は、伝播バリューチェーンの初期段階、つまりアイデアの創造具体化を革命化するでしょう。

私が遊ぶ機会があった技術(Dall-e、Midjourney、Stable Diffusion)を考えるだけでも、絵を描いたり、ペイントしたり、3Dコンテンツをモデリング・レンダリングしたりすることを学ぶ前提条件が完全になくなります。誰でも人工エージェントに何を見たいかを伝えることができ、それが作成してくれるようになります。

例として、Stable Diffusionを使用してこの記事のサムネイルを生成しました。私は多かれ少なかれ何が欲しいかを知っていたので、気に入るものが見つかるまで数十のアイデアを試すだけの問題でした。いくつかの例を以下に示します。

さらに、アイデアが尽きてプロンプトのデザインに助けが必要な場合、他の人が作成したものの例とともに最高のプロンプトをインデックス化して提供することに焦点を当てたサイトがすでにあります。LexicaPromptheroは、私が素晴らしい結果で試した2つの例です。

しかし、画像はほんの始まりに過ぎません…

画像を超えて
#

数週間前にStable Diffusionで遊び始めましたが、それ以来出てきたニュースには驚かされました。AIに画像を生成させることが現在どれほど簡単かに驚いていたところ、それをはるかに超えようとしているプロジェクトがあることに気づきました。

MKBHDからのこのリツイートを見つけたときに始まりました:

text-to-videoモデルにすでにこれほど良い結果があり、多くの企業がそれに取り組んでいることに驚きました。その週、機械学習のすべてのイノベーションを活用したビデオエディターに取り組んでいるRunwayというスタートアップを発見しました。数日後、Googleの新しいtext-videoネットワークImagen Videoと、MetaのMake-a-Videoの発表についての記事を見ました。

テキストやフラットな画像から3Dモデルを生成し、テキストの説明に基づいて3Dモードをアニメーション化するための作業も急速に発見しました。

しかし、最も驚くべきもの(そして潜在的な影響のために少し不安になるもの)は、podcast.aiによって作成されたジョー・ローガンがスティーブ・ジョブズにインタビューするポッドキャストでした。ご存知ない方のために説明すると、ジョー・ローガンは何年も続く非常に成功したポッドキャスト番組を持っており、スティーブ・ジョブズは、まあ、亡くなっています。この二人の男性は同じ部屋にいる機会がありませんでしたが、おそらく彼らの許可なく、会話が行われたかのような20分の音声があります。

もう私たちの中にいない人々を_エミュレート_するためにこれらの技術を使用することの影響について考えている間に、この記事を見つけました。つまり、有名人でこれを行っている人々の例があるだけでなく、DeepBrain AIのような企業がすでにそのようなサービスを収益化し、亡くなった愛する人のデジタルアバターを作成できるのです。

潜在的な落とし穴
#

種としての私たちの歴史を通じて、新しい発明が登場した後に解決しなければならない問題や課題が常にありました。

法的・倫理的
#

潜在的な落とし穴の1つは、これらの新しいAIシステムの法的および倫理的影響とその社会への影響です。例えば、この記事のtext-to-imageモデルの1つを使用して画像を生成する場合、最終製品は誰のものでしょうか?プロンプトを考えた人?モデルを構築したチーム?訓練セットを構築したチーム?そのセットに画像があったアーティスト?全員?誰でもない?この段階では何も解決されておらず、すでに大きな懸念事項です。

このトピックに関して現在行われている関連する議論の1つは、GitHubのCopilot製品の著作権問題に関するものです。Copilotは、例えばコメントをコードに変換することで、開発者がより速くコーディングできるようにするために、GitHubで利用可能なすべてのコードリポジトリを使用して訓練されたAIです。自分のコードが、一銭も得ることなく、民間企業に潜在的に数百万ドルを生み出すために使用されていると知ったら、どう感じますか?興味があればこちらに詳細があります。

アーティストもまた、自分のアートがこれらのモデルの訓練に使用された方法を発見しており、それに満足していません。これらのソリューションのいずれかを使用または作成している場合、企業やスタートアップもIP侵害について心配する必要があります。

最後に、この技術が悪意のある人々によって使用される可能性を考慮すると、さらに大きな問題があります。人々が決してしなかったことをしている画像を生成したり、決して言わなかったことを言っている画像を生成したりすることです。これはディープフェイクと同じ問題であり、すでにいくつかの研究イニシアチブが進行中ですが、まだ現実の懸念です。価値があることに、この記事のいくつかのツールは、サービスに安全フィルターを追加することで、そのタイプのコンテンツを生成できないようにする素晴らしい仕事をしました。しかし、すべてのオープンソースのものについては、誰でもそれらの安全対策を無効にする力を持っています。

これらはすべて、業界内で可能な限り早く対処されるべき非常に有効な法的懸念であり、そうでなければ、すべてが何年も後退させる法的嵐になるリスクがあります。法的側面だけでなく、この技術は誰かの人生を破壊する非常に現実的な可能性を持っているため、時間をかけて間違いに対する許容度を低くして考えるべきです。

知覚価値と反発
#

当初、この技術は誰もが良いアーティストになれると思っていましたが、それで遊んでから、もはやそうではないと確信しています。良いアーティストを作るのは、彼らの生の実行能力だけではありません。創造性、実際に何を作りたいか、芸術的知識などの要素は、良い最終製品を持つために非常に重要です。この段階では、これらの技術は普通の人々が何かを_作成_できるようにすると思いますが、現在のプロのアーティストにスーパーパワーを与え、彼らの作品を別のレベルに引き上げることができるでしょう。

そうは言っても、これらのモデルが社会としてより多く、より速く、より低コストで生産できるようにするという事実は、その出力の知覚価値に影響を与えるでしょう。例として、約20人のデザイン部門を持つ特定のニュースメディア出版物を想像してください。現在の技術が主流になれば、おそらくその同じ部門は20人を必要としなくなるでしょう。

それほど前ではない話で、The Atlanticのジャーナリストがミッドジャーニーを使用して記事用の画像を生成し、Twitterで大規模な反発を受けました。彼の考えはここで読めます。これらのアーティストの一部が働いているすでに困難で競争の激しい環境を考えると、これらのツールに対する潜在的な反発は理解できます。雇用市場への潜在的な実際の影響があります。短期的には一部の人々にとって悪いことになるとしても、本当の問題は長期的に良いのか悪いのかということです。この現象は大きな技術革新ではかなり一般的であり、歴史を通じて何度も起こっています。

注:すでにプロンプトエンジニアリングという新しい分野があり、他の分野もすぐに現れるかもしれません。

興味深いことに、法的懸念人間の反発は、過去のAIシステムの採用における主要な落とし穴であり、一般的な技術以上にそうでした。

次は何か?
#

既存の技術の現在のアプリケーションは大規模になると思うので、どんな予測でも高い不確実性を持つでしょう。これらの技術は現在の_アイデア伝播バリューチェーン_に影響を与え、特にこれまで触れられていなかったチェーンの部分、つまり_創造具体化に影響を与えます。この事実だけで、複製配布_部分を変えたインターネット以上に私たちに影響を与える可能性があります。それらの影響だけでも、本のシリーズ全体のページとページの議論になる可能性があります。このトピックのこの部分に興味がある場合は、ベン・トンプソンの記事を強くお勧めします。

上記の免責事項を踏まえて、今後2〜5年でこの分野で何が起こるかについて私が思うことを述べます。

  • 所有権に関する法的問題は、良い解決策が出てくるまで増加する - この記事ですでにいくつかの潜在的な法的問題について議論しましたが、それらが解決されなければ、この分野で起こっているすべてを脱線させるリスクがあります。著作権のものについては、法的訴訟の根拠は控えめに言っても曖昧であり、イノベーションに実際に影響を与える前に、これらの議論は何年も引きずられる可能性があります。
  • これらの問題に取り組む企業への資金調達の劇的な増加 – ハイプは通常FOMOを意味し、これはその分野の問題を解決したい人により多くのお金を意味します(はい、現在のマクロ経済状況でさえ)。一部の企業が歴史上最大のシードラウンドのいくつかを調達するなど、これに関する初期の信号がすでに見られています:
  • 技術は既存の製品の機能として製品化され始める - この技術の一部は、今日の画像およびビデオ編集ソフトウェアに入る可能性があります。Runwayのような企業は、この技術を核心とするまったく新しい製品をすでに作成しています。Adobeのような既存企業もすでにソフトウェアにこれらのツールを含め始めています、つまり、Dall-EをAdobe Creative Cloudに直接組み込むなど。
  • これらすべての分野が一貫した結果で統合し始める - 今後12〜18か月でこれに関して何かが起こると予想しています。少なくとも、これらの分野の最低2つを何か新しいものに統合するある種のPoCが見られるでしょう。ビデオ+オーディオ、または3D+アニメーションなど。
  • ゲーム、VR、メタバース - この技術の最大の可能性は、コンテンツ作成をどれだけ加速できるかにあると感じています(品質が一定になったら、まだそうではありませんが)。ゲームと3Dコンテンツは、これらのモデルが解決できる最大の問題があると思う分野です。コンセプト化、モデリング、リギング、アニメーションなど、ゲームのキャラクターを作成するために費やされる時間、リソース、お金の量を考えてみてください。AIツールは、これらの巨大なゲームワールドの作成をより効果的かつ効率的にすることができます。

このエキサイティングな分野で何が起こるかを待つ間、私はできる限りこれらの技術を研究し、遊び続けます。これらのシステムで何を作成しますか?大規模に展開することの影響は何だと思いますか?連絡して教えてください。

注:その間、Stable Diffusionの作品をウェブで共有するためにInstagramアカウントを作成しました 😬

The New AI Hype - この記事は連載の一部です
パート 1: この記事

関連記事