在过去几年中,围绕人工智能的热潮再次升温。这主要归功于OpenAI、Google、DeepMind(Google子公司)、Meta等公司在该领域产出真正具有突破性的研究和创新展示。从机器赢得围棋和Dota 2等复杂游戏,到各种生成文本、图像、音频,现在还有视频的内容生成技术,这些技术将对我们的未来产生影响。
感觉我们过去已经经历过这种对AI的热潮,但它从未真正转化为与我们生活相关的东西。从IBM Watson试图革新医疗保健到自动驾驶汽车的_预言_,我们一直被告知AI将如何改善我们的社会,但似乎总有什么东西阻止我们实现这一目标。
然而,这一次感觉不同。首先,用例比过去更不雄心勃勃,具有具体的实用(且有趣的)应用;其次,过去5-10年的研究在机器学习和深度学习领域取得了一些有史以来最大的飞跃。生成对抗网络(GANs)、扩散模型和Transformer模型就是这类突破的好例子。
我们在哪里,是如何到达这里的?#
那么,我们现在在哪里?在过去的5到7年中,人工智能的几项具体创新和实际应用将这项技术(及其各自的影响)带入了公众讨论。
2015年 - Google创建DeepDream - 了解更多
Google发布了一种使用卷积网络的新方法,可以根据其训练集_梦想_出新图像。
2016年 - Google打造AlphaGo击败围棋世界冠军 - 了解更多
AlphaGo使用无监督学习技术训练,使网络与自己对弈数百万次。
2019年 - OpenAI Five击败Dota 2冠军 - 了解更多
OpenAI Five使用与AlphaGo类似的技术进行训练。
2020年 - OpenAI发布GPT-3 - 了解更多
**生成预训练Transformer 3(GPT-3)**是一种自回归语言模型,使用深度学习生成类人文本。
2021/22年 - OpenAI发布Dall-E和Dall-E 2 - 了解更多
Dall-E和Dall-E 2是使用扩散模型训练的网络,可从文本提示生成图像。
2022年 - Leap Motion发布Midjourney - 了解更多
Midjourney也是一个文本转图像模型,具有与Dall-E类似的功能。
2022年 - Stable Diffusion由Stability AI、CompVis LMU和Runway发布 - 了解更多
Stable Diffusion是另一个从文本提示生成图像的模型。主要区别在于它是开源的。
这是魔法吗?#
所有这些最近的进步主要归功于深度学习研究中的三个重要里程碑:生成对抗网络(GANs)、扩散模型和Transformer模型。
GAN是训练大型网络的革命性框架。在高层次上,该方法定义两个不同的网络在一个只有一个能赢的游戏中相互竞争。例如,深度伪造通常使用这种方法生成。
扩散模型的创建是为了让生成有效图像的问题不是一步完成,而是沿着可能需要_N_步的_去噪_过程进行。
最后,我们有Transformer模型,这是机器学习领域最重要的进步之一。这些模型是可以学习上下文的神经网络,因此可以从序列数据中推断含义。
AI民主化#
这一轮_AI热潮_与过去的主要区别之一是,能够尝试和与之互动的人数比以往任何时候都要多得多。
从另一个角度来看,从未有这么多的进步作为开源技术提供。OpenAI最近向公众发布了whisper和其Dall-E 2模型。Stable Diffusion模型也向社区开放。如果你有兴趣在本地运行Stable Diffusion,我写了一个教程。

引领这些努力的公司之一是HuggingFace。一个例子是BLOOM,这是一个由数百万研究人员协作创建的开源大型语言模型。
这种AI民主化是这一新热潮的独特特征:
- 用例有趣,每个人都可以尝试
- 几乎每个人都可以尝试,即使不了解它是如何工作的
- 社区可以轻松地在其上构建
今天你能用它做什么?#
这些模型和技术正在商品化生成内容的能力,这是_创意传播价值链_中尚未被技术从根本上颠覆的最后一步。
例如,我使用Stable Diffusion生成了这篇文章的缩略图。
此外,已经有整个网站专注于索引和提供最佳提示词。Lexica和Prompthero就是两个例子。
超越图像#
几周前我开始使用Stable Diffusion,我必须承认,自那以后出来的新闻让我大开眼界。
Oh no... https://t.co/ZNivykXQP4
— Marques Brownlee (@MKBHD) October 19, 2022
我很惊讶文本转视频模型已经有这么好的结果。那周,我发现了一家名为Runway的初创公司,他们正在开发一款由所有这些机器学习创新驱动的视频编辑器。我还看到了关于Google新文本视频网络Imagen Video和Meta的Make-a-Video公告的文章。
然而,最令人惊讶的(由于潜在影响也有点令人不安)是我发现的一个播客,Joe Rogan采访Steve Jobs,由podcast.ai创建。Steve Jobs已经去世了。这两个人从未有机会在同一个房间里,但却有20分钟的音频,就像对话真的发生过一样。
在思考使用这些技术_模拟_已故人士的影响时,我发现了这篇文章。有像DeepBrain AI这样的公司已经在将这种服务商业化。
潜在陷阱#
法律和伦理#
潜在陷阱之一是这些新AI系统的法律和伦理影响。生成图像时,谁拥有最终产品?创建提示词的人?构建模型的团队?训练集中图像的艺术家?
关于这个话题的相关讨论之一涉及GitHub Copilot产品的版权问题。更多信息在这里。
艺术家们也在发现他们的艺术如何被用来训练这些模型,他们并不高兴。
感知价值与反弹#
最初,我认为这项技术会让每个人都成为好艺术家,但在使用它之后,我不再相信这一点了。目前,我认为这些技术将使普通人能够_创作_一些东西,但会给专业艺术家超能力。
已经有一个新领域叫做提示工程。
接下来会发生什么?#
基于以上免责声明,以下是我认为未来2到5年这个领域会发生的事情:
- 围绕所有权的法律问题将增加,直到出现好的解决方案
- 从事这些问题的公司融资将大幅增加:
- 技术将开始作为现有产品的功能进行产品化 - Adobe已经开始将这些工具纳入其软件
- 所有这些领域将开始融合,产生连贯的结果
- 游戏、VR和元宇宙 - 最大的潜力在于这项技术可以多大程度上加速内容创作






