Nos últimos anos, o hype em torno da inteligência artificial tem aumentado (novamente). A maior parte deve-se a empresas como OpenAI, Google, DeepMind (subsidiária da Google), Meta e outras a produzirem pesquisas revolucionárias e showcases inovadores na área. De máquinas a ganhar jogos complexos como Go e Dota 2 a uma variedade de técnicas de geração de conteúdo que produzem texto, imagens, áudio e agora vídeo, estas tecnologias terão um impacto no nosso futuro.
Parece que já experienciámos este hype em relação à IA no passado, mas nunca se materializou verdadeiramente em algo relevante para as nossas vidas. Das tentativas do Watson da IBM de revolucionar a saúde às profecias dos carros autónomos, sempre nos disseram como a IA melhoraria a nossa sociedade, mas parece haver sempre algo a impedir-nos de lá chegar.
No entanto, desta vez parece diferente. Primeiro, os casos de uso são muito menos ambiciosos do que no passado e têm aplicações práticas (e divertidas) concretas; segundo, a pesquisa nos últimos 5-10 anos teve alguns dos maiores avanços de sempre nos campos de machine learning e deep learning. Generative Adversarial Networks (GANs), Modelos de Difusão e Modelos Transformer são bons exemplos de tais avanços.
Onde estamos e como chegámos aqui?#
Então, onde estamos agora? Nos últimos 5 a 7 anos, várias inovações específicas e aplicações práticas de IA trouxeram a tecnologia (e as suas respetivas implicações) para a discussão pública.
2015 - Google cria o DeepDream - Ler mais
A Google lança um novo método usando Redes Convolucionais que consegue sonhar novas imagens baseadas no seu conjunto de treino.
2016 - Google constrói o AlphaGo que vence o campeão mundial de Go - Ler mais
O AlphaGo foi treinado usando técnicas de aprendizagem não supervisionada para fazer a rede competir contra si mesma milhões de vezes.
2019 - OpenAI Five vence os campeões de Dota 2 - Ler mais
O OpenAI Five foi treinado usando técnicas semelhantes ao AlphaGo.
2020 - OpenAI revela o GPT-3 - Ler mais
Generative Pre-trained Transformer 3 (GPT-3) é um modelo de linguagem autoregressivo que usa deep learning para produzir texto semelhante ao humano.
2021/22 - OpenAI anuncia Dall-E e Dall-E 2 - Ler mais
Dall-E e Dall-E 2 são redes treinadas usando modelos de difusão para gerar imagens a partir de prompts textuais.
2022 - Leap Motion lança o Midjourney - Ler mais
O Midjourney é também um modelo text-to-image com capacidades semelhantes ao Dall-E.
2022 - Stable Diffusion lançado pela Stability AI, CompVis LMU e Runway - Ler mais
O Stable Diffusion é outro modelo para gerar imagens a partir de prompts textuais. A principal diferença é que é open source.
Isto é magia?#
Todos estes avanços recentes são principalmente atribuídos a três grandes marcos na pesquisa de Deep Learning: Generative Adversarial Networks (GANs), Modelos de Difusão e Modelos Transformer.
GAN foi um framework revolucionário para treinar redes massivas. A alto nível, o método define que duas redes diferentes competirão uma contra a outra num jogo onde apenas uma pode ganhar. Os Deepfakes, por exemplo, são geralmente gerados usando este método.
Os Modelos de Difusão foram criados para que o problema de gerar uma imagem válida não aconteça num só passo, mas ao longo de um processo de denoising que pode levar N passos.
Finalmente, temos os Modelos Transformer, um dos avanços mais importantes no campo do machine learning. Estes modelos são redes neuronais que podem aprender contexto e, portanto, inferir significado a partir de dados sequenciais.
Democratização da IA#
Uma das principais diferenças entre esta onda de hype da IA e as anteriores é que o número de pessoas que podem experimentá-la e interagir com ela é muito maior do que alguma vez foi.
De outro ângulo, nunca tantos destes avanços foram disponibilizados como tecnologias open source. A OpenAI lançou recentemente o whisper e o seu modelo Dall-E 2 ao público. O modelo Stable Diffusion também está disponível para a comunidade. Se estiveres interessado em executar o Stable Diffusion localmente, escrevi um tutorial sobre isso.

Uma das empresas que tem liderado estes esforços é a HuggingFace. Um exemplo é o BLOOM, um modelo de linguagem open source criado colaborativamente por milhões de investigadores.
Esta democratização da IA é uma característica única desta nova onda de hype:
- Os casos de uso são divertidos e todos podem experimentá-los
- Quase todos podem experimentar mesmo sem perceber como funciona
- A comunidade pode construir sobre isso facilmente
O que podes fazer com isto hoje?#
Estes modelos e tecnologias estão a commoditizar a capacidade de gerar conteúdo, que era o último passo na Cadeia de Valor de Propagação de Ideias que ainda não tinha sido fundamentalmente disruptado pela tecnologia.
Como exemplo, usei o Stable Diffusion para gerar a miniatura deste artigo.
Além disso, já existem sites inteiros focados em indexar e fornecer os melhores prompts. Lexica e Prompthero são dois exemplos.
Para além das imagens#
Comecei a brincar com o Stable Diffusion há algumas semanas, e tenho de admitir que as notícias que saíram desde então surpreenderam-me.
Oh no... https://t.co/ZNivykXQP4
— Marques Brownlee (@MKBHD) October 19, 2022
Fiquei surpreendido por já existirem resultados tão bons para modelos text-to-video. Nessa semana, descobri uma startup chamada Runway que está a trabalhar num editor de vídeo alimentado por todas estas inovações de machine learning. Também vi artigos sobre a nova rede text-video da Google, Imagen Video, e o anúncio da Meta do Make-a-Video.
No entanto, o mais surpreendente (e também um pouco perturbador pelas potenciais implicações) foi um podcast que encontrei do Joe Rogan a entrevistar Steve Jobs, criado pela podcast.ai. O Steve Jobs está morto. Estes dois homens nunca tiveram a oportunidade de estar na mesma sala juntos, mas há 20 minutos de áudio deles a falar como se a conversa tivesse acontecido.
Enquanto pensava nos impactos de usar estas tecnologias para emular pessoas que já não estão entre nós, encontrei este artigo. Existem empresas como a DeepBrain AI que já monetizam tal serviço.
Potenciais armadilhas#
Legais & Éticas#
Uma das potenciais armadilhas são as implicações legais e éticas destes novos sistemas de IA. Quem é dono do produto final ao gerar uma imagem? A pessoa que cria o prompt? A equipa que constrói o modelo? Os artistas cujas imagens estavam no conjunto de treino?
Uma das discussões relevantes sobre este tema diz respeito aos problemas de direitos de autor do produto Copilot do GitHub. Mais informações aqui.
Os artistas também estão a descobrir como a sua arte foi usada para treinar estes modelos e não estão contentes.
Valor percebido & Reação#
Inicialmente, pensava que esta tecnologia tornaria todos bons artistas, mas depois de brincar com ela, já não estou convencido disso. Neste momento, penso que estas tecnologias permitirão que pessoas normais possam criar algo, mas darão aos artistas profissionais superpoderes.
Já existe uma nova área chamada Engenharia de Prompts.
O que vem a seguir?#
Com o aviso acima, eis o que penso que acontecerá neste espaço nos próximos 2 a 5 anos:
- As questões legais em torno da propriedade aumentarão até surgir uma boa solução
- Aumento dramático no financiamento para empresas a trabalhar nestes problemas:
- A tecnologia começará a ser produtizada como funcionalidades em produtos existentes - A Adobe já começou a incluir estas ferramentas no seu software
- Todas estas áreas começarão a fundir-se com resultados coerentes
- Jogos, VR e o Metaverse - O maior potencial está em quanto esta tecnologia pode acelerar a criação de conteúdo






