En los últimos años, el hype alrededor de la inteligencia artificial ha aumentado (de nuevo). La mayor parte se debe a empresas como OpenAI, Google, DeepMind (subsidiaria de Google), Meta y otras produciendo investigaciones revolucionarias y demostraciones innovadoras en el campo. Desde máquinas ganando juegos complejos como Go y Dota 2 hasta una variedad de técnicas de generación de contenido que producen texto, imágenes, audio y ahora video, estas tecnologías tendrán un impacto en nuestro futuro.
Parece que ya hemos experimentado este hype hacia la IA en el pasado, pero nunca se materializó realmente en algo relevante para nuestras vidas. Desde los intentos de Watson de IBM de revolucionar la salud hasta las profecías de los autos autónomos, siempre nos han dicho cómo la IA mejorará nuestra sociedad, pero siempre parece haber algo que nos impide llegar allí.
Sin embargo, esta vez se siente diferente. Primero, los casos de uso son mucho menos ambiciosos que en el pasado y tienen aplicaciones prácticas (y divertidas) concretas; segundo, la investigación en los últimos 5-10 años ha tenido algunos de los mayores avances en los campos de machine learning y deep learning. Generative Adversarial Networks (GANs), Modelos de Difusión y Modelos Transformer son buenos ejemplos de tales avances.
¿Dónde estamos y cómo llegamos aquí?#
Entonces, ¿dónde estamos ahora? En los últimos 5 a 7 años, varias innovaciones específicas y aplicaciones prácticas de IA han traído la tecnología (y sus respectivas implicaciones) a la discusión pública.
2015 - Google crea DeepDream - Leer más
Google lanza un nuevo método usando Redes Convolucionales que puede soñar nuevas imágenes basadas en su conjunto de entrenamiento.
2016 - Google construye AlphaGo que vence al campeón mundial de Go - Leer más
AlphaGo fue entrenado usando técnicas de aprendizaje no supervisado para hacer que la red compita contra sí misma millones de veces.
2019 - OpenAI Five vence a los campeones de Dota 2 - Leer más
OpenAI Five fue entrenado usando técnicas similares a AlphaGo.
2020 - OpenAI revela GPT-3 - Leer más
Generative Pre-trained Transformer 3 (GPT-3) es un modelo de lenguaje autorregresivo que usa deep learning para producir texto similar al humano.
2021/22 - OpenAI anuncia Dall-E y Dall-E 2 - Leer más
Dall-E y Dall-E 2 son redes entrenadas usando modelos de difusión para generar imágenes a partir de prompts textuales.
2022 - Leap Motion lanza Midjourney - Leer más
Midjourney es también un modelo text-to-image con capacidades similares a Dall-E.
2022 - Stable Diffusion lanzado por Stability AI, CompVis LMU y Runway - Leer más
Stable Diffusion es otro modelo para generar imágenes a partir de prompts textuales. La principal diferencia es que es open source.
¿Es esto magia?#
Todos estos avances recientes se atribuyen principalmente a tres grandes hitos en la investigación de Deep Learning: Generative Adversarial Networks (GANs), Modelos de Difusión y Modelos Transformer.
GAN fue un framework revolucionario para entrenar redes masivas. A alto nivel, el método define que dos redes diferentes competirán entre sí en un juego donde solo una puede ganar. Los Deepfakes, por ejemplo, generalmente se generan usando este método.
Los Modelos de Difusión fueron creados para que el problema de generar una imagen válida no ocurra en un solo paso, sino a lo largo de un proceso de denoising que puede tomar N pasos.
Finalmente, tenemos los Modelos Transformer, uno de los avances más importantes en el campo del machine learning. Estos modelos son redes neuronales que pueden aprender contexto y, por lo tanto, inferir significado a partir de datos secuenciales.
Democratización de la IA#
Una de las principales diferencias entre esta ola de hype de la IA y las anteriores es que el número de personas que pueden probarla e interactuar con ella es mucho mayor de lo que jamás ha sido.
Desde otro ángulo, nunca tantos de estos avances se han puesto a disposición como tecnologías open source. OpenAI ha lanzado recientemente whisper y su modelo Dall-E 2 al público. El modelo Stable Diffusion también está disponible para la comunidad. Si estás interesado en ejecutar Stable Diffusion localmente, escribí un tutorial sobre ello.

Una de las empresas que ha estado liderando estos esfuerzos es HuggingFace. Un ejemplo es BLOOM, un modelo de lenguaje open source creado colaborativamente por millones de investigadores.
Esta democratización de la IA es una característica única de esta nueva ola de hype:
- Los casos de uso son divertidos y todos pueden probarlos
- Casi todos pueden probarlo incluso si no entienden cómo funciona
- La comunidad puede construir sobre ello fácilmente
¿Qué puedes hacer con esto hoy?#
Estos modelos y tecnologías están commoditizando la capacidad de generar contenido, que era el último paso en la Cadena de Valor de Propagación de Ideas que aún no había sido fundamentalmente disrumpido por la tecnología.
Como ejemplo, usé Stable Diffusion para generar la miniatura de este artículo.
Además, ya existen sitios enteros enfocados en indexar y proporcionar los mejores prompts. Lexica y Prompthero son dos ejemplos.
Más allá de las imágenes#
Empecé a jugar con Stable Diffusion hace un par de semanas, y tengo que admitir que las noticias que salieron desde entonces me dejaron boquiabierto.
Oh no... https://t.co/ZNivykXQP4
— Marques Brownlee (@MKBHD) October 19, 2022
Me sorprendió que ya hubiera tan buenos resultados para modelos text-to-video. Esa semana descubrí una startup llamada Runway que está trabajando en un editor de video impulsado por todas estas innovaciones de machine learning. También vi artículos sobre la nueva red text-video de Google, Imagen Video, y el anuncio de Meta de Make-a-Video.
Sin embargo, la más sorprendente (y también un poco inquietante por las implicaciones potenciales) fue un podcast que encontré de Joe Rogan entrevistando a Steve Jobs, creado por podcast.ai. Steve Jobs está muerto. Esos dos hombres nunca tuvieron la oportunidad de estar en la misma habitación juntos, pero hay 20 minutos de audio de ellos hablando como si la conversación hubiera ocurrido.
Mientras pensaba en los impactos de usar estas tecnologías para emular personas que ya no están entre nosotros, encontré este artículo. Hay empresas como DeepBrain AI que ya monetizan tal servicio.
Posibles trampas#
Legales y Éticas#
Una de las posibles trampas son las implicaciones legales y éticas de estos nuevos sistemas de IA. ¿Quién es dueño del producto final al generar una imagen? ¿La persona que crea el prompt? ¿El equipo que construye el modelo? ¿Los artistas cuyas imágenes estaban en el conjunto de entrenamiento?
Una de las discusiones relevantes sobre este tema se refiere a los problemas de derechos de autor del producto Copilot de GitHub. Más información aquí.
Los artistas también están descubriendo cómo su arte fue usado para entrenar estos modelos y no están contentos.
Valor percibido y Reacción#
Inicialmente, pensé que esta tecnología haría que todos fueran buenos artistas, pero después de jugar con ella, ya no estoy convencido de eso. Actualmente, creo que estas tecnologías permitirán a las personas normales crear algo, pero darán a los artistas profesionales superpoderes.
Ya existe una nueva área llamada Ingeniería de Prompts.
¿Qué sigue?#
Con el descargo de responsabilidad anterior, esto es lo que creo que sucederá en este espacio en los próximos 2 a 5 años:
- Los problemas legales en torno a la propiedad aumentarán hasta que surja una buena solución
- Aumento dramático en la financiación para empresas que trabajan en estos problemas:
- La tecnología comenzará a ser productizada como características en productos existentes - Adobe ya comenzó a incluir estas herramientas en su software
- Todas estas áreas comenzarán a fusionarse con resultados coherentes
- Juegos, VR y el Metaverse - El mayor potencial está en cuánto puede esta tecnología acelerar la creación de contenido






