La Inteligencia Artificial Generativa tiene una rama importante de "su ser" dentro del Aprendizaje Profundo (Deep Learning) y no del Aprendizaje Automático (Machine Learning)
Cómo se confunde o se clasifica la Inteligencia Artificial Generativa (IAG) y se integra erróneamente (desde mi punto de vista argumentado) dentro de Machine Learning.
La IA generativa es un subconjunto del aprendizaje profundo que se centra en construir sistemas capaces de generar nuevos datos, como imágenes, vídeos y audio, en contra de lo que en algunos informes nos hace creer como los de la UNESCO. Es para mi un concepto-paraguas, por lo que de ahí la confusión.
La UNESCO dice en “Guidance for generative AI in education and research” (2023) [enlace]:
Las tecnologías específicas que subyacen a GenAI forman parte de la familia de tecnologías de IA denominada Machine Learning (ML), que utiliza algoritmos que le permiten mejorar de forma continua y automática su rendimiento a partir de los datos. El tipo de ML que ha dado lugar a muchos de los avances en IA que hemos visto en los últimos años, como el uso de la IA para el reconocimiento facial, se conoce como Redes Neuronales Artificiales (RNA), que se inspiran en el funcionamiento del cerebro humano y sus conexiones sinápticas entre neuronas. Hay muchos tipos de RNA.
Si se profundiza un poco más en la IAG y se mira páginas de grandes empresas y corporaciones que trabajan en la IA como IBM, Nvidia, y otros.
La Inteligencia Artificial Generativa (IAG), que incluye modelos como DALL-E y GPT-3, se ha popularizado enormemente en los últimos años gracias a su capacidad para producir contenido novedoso como imágenes y texto. Pero, ¿en qué tipo de tecnología se basan realmente estos asombrosos modelos generativos?
A menudo se clasifica erróneamente a la IAG como una aplicación de las técnicas tradicionales de aprendizaje automático (Machine Learning). Sin embargo, la realidad es que los avances más recientes en IAG provienen principalmente de las redes neuronales profundas (deep learning).
El deep learning hace uso de sofisticadas redes neuronales artificiales empiladas en múltiples capas de procesamiento, lo que les permite extraer representaciones mucho más complejas y abstractas de los datos de entrenamiento.
Por el contrario, el Machine Learning tradicional se centra más en algoritmos de aprendizaje supervisado, no supervisado y por refuerzo aplicados a los datos de entrada. Estos enfoques tienen un alcance limitado en comparación con las redes neuronales profundas.
Por lo tanto, desde un punto de vista técnico, es incorrecto catalogar a los modelos de IAG más innovadores como simples aplicaciones de Machine Learning. Su arquitectura y método de entrenamiento se basan primordialmente en redes neuronales profundas.
Entidades como la UNESCO han incurrido en la imprecisión de clasificar la IAG dentro de la familia del Machine Learning. Pero para entender correctamente estas tecnologías emergentes, es clave reconocer que el Deep Learning, y no el machine learning clásico, es la piedra angular detrás de los recientes avances en IA generativa.
Así que la próxima vez que escuches sobre una nueva creación asombrosa de la IAG, recuerda que es el poder del Deep Learning y las redes neuronales artificiales lo que la hace posible. El Machine Learning, aunque relacionado, constituye solo una pequeña parte del rompecabezas.
La IA generativa utiliza técnicas como las Redes Adversarias Generativas (GANs, Generative Adversarial Networks en inglés) y los autocodificadores variacionales (VAE, Variational Autoencoder en inglés) entre otros. Nuestro diagrama sería:

La Inteligencia Artificial Generativa (IAG) se refiere al uso de modelos de aprendizaje automático para generar datos que no existían previamente. Estos modelos han ganado popularidad en la creación de contenido nuevo, como imágenes, música, texto y más. Veamos cómo los enfoques mencionados anteriormente se aplican en el contexto de la IAG, desde el campo de Aprendizaje Automático (Machine Learning):
Aprendizaje supervisado: No es el enfoque principal utilizado en IAG, ya que el aprendizaje supervisado se centra en etiquetar entradas en lugar de generar datos desde cero. Sin embargo, se puede utilizar en etapas preparatorias donde se necesita etiquetar datos para otros fines.
Aprendizaje no supervisado: Este enfoque tiene una gran importancia en la IAG. Uno de los algoritmos más destacados que utiliza el aprendizaje no supervisado en el contexto de IAG son las Redes Adversarias Generativas (GANs). Las GANs se usan ampliamente para:
Generar imágenes realistas.
Crear arte y música.
Producción de video y animaciones.
Diseño de moda y objetos 3D.
Aprendizaje por refuerzo: Tiene aplicaciones en la IAG, especialmente en contextos donde se necesita iterar y mejorar generaciones basadas en recompensas. Puede ser utilizado en:
Optimización y diseño de objetos.
Juegos, para desarrollar nuevos niveles o contenido.
Aprendizaje semi-supervisado: Se puede utilizar en contextos donde se tiene una cantidad limitada de datos etiquetados. Las técnicas semi-supervisadas pueden ser útiles para mejorar la calidad del contenido generado, aunque no son el núcleo principal de la IAG.
Aprendizaje por transferencia: Este es fundamental en la IAG, especialmente en el dominio del procesamiento del lenguaje natural (NLP, por sus siglas en inglés). Modelos como BERT y GPT (de OpenAI) utilizan aprendizaje por transferencia para tareas generativas, como:
Generación de texto.
Traducción automática.
Creación de poesía o prosa.
Aprendizaje activo: No es el enfoque principal en la IAG, pero podría tener aplicaciones en escenarios especializados donde la obtención de ciertos tipos de datos etiquetados es cara o difícil.
En resumen, mientras que muchos de los enfoques de aprendizaje automático (Machine Learning) mencionados anteriormente tienen algún tipo de aplicación en la Inteligencia Artificial Generativa, el aprendizaje no supervisado (en particular las GANs) y el aprendizaje por transferencia son especialmente predominantes en la creación de contenidos como imágenes, texto y música, pero no es para el uso y creación por métodos generativos complejos que se usa Machine Learning, sino las Redes Neuronales (Deep Learning).
Y entonces el Deep Learning ¿qué función tiene en el IAG?
El Deep Learning, o aprendizaje profundo, es una subcategoría del aprendizaje automático que utiliza redes neuronales con múltiples capas (de ahí el término "profundo"). Estas redes son capaces de aprender y modelar patrones complejos en grandes conjuntos de datos, lo que las hace particularmente adecuadas para tareas de IAG (Inteligencia Artificial Generativa). Dentro de la IAG, el Deep Learning es fundamental y ha impulsado muchos de los avances más impresionantes. Veamos cómo:
- Redes Adversarias Generativas (GANs): Son uno de los mayores avances en IAG y se basan en el Deep Learning. Utilizan dos redes neuronales (el generador y el discriminador) que trabajan en conjunto. El generador intenta crear datos, mientras que el discriminador intenta distinguir entre datos reales y generados. A través de este proceso "adversario", las GANs pueden generar datos (como imágenes) que son indistinguibles de los reales.
- Modelos de lenguaje: Los modelos basados en transformadores, como GPT (Generative Pre-trained Transformer) de OpenAI, utilizan arquitecturas de Deep Learning para generar texto que puede imitar el estilo y coherencia del lenguaje humano. Estos modelos han sido entrenados con grandes cantidades de texto y son capaces de completar tareas de generación de texto, traducción, resumen, entre otros.
- Modelos generativos para música y audio: Las redes neuronales también han sido utilizadas para generar composiciones musicales o replicar estilos de música específicos. También pueden ser utilizadas para generar o modificar audios, como en la síntesis de voz.
- Modelos generativos para video: Las redes neuronales convolucionales (CNNs) y las GANs se han utilizado en conjunto para generar o modificar videos. Por ejemplo, para la creación de deepfakes.
- Autoencoders: Son otro tipo de red neuronal que ha sido utilizado en tareas generativas. Aprenden a comprimir datos en una representación más pequeña y luego a descomprimirlos, y pueden ser usados para generar nuevos datos similares a los datos de entrenamiento.
En conclusión, el Deep Learning es una herramienta esencial en la IAG y es responsable de muchos de los desarrollos y capacidades actuales en el campo. Las arquitecturas de redes neuronales profundos, con su capacidad de modelar y generar patrones complejos, han demostrado ser particularmente eficaces en la generación de datos en múltiples dominios, desde imágenes y texto hasta audio y video.