La inteligencia artificial corpórea: modelos de mundo, arquitectura JEPA y el futuro de la cognición artificial según Yann LeCun
Mientras los LLM dominan el discurso sobre IA, Yann LeCun propone una alternativa radical: modelos de mundo basados en la arquitectura JEPA que aprenden física intuitiva, planifican acciones y comprenden el entorno físico. Analizamos V-JEPA 2, AMI Labs y las implicaciones para la educación superior.
La inteligencia artificial atraviesa un momento de inflexión paradigmática. Mientras los grandes modelos de lenguaje (LLM) dominan el discurso mediático y comercial, figuras prominentes del campo han comenzado a señalar sus limitaciones estructurales para alcanzar lo que podríamos denominar una inteligencia genuinamente autónoma. En este contexto, la propuesta de Yann LeCun sobre inteligencia artificial corpórea (embodied AI) y modelos de mundo representa una alternativa conceptual y técnica de considerable profundidad teórica.
¿Qué sucede cuando la robótica se une a la inteligencia artificial? Desde la automatización hasta la resolución de problemas, las posibilidades son infinitas.
El problema fundamental: por qué los LLM no bastan
LeCun ha articulado una crítica sistemática a la arquitectura dominante de los modelos generativos autorregresivos (LeCun, 2022). Su argumento central sostiene que predecir tokens de manera secuencial, por muy sofisticado que resulte el modelo, constituye un mecanismo inherentemente limitado para capturar la comprensión del mundo físico. Los LLM funcionan bien a nivel lingüístico, pero carecen de comprensión real del mundo: no poseen sentido común ni relaciones causales, y constituyen simplemente una acumulación de correlaciones estadísticas.
Esta observación no emerge del escepticismo gratuito sino de evidencia empírica acumulada. Un adolescente puede aprender a conducir en veinte horas, pero todavía no disponemos de conducción autónoma de nivel cinco. Un niño puede limpiar una mesa y cargar el lavavajillas al primer intento, pero no contamos con robots capaces de realizar tareas domésticas. Estas comparaciones revelan que la inteligencia no reside en la capacidad de conversar sino en la capacidad de actuar, precisamente el punto débil de los LLM (LeCun, 2022).
El problema trasciende las limitaciones de escala. El escalado puede hacer que el modelo se asemeje más a una persona capaz de hablar, pero no puede hacerlo más similar a una persona que comprende el mundo. La arquitectura misma impone restricciones que ningún aumento de parámetros puede superar: la generación token a token implica un cómputo fijo por token, algo que LeCun describe como razonamiento de sistema uno, reactivo y carente de deliberación genuina.
Comparativa: grandes modelos de lenguaje frente a modelos de mundo
| Dimensión | LLM (transformers autorregresivos) | Modelos de mundo (JEPA) |
|---|---|---|
| Mecanismo central | Predicción del siguiente token en secuencias de texto | Predicción en espacios de representación abstractos (embeddings) |
| Tipo de comprensión | Correlaciones estadísticas lingüísticas | Relaciones causales y física intuitiva |
| Modalidad principal | Texto (con extensiones multimodales) | Vídeo, sensores, datos sensoriomotores |
| Capacidad de acción | Genera texto; no actúa en el mundo físico | Planifica y ejecuta acciones físicas (robótica) |
| Razonamiento | Sistema 1: reactivo, cómputo fijo por token | Sistema 2: deliberativo, cómputo variable según tarea |
| Incertidumbre | Distribución de probabilidad sobre tokens | Variables latentes que representan múltiples futuros posibles |
| Aprendizaje | Supervisado con grandes corpus de texto | Autosupervisado con vídeo + mínimos datos de interacción |
| Eficiencia de datos | Requiere billones de tokens | V-JEPA 2: 62 horas de datos robóticos para tareas de manipulación |
| Transferencia | Excelente en tareas lingüísticas | Prometedora en entornos físicos no vistos (zero-shot) |
| Aplicaciones | Redacción, traducción, asistentes conversacionales, código | Robótica, simulación física, vehículos autónomos, manufactura |
Fuente: elaboración propia a partir de LeCun (2022) y Assran et al. (2025)
La propuesta alternativa: modelos de mundo y arquitectura JEPA
Frente a estas limitaciones, LeCun propuso en 2022 una hoja de ruta hacia la inteligencia artificial autónoma cuyo componente central es la arquitectura JEPA (Joint Embedding Predictive Architecture). Esta arquitectura consiste en dos ramas de codificación donde las variables x e y alimentan dos codificadores que producen representaciones sx y sy, permitiendo que x e y sean de naturaleza diferente, como video y audio (LeCun, 2022). Lo que resulta especialmente significativo es cómo esta propuesta converge con décadas de investigación en ciencia cognitiva corporeizada (embodied cognition), una corriente que desde los trabajos fundacionales de Varela, Thompson y Rosch (1991) ha sostenido que la cognición no puede entenderse como manipulación abstracta de símbolos desconectada del cuerpo y el entorno. La mente, según este paradigma, emerge de la interacción dinámica entre un organismo y su mundo físico, no de representaciones internas aisladas.
El giro que propone LeCun, aunque formulado desde la ingeniería de sistemas, resuena con esta tradición: abandonar la predicción en el espacio de tokens lingüísticos para construir modelos de mundo que aprendan de la experiencia sensoriomotora. JEPA no genera píxeles ni palabras, sino que predice en espacios de representación abstractos donde la estructura del mundo físico, sus regularidades y sus affordances, queda codificada de manera implícita. Esta aproximación recuerda la noción gibsoniana de que percibir es captar directamente las posibilidades de acción que el entorno ofrece (Gibson, 1979), más que construir modelos internos proposicionales. La inteligencia, desde ambas perspectivas, requiere un cuerpo situado en un mundo con el que interactúa, no un procesador que manipula cadenas de texto sobre ese mundo.
La innovación fundamental radica en dónde y cómo se realizan las predicciones. JEPA diverge de los modelos tradicionales de IA al centrarse en predicciones dentro de un espacio de representación abstracto en lugar de generar directamente salidas a partir de entradas (LeCun, 2022). Este cambio aparentemente técnico tiene implicaciones profundas: el sistema aprende a ignorar detalles irrelevantes y concentrarse en la información semántica de alto nivel.
Para comprender esta diferencia, considérese la tarea de predecir qué sucederá en un video. El mundo físico está lleno de detalles impredecibles y caóticos como el movimiento de hojas o las ondas en el agua. Forzar a un modelo a predecir estos detalles desperdicia su capacidad en ruido en lugar de concentrarla en los principios subyacentes del movimiento y la interacción. En lugar de preguntar cómo lucirá exactamente el próximo fotograma, JEPA pregunta cuál será la representación abstracta del próximo fotograma, forzando al modelo a aprender una comprensión semántica de alto nivel.
Componentes modulares de la inteligencia autónoma
La visión de LeCun no se limita a una arquitectura de predicción. Su propuesta describe un sistema cognitivo completo con módulos especializados que interactúan para producir comportamiento inteligente (LeCun, 2022).
El módulo configurador orquesta las entradas de varios componentes y establece los pesos de los costos, funcionando como un director de orquesta que coordina la actividad del sistema completo. El módulo de percepción procesa datos sensoriales para crear representaciones del estado actual del mundo. El modelo de mundo predice elementos faltantes y estados futuros, constituyendo el núcleo de la capacidad predictiva.
Un elemento particularmente sofisticado es el manejo de variables latentes. Mediante la incorporación de estas variables, JEPA puede representar múltiples futuros plausibles y manejar la incertidumbre en las predicciones (LeCun, 2022). Esto resulta fundamental porque el mundo no es determinista: ante una situación dada, existen múltiples continuaciones posibles, y el sistema debe poder razonar sobre este abanico de posibilidades.
Física intuitiva: la prueba del entendimiento
Una pregunta crítica emerge: ¿cómo saber si un modelo realmente comprende el mundo físico o simplemente ha memorizado patrones estadísticos? LeCun y su equipo adoptaron una metodología inspirada en la psicología del desarrollo infantil: el paradigma de violación de expectativas (Piloto et al., 2022).
Los investigadores presentan a los bebés escenas visualmente similares que son consistentes (físicamente posibles) o inconsistentes (físicamente imposibles) con un concepto físico específico. Si los bebés muestran mayor sorpresa ante la escena imposible, esto proporciona evidencia de que sus expectativas, derivadas de su conocimiento del concepto físico evaluado, fueron violadas (Piloto et al., 2022).
Los resultados con V-JEPA resultaron reveladores. Garrido et al. (2025) demostraron que un modelo V-JEPA relativamente pequeño de 115 millones de parámetros logró una precisión superior al 85%, exhibiendo sorpresa ante eventos imposibles como objetos que atraviesan barreras sólidas, desaparecen sin explicación o flotan desafiando la gravedad. Esto indica que el modelo había adquirido conceptos básicos de física intuitiva como la permanencia de objetos y la solidez.
Esta capacidad no es trivial. Todos los modelos V-JEPA logran rendimiento significativamente superior al azar, incluyendo un modelo pequeño de 115 millones de parámetros o un modelo entrenado con solo una semana de video único, sugiriendo que la predicción de video en un espacio de representación aprendido constituye un objetivo robusto para adquirir comprensión de física intuitiva (Garrido et al., 2025).
V-JEPA 2: del entendimiento a la acción
El salto más significativo llegó con V-JEPA 2, presentado en junio de 2025. Assran et al. (2025) describieron un enfoque autosupervisado que combina datos de video a escala de internet con una pequeña cantidad de datos de interacción (trayectorias de robots), para desarrollar modelos capaces de entender, predecir y planificar en el mundo físico.
Los números impresionan por su eficiencia: el modelo se preentrenó con más de un millón de horas de video de internet, pero solo requirió 62 horas de datos de robots para aprender a planificar y ejecutar tareas de manipulación. V-JEPA 2 logra rendimiento sobresaliente en comprensión de movimiento con 77,3% de precisión top-1 en Something-Something v2 y rendimiento de vanguardia en anticipación de acciones humanas con 39,7 recall@5 en Epic-Kitchens-100, superando modelos específicos de tarea previos (Assran et al., 2025).
Lo verdaderamente notable es la capacidad de transferencia zero-shot a entornos nunca vistos. V-JEPA 2 puede utilizarse para planificación robótica zero-shot para interactuar con objetos desconocidos en nuevos entornos. El robot puede ejecutar tareas de alcance, agarre y colocación sin entrenamiento específico para esos escenarios, una capacidad que los sistemas anteriores no poseían (Assran et al., 2025).
La comparación con alternativas resulta ilustrativa. V-JEPA 2-AC no solo es más exitoso sino también significativamente más rápido en planificación: 16 segundos por acción frente a 4 minutos para el modelo Cosmos basado en generación de video (Assran et al., 2025). Esta diferencia de velocidad por un factor de quince hace viable la aplicación en escenarios del mundo real donde la latencia importa.
JEPA jerárquica: planificación a múltiples escalas temporales
Una limitación reconocida de V-JEPA 2 es que opera a una única escala temporal. Sin embargo, muchas tareas requieren planificación jerárquica. La extensión jerárquica H-JEPA permite predicciones a múltiples niveles de abstracción y escalas temporales, dividiendo las predicciones en componentes de corto plazo (bajo nivel) y largo plazo (alta abstracción), habilitando la descomposición de tareas complejas y la planificación a largo plazo (LeCun, 2022).
El ejemplo clásico que LeCun utiliza es el viaje de Nueva York a París. El plan de alto nivel es "ir al aeropuerto", no "mover el músculo de la pierna milisegundo a milisegundo". Los objetivos de alto nivel se descomponen en secuencias de subobjetivos más elementarios, utilizando predicción de corto plazo del modelo de mundo para producir acciones de nivel inferior. Esta descomposición se repite hasta llegar al control muscular de milisegundo en milisegundo, informado por condiciones locales.
Meta planea enfocarse en entrenar modelos JEPA jerárquicos capaces de aprender, razonar y planificar a través de múltiples escalas temporales y espaciales. Otra dirección importante serán los modelos JEPA multimodales que puedan hacer predicciones utilizando una variedad de sentidos, incluyendo visión, audio y tacto (Assran et al., 2025).
El fundamento energético: modelos basados en energía
Un aspecto técnico fundamental, frecuentemente ignorado en las discusiones populares, es el marco matemático subyacente. JEPA se conceptualiza como un modelo basado en energía (Energy-Based Model, EBM). El modelo asigna baja energía (bajo error) cuando la representación predicha coincide con la representación objetivo real, y alta energía cuando no coinciden (LeCun, 2022).
Esta formulación tiene ventajas significativas sobre los modelos generativos. Un JEPA puede entrenarse con métodos contrastivos, pero los métodos contrastivos tienden a volverse muy ineficientes en alta dimensión. La alternativa no contrastiva que JEPA emplea evita esta limitación al enfocarse en maximizar la información mutua entre representaciones sin requerir muestras negativas explícitas (LeCun, 2022).
La conexión con sistemas físicos resulta elegante: así como los sistemas físicos naturalmente se asientan en configuraciones de baja energía, el modelo busca soluciones que minimicen su función de energía, encontrando estados que sean consistentes con las restricciones del mundo observado.
Kona y Logical Intelligence: modelos energéticos para razonamiento formal
Esta convergencia entre la visión de LeCun y aplicaciones prácticas se manifestó recientemente con el anuncio de Logical Intelligence y su modelo Kona en enero de 2026. Según la directora ejecutiva Eve Bodnia, "Kona aprende reconociendo y corrigiendo sus propios errores, en lugar de adivinar la respuesta más probable. Si la inteligencia general significa la capacidad de razonar entre dominios, aprender del error y mejorar sin ser reentrenado para cada tarea, entonces estamos viendo los primeros pasos hacia ella" (Logical Intelligence, 2026).
LeCun se unió a Logical Intelligence como presidente fundador de su junta de investigación técnica, describiendo la empresa como "la primera en mover el razonamiento basado en EBM de un concepto de investigación a productos, habilitando una nueva generación de sistemas de IA más confiables" (Logical Intelligence, 2026).
A diferencia de los modelos de lenguaje que adivinan la respuesta más probable, los sistemas basados en energía de la compañía funcionan mapeando lo que está permitido y lo que no, y luego encontrando soluciones que permanecen dentro de esos límites. La arquitectura está dirigida a sectores donde la certificación, responsabilidad y auditabilidad son prerrequisitos para el despliegue, como la industria energética, manufactura avanzada y semiconductores.
AMI Labs: la apuesta comercial por los modelos de mundo
El compromiso de LeCun con esta visión alcanzó su expresión institucional más clara con su partida de Meta a finales de 2025 para fundar AMI Labs (Advanced Machine Intelligence Labs). Según reportaron Fortune y TechCrunch en diciembre de 2025, AMI Labs busca crear "sistemas de IA que entiendan la física, mantengan memoria persistente y planifiquen acciones complejas en lugar de simplemente predecir la siguiente palabra".
La escala de la apuesta impresiona. LeCun dejó Meta después de 12 años para lanzar AMI Labs, captando 500 millones de euros a una valoración de 3.000 millones de euros para construir sistemas de IA que entiendan la física en lugar de meramente predecir texto. Alexandre LeBrun, cofundador de Nabla, fue nombrado director ejecutivo, mientras LeCun ocupa el cargo de presidente ejecutivo.
AMI Labs priorizará modelos de mundo usando arquitecturas como JEPA para habilitar razonamiento de IA sobre entornos físicos mediante datos multimodales. Este enfoque difiere de los grandes modelos de lenguaje al enfatizar eficiencia y aplicaciones del mundo real en robótica, automatización y transporte.
El "pastel" de la inteligencia artificial: aprendizaje autosupervisado, supervisado y por refuerzo
LeCun ha empleado una analogía culinaria para explicar las proporciones relativas de diferentes tipos de aprendizaje en sistemas inteligentes (LeCun, 2022). El bizcocho, que constituye la mayor parte del pastel, corresponde al aprendizaje autosupervisado: observar el mundo y construir modelos internos. El glaseado, una capa mucho más delgada, representa el aprendizaje supervisado o por imitación. La guinda, el elemento más pequeño, es el aprendizaje por refuerzo.
Esta jerarquía tiene implicaciones profundas para el diseño de sistemas. El aprendizaje por refuerzo, extremadamente popular en robótica y juegos, resulta según LeCun fundamentalmente ineficiente para adquirir conocimiento del mundo. Un vehículo autónomo entrenado únicamente mediante refuerzo necesitaría caerse de acantilados miles de veces para aprender a no hacerlo. El aprendizaje autosupervisado a partir de observación, en contraste, permite adquirir este conocimiento sin consecuencias catastróficas (LeCun, 2022).
Eficiencia energética: el cerebro como modelo
Un aspecto frecuentemente ignorado en las discusiones sobre IA es la eficiencia energética. LeCun ha señalado la disparidad fundamental entre el cerebro humano y las GPU actuales. El problema reside en la separación entre memoria y cómputo. En el cerebro, las sinapsis realizan ambas funciones en el mismo lugar. Las GPU, en cambio, gastan enorme energía moviendo datos entre memoria y procesador. Para lograr eficiencia similar a la humana, necesitaremos tecnologías nuevas, quizás analógicas o de espintrónica, que imiten la estructura biológica, ya que la tecnología CMOS actual no escala bien para esto (LeCun, 2022).
Desarrollos recientes en JEPA para lenguaje y visión-lenguaje
La arquitectura JEPA no se ha limitado al dominio visual. Huang et al. (2025) presentaron LLM-JEPA, una adaptación de los principios JEPA para el entrenamiento de grandes modelos de lenguaje. Los autores observan que en visión, los objetivos de entrenamiento en espacio de embeddings (como los de JEPA) son muy superiores a sus contrapartes en espacio de entrada. LLM-JEPA logra superar los objetivos de entrenamiento estándar de LLM por un margen significativo entre modelos, siendo además robusto al sobreajuste (Huang et al., 2025).
Por otra parte, Chen et al. (2025) introdujeron VL-JEPA, un modelo de visión-lenguaje construido sobre la arquitectura JEPA. En lugar de generar tokens autorregressivamente como en los VLM clásicos, VL-JEPA predice embeddings continuos de los textos objetivo. Al aprender en un espacio de representación abstracto, el modelo se enfoca en la semántica relevante para la tarea mientras abstrae la variabilidad lingüística superficial. En una comparación estrictamente controlada contra entrenamiento VLM estándar en espacio de tokens, VL-JEPA logra rendimiento superior con 50% menos parámetros entrenables (Chen et al., 2025). Además, VL-JEPA soporta decodificación selectiva que reduce el número de operaciones de decodificación en 2,85 veces manteniendo rendimiento similar.
Implicaciones para la educación superior y la formación del profesorado
Las ramificaciones de este cambio paradigmático para la educación universitaria merecen consideración detenida. Si los modelos de mundo efectivamente superan a los LLM en capacidades de razonamiento, planificación y comprensión del mundo físico, las aplicaciones educativas cambiarán sustancialmente.
Antes de considerar las limitaciones de estas arquitecturas emergentes, conviene situar su potencial educativo dentro de marcos teóricos más amplios sobre la interacción entre cognición humana y artificial. Siemens et al. (2022) ofrecen una perspectiva que trasciende el debate técnico sobre arquitecturas para abordar la cuestión fundamental: ¿cómo deberían coordinarse los sistemas cognitivos humanos y artificiales durante procesos de conocimiento complejos como el aprendizaje, la construcción de sentido y la toma de decisiones?
Su propuesta enfatiza que la evaluación de sistemas cognitivos, sean humanos o artificiales, debe ir más allá de la eficiencia y productividad de los resultados. Las consideraciones sobre sesgo, ética, idoneidad e impactos a largo plazo sobre individuos y sociedad resultan igualmente consecuentes. Esta advertencia cobra especial relevancia para los modelos de mundo: aunque V-JEPA 2 demuestre capacidades impresionantes en física intuitiva y planificación robótica, su integración en contextos educativos requerirá mecanismos claros de coordinación entre lo que el sistema comprende y lo que los estudiantes y docentes necesitan saber sobre esa comprensión.
Los autores identifican un desafío particularmente pertinente para la educación: los principios mediante los cuales los humanos integran los resultados de la cognición artificial de vuelta al sistema de conocimiento humano para que la coordinación continua y las acciones subsiguientes se traduzcan significativamente al dominio de la toma de decisiones humana. Para los modelos JEPA, esto plantea interrogantes específicos: ¿cómo deberían presentarse a un estudiante las predicciones de un modelo de mundo sobre fenómenos físicos? ¿Qué transparencia se requiere sobre los espacios de representación abstractos donde estos sistemas realizan sus predicciones? La capacidad de V-JEPA 2 para ejecutar tareas de alcance, agarre y colocación sin entrenamiento específico resulta técnicamente notable, pero su valor educativo dependerá de cómo se diseñen las interfaces que permitan a estudiantes y docentes comprender, cuestionar y aprender de estas capacidades.
Los sistemas basados en JEPA podrían, por ejemplo, simular experimentos científicos con precisión física sin los riesgos y costes del laboratorio real. La capacidad de V-JEPA 2 para comprender física intuitiva sugiere aplicaciones en enseñanza de ciencias donde los estudiantes interactúan con simulaciones que obedecen genuinamente las leyes físicas, no simplemente las aproximan mediante animaciones preprogramadas.
Para el profesorado universitario, esto implica la necesidad de comprender no solo las capacidades de los chatbots actuales sino también las arquitecturas emergentes que prometen superar sus limitaciones. La distinción entre sistemas que predicen tokens versus sistemas que construyen modelos internos del mundo representa un conocimiento fundamental para diseñar experiencias de aprendizaje asistidas por IA.
Perspectivas críticas y limitaciones reconocidas
Sería incompleto presentar esta visión sin reconocer sus limitaciones actuales y las críticas legítimas que ha recibido. Pasemos a describir:
Los modelos V-JEPA de vanguardia todavía no alcanzan el rendimiento humano en pruebas de física intuitiva. A pesar del preentrenamiento en millones de horas de datos de video y lograr rendimiento impresionante en comprensión de movimiento y respuesta a preguntas sobre video, resultados recientes proporcionan evidencia de que estos modelos rinden apenas por encima del azar al clasificar entre videos físicamente posibles e imposibles en el mundo real (Garrido et al., 2025).
La transferencia de conocimiento entre dominios también presenta desafíos. V-JEPA 2 requiere datos específicos de robots para planificación efectiva, y aunque 62 horas resulta notablemente eficiente, no es aprendizaje puramente por observación (Assran et al., 2025). Los modelos también muestran sensibilidad a la posición de la cámara y luchan con planificación a horizontes temporales muy largos.
Otra crítica sostiene que el enfoque de JEPA hacia el lenguaje, si se extendiera directamente, presumiblemente continuaría la práctica actual de predecir embeddings abstraídos de tokens textuales discretos en lugar de una representación más profunda y continua del lenguaje mismo. Esta observación sugiere que JEPA podría heredar algunas limitaciones de los enfoques que busca superar.
Conclusión en construcción: hacia una inteligencia que comprende antes de generar
La propuesta de Yann LeCun representa más que una arquitectura técnica alternativa. Podemos decir que constituye una reconceptualización de qué significa para una máquina ser inteligente. Donde los LLM buscan producir texto plausible, los modelos de mundo buscan construir representaciones internas que capturen la estructura causal y dinámica del mundo.
Los modelos de mundo resuelven limitaciones reales de los LLM en razonamiento espacial, comprensión física e inteligencia corpórea. Los avances técnicos son legítimos, pero las valoraciones masivas y los enormes requisitos de cómputo merecen escrutinio.
Para investigadores y profesionales de la educación, la recomendación prudente es el compromiso cauteloso. Monitorear el progreso en APIs y benchmarks, experimentar cuando las plataformas accesibles se lancen, enfocándose en casos de uso donde los LLM fallan: robótica, simulación, IA física. No abandonar los LLM, pues estas arquitecturas probablemente son complementarias.
Lo que parece seguro es que la próxima década verá una diversificación significativa de arquitecturas de IA. La hegemonía de los transformers autorregresivos, aunque continuará en muchas aplicaciones, enfrentará competencia seria de enfoques que priorizan la comprensión del mundo sobre la generación de texto. Para quienes trabajamos en educación, comprender esta evolución resulta esencial para preparar a las siguientes generaciones de profesionales y ciudadanos para un panorama tecnológico en transformación.
Referencias bibliográficas
Assran, M., Bardes, A., Fan, D., Garrido, Q., Howes, R., Komeili, M., Muckley, M., Rizvi, A., Roberts, C., Sinha, K., Zholus, A., Arnaud, S., Gejji, A., Martin, A., Hogan, F. R., Dugas, D., Bojanowski, P., Khalidov, V., Labatut, P., ... Ballas, N. (2025). V-JEPA 2: Self-supervised video models enable understanding, prediction and planning. arXiv preprint arXiv:2506.09985. https://arxiv.org/abs/2506.09985
Bardes, A., Garrido, Q., Ponce, J., Chen, X., Rabbat, M., LeCun, Y., Assran, M., & Ballas, N. (2024). Revisiting feature prediction for learning visual representations from video. Transactions on Machine Learning Research. https://openreview.net/forum?id=PpEV6GAP8c
Chen, D., Shukor, M., Moutakanni, T., Chung, W., Yu, J., Kasarla, T., Bolourchi, A., LeCun, Y., & Fung, P. (2025). VL-JEPA: Joint embedding predictive architecture for vision-language. arXiv preprint arXiv:2512.10942. https://arxiv.org/abs/2512.10942
Garrido, Q., Ballas, N., Assran, M., Bardes, A., Najman, L., Rabbat, M., Dupoux, E., & LeCun, Y. (2025). Intuitive physics understanding emerges from self-supervised pretraining on natural videos. arXiv preprint arXiv:2502.11831. https://arxiv.org/abs/2502.11831
Gibson, J. J. (1979). The ecological approach to visual perception. Houghton Mifflin.
Huang, H., LeCun, Y., & Balestriero, R. (2025). LLM-JEPA: Large language models meet joint embedding predictive architectures. arXiv preprint arXiv:2509.14252. https://arxiv.org/abs/2509.14252
LeCun, Y. (2022). A Path Towards Autonomous Machine Intelligence Version 0.9.2, 2022-06-27. OpenReview. https://openreview.net/pdf?id=BZ5a1r-kVsf
Logical Intelligence. (2026, 21 de enero). Logical Intelligence introduces first energy-based reasoning AI model, signals early steps toward AGI, adds Yann LeCun and Patrick Hillmann to leadership [Comunicado de prensa]. Business Wire. https://www.businesswire.com/news/home/20260120751310/en/
Piloto, L. S., Weinstein, A., Battaglia, P., & Botvinick, M. (2022). Intuitive physics learning in a deep-learning model inspired by developmental psychology. Nature Human Behaviour, 6(9), 1257-1267. https://doi.org/10.1038/s41562-022-01394-8
Siemens, G., Marmolejo-Ramos, F., Gabriel, F., Medeiros, K., Marrone, R., Joksimovic, S. y De Laat, M. (2022). Human and artificial cognition. Computers and Education: Artificial Intelligence, 3, 100107. https://doi.org/10.1016/j.caeai.2022.100107
Varela, F. J., Thompson, E., & Rosch, E. (1991). The embodied mind: Cognitive science and human experience. MIT Press.