Diseño Instruccional

El aprendizaje que incomoda: dificultades deseables, paradoja del rendimiento y lo que la IA no debería ahorrarnos

Tres estudios publicados entre 2025 y 2026 demuestran que la facilidad que proporciona la IA puede deteriorar el aprendizaje a largo plazo, y que la variable decisiva no es la tecnología sino el diseño de la interacción.Una lectura crítica de Bastani et al. (PNAS, 2025), Barcaui (2025) y más papers.

Fernando Santamaría

19 jun. 2026 • 18 min read

El aprendizaje que incomoda — IAforTeachers

Evidencia empírica Diseño instruccional IA en educación Cognición y aprendizaje

Cuando un estudiante trabaja con fluidez, cuando el material no ofrece resistencia y la comprensión parece inmediata, tendemos a interpretar esa facilidad como señal de un buen proceso de aprendizaje. Tres estudios publicados entre 2025 y 2026 sugieren que estamos midiendo lo que no importa, y que el diseño de las herramientas de IA educativa puede estar agravando ese error de manera sistemática.

Fernando Santamaría González · IAforTeachers.com · Junio 2026 · 14 min de lectura

Fundamento teórico

La incomodidad como condición del aprendizaje

Robert Bjork formuló el concepto de dificultades deseables desde un punto de partida que puede parecer obvio pero que la práctica educativa ignora con notable consistencia: rendimiento y aprendizaje son cosas distintas. A menudo, opuestas.

La distinción es más radical de lo que parece a primera vista. El rendimiento observable, lo que el estudiante hace durante la práctica, en clase o en una evaluación inmediata, es una medida del momento. El aprendizaje, en cambio, es el cambio relativamente permanente en la capacidad de un individuo para recuperar y transferir conocimiento. Bjork y Bjork (2011) lo plantearon con precisión: las condiciones que maximizan el rendimiento a corto plazo no son las mismas que maximizan el aprendizaje a largo plazo. Peor aún, con frecuencia se contradicen.

¿Qué significa que una dificultad sea «deseable»? La desiderabilidad no reside en la dificultad en sí, sino en su función cognitiva. Una dificultad es deseable cuando activa mecanismos que producen consolidación duradera, cuando obliga a la memoria a trabajar de un modo que deja huella. Bjork identificó varios de estos mecanismos a lo largo de tres décadas de investigación con sus colaboradores.

Práctica distribuida

Separar las sesiones en el tiempo en lugar de concentrarlas fuerza la recuperación desde la memoria en cada retoma, lo que deja trazas más profundas.

Recuperación activa

El acto de extraer información de la memoria, sin mirar la fuente, consolida más que releer. Cada recuperación es, en cierta medida, una reescritura de la memoria.

Práctica intercalada

Alternar tipos de problemas produce más errores inmediatos pero mejora la capacidad de discriminar qué estrategia aplicar a cada situación nueva.

Generación anticipada

Intentar producir una respuesta, incluso incorrecta, antes de recibir la información correcta activa un estado de búsqueda que mejora la codificación posterior.

Variación contextual

Aprender en condiciones variables, no en un entorno estable y repetido, mejora la transferencia a situaciones nuevas, aunque reduce el rendimiento inmediato.

La paradoja metacognitiva que emerge de aquí es importante. Estas condiciones se sienten incómodas. El estudio distribuido parece ineficiente comparado con la sesión intensiva donde todo está fresco. La recuperación activa resulta más ardua que releer un texto. La práctica intercalada genera más errores que el trabajo por bloques homogéneos. Y esa sensación de dificultad, esa señal de esfuerzo, es exactamente lo que los estudiantes interpretan como señal de falta de competencia y evitan cuando pueden elegir cómo estudiar.

Bjork acuñó la noción de ilusiones de saber para referirse a esta brecha. La fluidez de lectura, el reconocimiento familiar de un concepto, la facilidad con que recuperamos algo recién estudiado, todas estas señales se interpretan como evidencia de aprendizaje cuando son, con frecuencia, evidencia de exposición reciente. Son aprendizaje de superficie: presente, brillante y efímero.

Si cualquier herramienta que aumente la comodidad del aprendizaje tiende, por definición, a eliminar las condiciones que lo hacen duradero, debemos preguntarnos qué hace una herramienta de IA cuando maximiza la fluidez de la experiencia del estudiante.

El primer aviso

Bastani et al. (2025): cuando la IA sin diseño pedagógico daña el aprendizaje

El estudio de Bastani et al., publicado en las Proceedings of the National Academy of Sciences en junio de 2025, es hasta la fecha el experimento de campo de mayor escala sobre el impacto de la IA generativa en el aprendizaje real. Casi un millar de estudiantes de bachillerato en un entorno de enseñanza de matemáticas fueron asignados a tres condiciones: acceso a un chatbot de IA estándar (GPT Base), acceso a un chatbot rediseñado con salvaguardas pedagógicas (GPT Tutor) y grupo de control sin IA.

La diferencia entre GPT Base y GPT Tutor no residía en la capacidad del modelo, sino en el diseño de la interacción. GPT Base funcionaba como un asistente estándar: respondía las preguntas de los estudiantes con soluciones completas. GPT Tutor, en cambio, estaba diseñado para proporcionar pistas elaboradas por los docentes en lugar de respuestas directas, forzando al estudiante a completar el razonamiento por sí mismo. La distinción conceptual es precisa: uno eliminaba el obstáculo cognitivo, el otro lo calibraba.

Los resultados confirmaron la paradoja de manera sistemática. Los estudiantes con acceso a GPT Base mejoraron considerablemente su rendimiento durante las sesiones de práctica asistida. Ahora bien, cuando se evaluó su desempeño sin acceso a la herramienta, rindieron significativamente por debajo del grupo de control. El uso irrestricto de la IA había mejorado la actuación mientras la herramienta estaba disponible y había deteriorado el aprendizaje medido de forma independiente. GPT Tutor, por contraste, mostró un patrón distinto: las salvaguardas pedagógicas mitigaron el efecto negativo sobre el aprendizaje sin asistencia, lo que sugiere que el diseño de la interacción, no la tecnología en sí, era la variable determinante.

Qué dice exactamente el estudio

Bastani et al. (2025) no afirman que la IA sea perjudicial para el aprendizaje. Afirman que la IA sin salvaguardas pedagógicas mejora el rendimiento durante la práctica a costa del aprendizaje autónomo posterior. La hipótesis de las salvaguardas, confirmada en sus datos, es que el diseño de la interacción puede invertir ese efecto.

Esta distinción es crucial para no malinterpretar el estudio como un argumento genérico contra la IA en educación. Es, al contrario, un argumento muy específico a favor del diseño instruccional informado.

La conexión con las dificultades deseables es directa. GPT Base eliminó sistemáticamente el esfuerzo cognitivo necesario para consolidar el aprendizaje matemático: el estudiante no necesitaba recuperar estrategias de la memoria, discriminar entre enfoques ni generar respuestas antes de recibirlas. La herramienta hacía ese trabajo. GPT Tutor preservó parte de ese esfuerzo al devolver la tarea incompleta al estudiante. La diferencia en resultados no refleja dos modelos de IA distintos, sino dos filosofías de diseño instruccional distintas.

Educación superior

Barcaui (2025): cuarenta y cinco días de silencio

El trabajo de André Barcaui, publicado en Social Sciences & Humanities Open, aporta algo que el estudio de Bastani no incluía: una medida de retención a largo plazo en educación superior. El diseño es simple y elegante. Ciento veinte estudiantes universitarios de negocios en una universidad brasileña fueron asignados aleatoriamente a dos condiciones: usar ChatGPT (GPT-4, interfaz estándar, sin indicaciones ni restricciones pedagógicas) como herramienta de estudio, o utilizar exclusivamente métodos tradicionales (manuales, artículos, bases de datos, búsqueda web convencional). Ambos grupos prepararon una presentación de diez minutos sobre conceptos de IA y aprendizaje automático.

La medida crítica llegó cuarenta y cinco días después, sin previo aviso: una prueba de retención sorpresa sobre los mismos contenidos. Los estudiantes que habían estudiado con ChatGPT respondieron correctamente el 57,5% de los ítems. Los del grupo tradicional, el 68,5%. Una diferencia de once puntos porcentuales con un tamaño del efecto de d = 0,68, clasificable como medio-grande, y con significación estadística (p = 0,002).

68,5%

Retención a 45 días
grupo tradicional

Barcaui (2025)

57,5%

Retención a 45 días
grupo IA (ChatGPT)

Barcaui (2025)

d = 0,68

Tamaño del efecto
diferencia en retención

Barcaui (2025)

Barcaui interpreta estos resultados en clave de dos marcos teóricos complementarios: la teoría del desplazamiento cognitivo y el principio de dificultades deseables. La IA irrestricta asumió el trabajo cognitivo que el estudiante habría tenido que realizar, suprimiendo los procesos de codificación eficaz que producen memoria duradera. Al quitar la herramienta cuarenta y cinco días después, lo que quedó en la memoria fue considerablemente menos.

Ahora bien, conviene leer este estudio con precisión metodológica antes de generalizar sus conclusiones. Hay al menos tres observaciones que el lector crítico debe tener presentes.

Tres cautelas metodológicas

La anomalía estadística. El tamaño muestral es 120 participantes, pero los grados de libertad reportados son 83. En una prueba t de dos grupos equilibrados, cabría esperar un valor aproximado de 118. La diferencia podría deberse a una corrección de Welch por varianzas desiguales, a pérdida de participantes no documentada en el resumen, o a un error de reporte. El artículo completo debería aclarar este punto.

La especificidad contextual. Estudiantes de negocios en una universidad brasileña aprendiendo conceptos de IA y aprendizaje automático constituyen una muestra muy específica. La transferibilidad a otras disciplinas, niveles educativos o culturas académicas requiere evidencia adicional.

La ausencia de medida intermedia. El diseño no incluye una evaluación del rendimiento durante el aprendizaje, por lo que no podemos observar directamente la paradoja en acción, solo su consecuencia a largo plazo. El estudio confirma el daño a la retención sin documentar el mecanismo completo en tiempo real.

Hechas estas advertencias, el hallazgo sigue siendo relevante. Un tamaño del efecto de 0,68 es apreciable en cualquier dominio educativo. Y el diseño es metodológicamente sólido en lo esencial: asignación aleatoria, medida diferida, evaluación sin previo aviso. Que la facilidad proporcionada por la IA irrestricta se traduzca en una pérdida de once puntos porcentuales en la retención a cuarenta y cinco días es un dato que el diseño instruccional universitario no puede ignorar.

La inversión del efecto

Chung, Bastani et al. (2026): cuando la IA genera dificultad en lugar de eliminarla

Aquí es donde la imagen se vuelve considerablemente más interesante, y donde la interpretación habitual del problema, la que lo reduce a «la IA es mala para el aprendizaje», resulta insuficiente. En marzo de 2026, un equipo de investigadores de Wharton y la Universidad de Pensilvania (entre los que se encuentran los mismos Bastani que firmaron el estudio de 2025) publicó un ensayo controlado aleatorio de campo con un diseño radicalmente distinto.

El estudio desplegó una plataforma de tutoría que combinaba un chatbot de IA generativa con un algoritmo de aprendizaje por refuerzo para secuenciar los problemas de práctica. La innovación central no residía en el chatbot, sino en la lógica de secuenciación: el algoritmo utilizaba las señales de las interacciones entre el estudiante y el chatbot para seleccionar, de manera adaptativa, problemas con un nivel de dificultad apropiado para cada estudiante en cada momento. El sistema fue desplegado en un curso de cinco meses para enseñar programación en Python a estudiantes de diez institutos de secundaria en Taiwán, en colaboración con el Ayuntamiento de Taipéi y el Instituto Americano en Taiwán. Los estudiantes fueron asignados aleatoriamente entre una secuencia fija de problemas y la secuenciación adaptativa.

El resultado fue una mejora de 0,15 desviaciones estándar en el examen final sin asistencia de la herramienta. Los propios autores estiman que ese efecto equivale, según algunas referencias comparativas, a entre seis y nueve meses de escolarización adicional. El mecanismo que la mediación estadística señala como principal conductor de las ganancias fue el aumento del compromiso activo del estudiante con la plataforma.

Los mismos investigadores que en 2025 demostraron que la IA sin salvaguardas daña el aprendizaje, muestran en 2026 que una IA que calibra la dificultad de manera adaptativa lo mejora. La variable no cambió: siguió siendo el diseño.

Conviene también precisar el mecanismo que los autores proponen. El algoritmo de aprendizaje por refuerzo no describe explícitamente su acción en términos de dificultades deseables: los autores atribuyen las ganancias al aumento del compromiso activo, no a la calibración de dificultad per se. Sin embargo, la selección adaptativa de problemas con nivel de dificultad apropiado es, funcionalmente, una implementación computacional del principio de dificultad calibrada: el sistema decide cuánta fricción cognitiva ofrecer a cada estudiante en cada momento, en lugar de eliminar esa fricción o dejarla al azar. El compromiso activo y las dificultades deseables son, en este diseño, caras de la misma moneda.

La diferencia estructural con los diseños de GPT Base y ChatGPT irrestricto es fundamental: mientras aquellos respondían a la demanda del estudiante eliminando el obstáculo, este sistema actuaba de manera proactiva calibrando el nivel de demanda que el estudiante debía afrontar. La IA no reaccionaba a la dificultad; la diseñaba.

Síntesis de evidencia

Los tres estudios, confrontados

Leídos en conjunto, los tres estudios forman un argumento que ninguno de ellos puede sostener por separado. La tabla siguiente sintetiza los elementos más relevantes para la lectura comparada.

Tabla comparativa de los tres estudios: Bastani et al. (PNAS, 2025), Barcaui (2025) y Chung, Bastani et al. (2026)

Análisis conceptual

La variable que decide: diseño reactivo frente a diseño proactivo

Tres estudios, tres contextos distintos, tres conclusiones que, leídas por separado, podrían parecer contradictorias. Leídas en conjunto, configuran un argumento coherente y con implicaciones muy concretas para el diseño instruccional con IA.

La variable que conecta los tres es el diseño de la interacción cognitiva. Más específicamente: quién realiza el trabajo cognitivo nuclear. En los diseños de GPT Base y ChatGPT irrestricto, ese trabajo lo realiza la IA. El estudiante formula la demanda, la herramienta la resuelve, el estudiante recibe el resultado. La carga de recuperar, discriminar, generar y verificar, que es exactamente la carga que produce consolidación mnémica, no llega a producirse. La experiencia es fluida, eficiente y educativamente poco productiva.

En el diseño de GPT Tutor y, de manera más sofisticada, en el sistema de aprendizaje por refuerzo de Chung et al., la distribución del trabajo cognitivo cambia. La herramienta calibra el nivel de demanda que el estudiante debe afrontar, en lugar de eliminarlo. No responde: interroga, devuelve la tarea incompleta, selecciona el problema con la dificultad apropiada para ese estudiante en ese momento. El esfuerzo sigue siendo del estudiante. La herramienta diseña las condiciones en que ese esfuerzo ocurre.

Esta distinción entre IA reactiva e IA proactiva tiene, en términos del marco de Bjork, una traducción precisa. La IA reactiva elimina dificultades deseables. La IA proactiva las crea o calibra. Y esa diferencia, aparentemente técnica, determina si la tecnología amplifca el aprendizaje o lo sustituye.

La paradoja del rendimiento en clave de diseño

La paradoja rendimiento-aprendizaje no es un efecto inherente a la IA. Es un efecto inherente a cualquier herramienta, pedagógica o tecnológica, que maximice la fluidez de la experiencia de aprendizaje a expensas del esfuerzo cognitivo del estudiante. Los libros de texto con respuestas en el margen, la retroalimentación inmediata y correctiva antes de que el estudiante haya procesado el error, el docente que resuelve el problema ante una primera señal de dificultad, todos producen el mismo efecto que GPT Base. La IA no inventó el problema. Lo escala y lo hace más visible.

Podría sugerirse que la distinción entre IA reactiva y proactiva es demasiado técnica para resultar útil al profesorado no especializado en sistemas de IA. Consideramos que esa objeción desplaza el problema. El profesorado universitario no necesita diseñar algoritmos de aprendizaje por refuerzo. Necesita, en cambio, ser capaz de distinguir, al evaluar y seleccionar herramientas de IA para sus cursos, si esa herramienta está diseñada para responder al estudiante o para orientarlo. Si asume la tarea o la devuelve. Si minimiza la fricción cognitiva o la calibra. Esa distinción está dentro del alcance del diseño instruccional informado.

Implicaciones prácticas

Lo que esto significa para el diseño instruccional universitario

Ninguno de los tres estudios propone una pedagogía del sufrimiento ni una reivindicación de la dificultad por sí misma. El argumento de fondo es más preciso: que existen fricciones cognitivas que generan consolidación y que deben diferenciarse de las que solo generan frustración sin función educativa. No toda dificultad es deseable. Solo aquellas que activan los mecanismos que producen aprendizaje transferible y duradero.

Para el profesorado universitario que trabaja con herramientas de IA generativa, ya sea para apoyar el estudio autónomo, para diseñar actividades o para ofrecer retroalimentación automatizada, estas conclusiones tienen consecuencias que conviene articular con precisión.

El diseño de la evaluación formativa

La recuperación activa, uno de los mecanismos de dificultad deseable mejor documentados, requiere que el estudiante extraiga información de la memoria antes de tener acceso a la fuente. Cuando diseñamos actividades formativas en las que la IA está disponible durante la resolución, estamos eliminando precisamente ese mecanismo. La pregunta no es si usar IA en la evaluación formativa, sino cuándo en el proceso la IA entra en escena: antes de que el estudiante haya intentado recuperar la información, o después.

El momento de la retroalimentación

La retroalimentación inmediata y correctiva, uno de los rasgos más valorados en los sistemas de tutoría inteligente convencionales, puede suprimir precisamente la dificultad deseable que el error habría generado. El momento y la modalidad de la retroalimentación no son detalles técnicos: son decisiones pedagógicas. Una retroalimentación que llega antes de que el estudiante haya procesado su propio error actúa como GPT Base: elimina el obstáculo antes de que este haya cumplido su función.

La evaluación de herramientas de IA para el aprendizaje

El profesorado que evalúa herramientas de IA educativa para incorporar en su práctica docente raramente dispone de criterios claros para distinguir herramientas que amplifican el aprendizaje de las que lo sustituyen. Los datos de rendimiento inmediato, que son los que habitualmente ofrecen los propios fabricantes de estas herramientas, son el indicador menos fiable para ese propósito. Lo que importa es la medida diferida, sin asistencia, de la capacidad del estudiante para recuperar y transferir el conocimiento construido con la herramienta. Esa medida es casi siempre la que falta.

Preguntas para el diseño instruccional con IA

1

¿En qué momento del proceso de aprendizaje entra en escena la IA? ¿Antes o después de que el estudiante haya intentado recuperar o construir la respuesta de manera autónoma?
2

¿La herramienta está diseñada para responder al estudiante o para orientarlo? ¿Resuelve el obstáculo cognitivo o lo devuelve al estudiante en una forma que puede procesar?
3

¿Cómo mediría el aprendizaje producido por esta herramienta si no pudiera usar el rendimiento durante el uso como indicador? ¿Hay evidencia de retención diferida o transferencia a nuevas situaciones?
4

¿El nivel de demanda cognitiva que la herramienta impone al estudiante es calibrado y adaptativo, o simplemente reducido al mínimo para maximizar la experiencia de uso?
5

Si retirase la herramienta al final del curso, ¿qué habría aprendido realmente el estudiante? ¿Sabría hacer lo mismo sin ella?

La última pregunta de esa lista no es retórica. Es, probablemente, la que con mayor claridad separa el diseño instruccional bien fundado de la adopción de tecnología sin criterio. Y es exactamente la pregunta que los tres estudios aquí revisados intentaron responder con rigor experimental. Sus respuestas, en conjunto, son incómodas y valiosas. La incomodidad, como sabemos, puede ser una señal de que algo importante está ocurriendo.

Síntesis

Lo que queda cuando se retira la herramienta

La paradoja rendimiento-aprendizaje que Bastani et al. documentaron con estudiantes de bachillerato en matemáticas, que Barcaui confirmó con universitarios en Brasil y que el equipo de Wharton intentó revertir mediante calibración adaptativa de dificultad, no es una curiosidad experimental. Es la expresión empírica de un problema que la investigación cognitiva lleva describiendo desde los años noventa.

Las dificultades deseables de Bjork no son un concepto estético. Son una descripción funcional de las condiciones bajo las cuales la memoria consolida conocimiento de manera duradera. Cuando una herramienta, sea tecnológica o pedagógica, elimina esas condiciones en nombre de la fluidez y la eficiencia, produce exactamente lo que los datos muestran: rendimiento inmediato mejorado y aprendizaje a largo plazo deteriorado.

Lo que los tres estudios añaden a la discusión es algo que el concepto de Bjork no podía ofrecer por sí solo: evidencia experimental en entornos reales de que el diseño de la interacción con IA es la variable que determina en qué lado de esa paradoja se sitúa el estudiante. Una IA que responde no es lo mismo que una IA que orienta. Una IA que elimina el obstáculo no es lo mismo que una IA que lo calibra. La diferencia no es técnica. Es pedagógica.

Y eso, precisamente, devuelve la responsabilidad al profesorado. No al ingeniero que diseñó el modelo, ni al directivo que seleccionó la plataforma, sino al docente que decide cómo, cuándo y con qué propósito la herramienta entra en la experiencia de aprendizaje de sus estudiantes. Es posible que esa sea la conclusión más incómoda de todo este argumento. Y también, por las mismas razones que hemos revisado aquí, la más duradera.

Referencias

Barcaui, A. (2025). ChatGPT as a cognitive crutch: Evidence from a randomized controlled trial on knowledge retention. Social Sciences & Humanities Open, 12, 102287. https://doi.org/10.1016/j.ssaho.2025.102287

Bastani, H., Bastani, O., Sungu, A., Ge, H., Kabakcı, Ö. y Mariman, R. (2025). Generative AI without guardrails can harm learning: Evidence from high school mathematics. Proceedings of the National Academy of Sciences, 122(26), e2422633122. https://doi.org/10.1073/pnas.2422633122

Bjork, E. L. y Bjork, R. A. (2011). Making things hard on yourself, but in a good way: Creating desirable difficulties to enhance learning. En M. A. Gernsbacher, R. W. Pew, L. M. Hough y J. R. Pomerantz (Eds.), Psychology and the real world: Essays illustrating fundamental contributions to society (pp. 56-64). Worth Publishers.En: https://www.researchgate.net/publication/284097727_Making_things_hard_on_yourself_but_in_a_good_way_Creating_desirable_difficulties_to_enhance_learning

Brown, P. C., Roediger, H. L. y McDaniel, M. A. (2014). Make it stick: The science of successful learning. Harvard University Press. Puedes leerlo en https://padlet-uploads.storage.googleapis.com/222221394/01a96f0d2e1109eb292193be74a11ed8/Make_It_Stick_.pdf

Chung, A. T.-H., Zhang, B., Kung, L.-C., Bastani, H. y Bastani, O. (2026). Effective personalized AI tutors via LLM-guided reinforcement learning. Wharton School Research Paper. https://doi.org/10.2139/ssrn.6423358

Roediger, H. L. y Karpicke, J. D. (2006). Test-enhanced learning: Taking memory tests improves long-term retention. Psychological Science, 17(3), 249-255. https://doi.org/10.1111/j.1467-9280.2006.01693.x