Rúbricas e inteligencia artificial: la evolución que reabre preguntas antiguas

Llevo años usando la misma rúbrica en la Universidad de León. Esto es lo que la inteligencia artificial cambia, y lo que no, en el juicio evaluativo.

Rúbricas e inteligencia artificial: la evolución que reabre preguntas antiguas
Evaluación educativa Inteligencia artificial

Llevo años revisando la misma rúbrica en la Universidad de León. Esto es lo que la inteligencia artificial cambia, y lo que no, en el juicio evaluativo.

Fernando Santamaría · Junio 2026 · 11 min de lectura

Llevo años usando la misma rúbrica en la Universidad de León. La he revisado, la he afinado, le he cambiado descriptores enteros más de una vez. Y sin embargo, curso tras curso, me encuentro con la misma sensación incómoda al cerrar la última calificación. La rúbrica ha funcionado, los criterios se han cumplido uno por uno, las notas tienen sentido sobre el papel, y aun así algo no termina de cuadrar entre lo que el documento dice que evalúa y lo que en realidad me importa que un estudiante haya aprendido a hacer. No es, lo he comprobado ya varias veces, un problema de redacción del documento. Es algo más persistente, casi estructural, y durante mucho tiempo no le he sabido encontrar nombre.

Este ensayo es, en parte, mi intento de encontrarle ese nombre. Veremos de dónde viene la promesa de la rúbrica, qué decía exactamente la investigación empírica sobre sus límites antes de que llegara la inteligencia artificial generativa, y qué cambia, y qué no, cuando esa misma rúbrica empieza a redactarse, calibrarse y aplicarse con ayuda de un modelo de lenguaje. La hipótesis que defiendo no es que la inteligencia artificial destruya el instrumento. Es algo menos cómodo: que lo obliga a confrontar una fractura que llevaba décadas ahí, mal disimulada.

El instrumento que prometía transparencia

La rúbrica, en su versión moderna, responde a un problema muy concreto. La calificación intuitiva, apoyada en la experiencia tácita del profesor, resulta opaca para quien la recibe y poco defendible ante quien la cuestiona. Hacer explícitos los criterios, desglosarlos por niveles de logro, parecía la solución obvia. D. Royce Sadler (1989) fue quien articuló con más rigor por qué esa solución es, a la vez, necesaria e insuficiente. Su argumento central, todavía citado cuatro décadas después, sostiene que los estudiantes solo mejoran su trabajo si desarrollan la capacidad de monitorizar la calidad de lo que producen mientras lo producen, y que esa capacidad exige algo que ningún listado de criterios transmite por sí solo: una apreciación directa de qué aspecto tiene un trabajo bueno.

Con una expresión que ha envejecido bien, Sadler llamó a esto conocimiento de gremio. Es el saber que un aprendiz de carpintero adquiere viendo trabajar a un maestro durante años, comparando piezas, discutiendo por qué una es mejor que otra, no leyendo un manual de carpintería. La rúbrica, por explícita que sea, sigue siendo un manual. Útil, necesario incluso. Pero manual.

Concepto clave El juicio evaluativo es la capacidad de reconocer la calidad de un trabajo, propio o ajeno, sin depender de que otra persona la señale primero. No se transmite leyendo criterios. Se cultiva viendo, comparando y discutiendo ejemplos concretos.

Cualquiera que haya entregado una rúbrica detallada a sus estudiantes y haya visto, pese a todo, trabajos que cumplen la letra de cada criterio sin acercarse al espíritu que se pretendía evaluar, reconoce el problema de Sadler en la práctica. En un seminario de historia, por ejemplo, un estudiante puede citar fuentes con el formato exigido, estructurar el ensayo en los apartados que pide la rúbrica y aun así no sostener, en el fondo, una tesis propia. La rúbrica dice qué buscar. No siempre enseña a verlo. Podría sugerirse que esta brecha es simplemente un problema de diseño, una rúbrica todavía no suficientemente detallada. La evidencia empírica, sin embargo, apunta en otra dirección.

Lo que la evidencia empírica no resolvió

Casi veinte años después del artículo de Sadler, Anders Jonsson y Gunilla Svingby (2007) revisaron setenta y cinco estudios empíricos sobre rúbricas de evaluación buscando precisamente eso: pruebas de que el instrumento cumplía sus promesas. Los hallazgos son más matizados de lo que el entusiasmo institucional por las rúbricas suele admitir. La fiabilidad, el grado de acuerdo entre distintos evaluadores que califican el mismo trabajo, mejora de forma consistente cuando la rúbrica es analítica, específica del tema y se acompaña de ejemplares de referencia o de formación previa de quienes califican. Hasta aquí, buenas noticias.

La validez es otro asunto. Jonsson y Svingby concluyen, sin rodeos, que las rúbricas no garantizan por sí mismas un juicio válido sobre la calidad de un trabajo complejo. Pueden facilitarlo si se diseñan dentro de un marco de validación más amplio, pero el instrumento, aislado, no lo asegura. Algo parecido ocurre cuando dos profesores ayudantes corrigen el mismo examen con idéntica rúbrica y llegan a notas casi iguales, aunque ambos coincidan, en privado, en que el trabajo evaluado no demuestra gran cosa. Dicho de otro modo, una rúbrica puede lograr que dos profesores coincidan en la nota con mayor frecuencia sin que esa nota refleje mejor lo que de verdad importa del trabajo evaluado.

Esta distinción, fiabilidad por un lado y validez por otro, resulta incómodamente pertinente cuando pensamos en lo que la inteligencia artificial generativa hace mejor. Un modelo de lenguaje que aplica una rúbrica con descriptores claros es, casi por definición, extraordinariamente fiable. Aplicará el mismo criterio de la misma manera las mil veces que se le pida. Lo que el trabajo de Jonsson y Svingby no permite suponer, en cambio, es que esa fiabilidad reforzada resuelva el problema de validez que ya existía antes de que llegara la máquina.

Línea temporal de cuatro décadas de investigación sobre rúbricas e inteligencia artificial en evaluación educativa, de 1989 a 2024
Figura 1. Cuatro décadas de la misma pregunta sobre el juicio evaluativo.

La rúbrica como copiloto

Y sin embargo algo evoluciona, y sería deshonesto negarlo solo porque complica la narrativa. Nora McDonald y sus colaboradores (2025) analizaron las políticas y guías publicadas por ciento dieciséis universidades estadounidenses de alta actividad investigadora tras la irrupción de ChatGPT. Entre las recomendaciones más repetidas a los docentes no figuraba únicamente el uso de la inteligencia artificial para redactar exámenes o preguntas de cuestionario. Figuraba, de forma explícita en buena parte de esos documentos institucionales, el diseño de rúbricas.

Lo que esto significa en la práctica de un departamento universitario cualquiera es menos espectacular de lo que suena y, precisamente por eso, más interesante. Un profesor de un curso basado en proyectos describe, en una conversación informal con el modelo, el criterio que quiere evaluar (algo tan resbaladizo como capacidad argumentativa o pensamiento sistémico) y pide que se propongan descriptores para tres o cuatro niveles de logro. No copia la respuesta literalmente. La discute, la ajusta, pide después que se genere un ejemplo de trabajo que cumpliría el nivel intermedio y otro que cumpliría el nivel más alto.

Generar ejemplares contrastados es, además, el paso que conecta de forma más directa con lo que Sadler identificaba como la pieza que faltaba. Si el conocimiento de gremio se transmite viendo ejemplos de calidad diferenciada, y generar esos ejemplos con calidad y cantidad suficientes era, hasta ahora, un trabajo artesanal que pocos docentes podían permitirse para cada criterio de cada rúbrica, la inteligencia artificial abarata justo ese cuello de botella.

La inteligencia artificial no sustituye el juicio del profesor sobre qué cuenta como bueno. Le da munición para mostrarlo.

El bucle que nadie pidió

Aquí conviene frenar el entusiasmo, el propio incluido. Porque la misma facilidad que permite a un profesor generar ejemplares con un modelo de lenguaje permite, con idéntica facilidad, cerrar un circuito que ningún claustro ha discutido todavía del todo: la inteligencia artificial redacta la rúbrica, el estudiante usa inteligencia artificial para producir el trabajo, y la inteligencia artificial califica ese trabajo contra la rúbrica que ella misma ayudó a escribir. En algún punto de esa cadena, ¿dónde queda exactamente el juicio humano?

Rola Ajjawi, Margaret Bearman y David Boud (2021) habían anticipado, antes incluso de que existiera ChatGPT, un riesgo estructural en cualquier sistema que haga demasiado explícitos sus estándares de evaluación. Su argumento incomoda a quien defiende la transparencia a toda costa: cuanto más detallado y mecánico se vuelve un criterio, más fácil resulta para el estudiante aprender a cumplir su letra sin desarrollar el juicio que ese criterio pretendía cultivar. Performar el estándar, lo llaman. Y una rúbrica redactada por una inteligencia artificial, optimizada casi por inercia para ser legible y aplicable por otra inteligencia artificial, corre el riesgo de volverse precisamente eso: un conjunto de casillas hiperexplícitas, perfectas para que las marque una máquina, mediocres para que un estudiante aprenda algo sobre la calidad de su propio trabajo.

No hace falta imaginar un escenario futurista para verlo cerrarse. Basta con un estudiante que pega el mismo modelo de lenguaje, primero, en la rúbrica que ha recibido, para que le ayude a entender qué pide cada nivel y, después, en su propio borrador, para que lo ajuste exactamente a esos mismos términos. Aquí el diagrama ayuda más que la prosa.

Diagrama del bucle cerrado entre la inteligencia artificial que redacta la rúbrica, el estudiante que usa inteligencia artificial para producir el trabajo y la inteligencia artificial que califica ese trabajo, sin intervención humana
Figura 2. El bucle que nadie pidió.

No es un escenario hipotético ni alarmista. Es, sencillamente, la consecuencia lógica de automatizar los dos extremos de un proceso, diseñar el criterio y aplicar el criterio, sin tocar deliberadamente el centro, que es donde ocurre el aprendizaje. La pregunta que abre este giro no es si debe prohibirse que la inteligencia artificial participe en las rúbricas. Es qué parte del proceso necesita, de forma no negociable, seguir teniendo a un humano mirando.

Del marcador al espacio de diálogo

Margaret Bearman, Joanna Tai, Phillip Dawson, David Boud y Rola Ajjawi (2024) proponen un giro de enfoque que, aplicado a las rúbricas, resulta más productivo que prohibir o que permitir sin matices. Su artículo distingue tres focos para desarrollar el juicio evaluativo en tiempos de inteligencia artificial generativa: juzgar los resultados que produce la máquina, juzgar los procesos por los que llega a ellos, y usar la propia inteligencia artificial para observar cómo evoluciona el juicio evaluativo del estudiante. En ninguno de los tres focos la máquina queda como encargada final de decidir qué es bueno. En los tres se convierte en un instrumento para multiplicar las ocasiones en que un humano ejerce ese juicio.

Trasladado a las rúbricas, esto sugiere algo distinto de automatizar la corrección. Sugiere usar la inteligencia artificial para generar, con una rapidez antes inalcanzable, los materiales de comparación que el juicio evaluativo necesita para formarse: ejemplares de calidad alta, media y deliberadamente defectuosa, casos límite donde dos lectores razonables discreparían, versiones del mismo trabajo con un único criterio modificado para aislar su efecto. El estudiante no recibe la rúbrica como sentencia. La discute, la pone a prueba contra ejemplos concretos, calibra su propio criterio contra el de sus compañeros y, solo entonces, contra el del profesor.

En la práctica, esa calibración puede ser tan sencilla como repartir, al principio de una sesión, dos versiones anónimas de un mismo ensayo generadas con el modelo de lenguaje a partir de distintos niveles de la rúbrica, y pedir a los estudiantes, en parejas, que decidan cuál merece más nota y por qué antes de revelar cuál era cuál. Quince minutos de desacuerdo razonado enseñan, probablemente, más sobre el criterio que la lectura silenciosa de la rúbrica.

Función de la rúbrica Papel de la inteligencia artificial Riesgo dominante
Marcador final Redacta y aplica el criterio sin intervención humana Performar el estándar sin desarrollar juicio
Generador de ejemplares Produce casos contrastados para comparar Sobrecarga si no hay tiempo para discutirlos
Espacio de calibración Facilita el desacuerdo razonado entre evaluadores Exige rediseñar la actividad, no solo el documento

Nada de esto es gratuito en términos de tiempo docente, y sería ingenuo presentarlo como si lo fuera. Rediseñar una evaluación para que incluya calibración dialógica exige más trabajo de diseño que copiar una rúbrica generada en segundos. Lo que cambia es dónde se invierte ese tiempo. Ya no en redactar el documento, sino en construir las ocasiones donde el juicio se ejercita.

Volver a la pregunta

Vuelvo, para terminar, a mi rúbrica de la Universidad de León, la misma que abría este texto. Puede que el nombre que le faltaba a esa sensación incómoda no fuera un nombre técnico, sino justamente esta pregunta: si la rúbrica nació para hacer visible un juicio que antes vivía solo en la cabeza de quien evaluaba, ¿qué pasa con esa visibilidad cuando quien la redacta y quien la aplica deja de tener, en sentido estricto, un juicio propio que mostrar? No tengo una respuesta cerrada, y sospecho que eso es justo lo honesto en este punto. La inteligencia artificial generativa puede completar esa vieja promesa de transparencia o vaciarla por completo, según qué parte del proceso sigamos dispuestos a no automatizar.

¿Seguiré llamando rúbrica a un instrumento cuya función deje de ser calificar y empiece a ser, sobre todo, enseñarme a juzgar, a mí tanto como a mis estudiantes? Probablemente el nombre me importe menos que la respuesta.

Referencias

Ajjawi, R., Bearman, M., y Boud, D. (2021). Performing standards: A critical perspective on the contemporary use of standards in assessment. Teaching in Higher Education, 26(5), 728-741. https://doi.org/10.1080/13562517.2019.1678579

Bearman, M., Tai, J., Dawson, P., Boud, D., y Ajjawi, R. (2024). Developing evaluative judgement for a time of generative artificial intelligence. Assessment & Evaluation in Higher Education, 49(6), 893-905. https://doi.org/10.1080/02602938.2024.2335321

Jonsson, A., y Svingby, G. (2007). The use of scoring rubrics: Reliability, validity and educational consequences. Educational Research Review, 2(2), 130-144. https://doi.org/10.1016/j.edurev.2007.05.002

McDonald, N., Johri, A., Ali, A., y Hingle Collier, A. (2025). Generative artificial intelligence in higher education: Evidence from an analysis of institutional policies and guidelines. Computers in Human Behavior: Artificial Humans. https://doi.org/10.1016/j.chbah.2025.100121

Sadler, D. R. (1989). Formative assessment and the design of instructional systems. Instructional Science, 18(2), 119-144. https://doi.org/10.1007/BF00117714