La finalidad no es construir mejores rúbricas

Dos profesores observan la misma interpretación musical. Utilizan exactamente la misma rúbrica. Al terminar, uno considera que el desempeño es sobresaliente; el otro cree que apenas alcanza un nivel satisfactorio. Ninguno está incumpliendo los criterios. Simplemente han llegado a conclusiones distintas.

La escena probablemente resulte familiar para muchos docentes. Refleja uno de los desafíos más complejos de la evaluación, especialmente en las artes.

En algunas áreas del currículo es relativamente sencillo distinguir entre respuestas correctas e incorrectas. Pero cuando evaluamos una interpretación musical, una obra visual o una creación escénica, las cosas cambian. Entran en juego aspectos mucho más difíciles de delimitar: la creatividad, la expresividad, la sensibilidad artística, la capacidad comunicativa o los matices de una ejecución.

Ante esta complejidad solemos reaccionar de una manera bastante predecible: buscamos mejores instrumentos de evaluación. Diseñamos rúbricas más detalladas, listas de cotejo más completas y escalas cada vez más precisas. La lógica parece impecable: si logramos construir el instrumento adecuado, evaluaremos mejor.

Sin embargo, la experiencia cotidiana en las aulas suele mostrarnos que las cosas no son tan simples.

No es raro que dos docentes utilicen la misma rúbrica y lleguen a valoraciones distintas sobre un mismo desempeño. Incluso cuando los criterios están claramente definidos, interpretar las evidencias sigue requiriendo decisiones profesionales que ningún instrumento puede tomar por sí solo.

Desde hace décadas, diversos investigadores vienen advirtiendo algo importante: la calidad de una evaluación depende menos de la sofisticación de los instrumentos que de la calidad de los juicios que construyen los docentes a partir de ellos. Los instrumentos ayudan. Orientan la observación, organizan la información y permiten explicitar criterios. Pero no sustituyen la interpretación.

En la educación artística esto se aprecia con especial claridad. ¿Qué debería pesar más en una interpretación musical: la precisión técnica o la capacidad expresiva? ¿Dónde termina la originalidad y dónde comienza la creatividad? ¿Qué merece mayor reconocimiento: el resultado final o el proceso que hizo posible alcanzarlo?

Aunque estas tensiones se hacen especialmente visibles en las artes, también aparecen en muchas otras situaciones de evaluación escolar donde las evidencias son complejas y admiten distintas interpretaciones. La escritura, los proyectos interdisciplinarios, la resolución de problemas o las exposiciones orales plantean desafíos similares.

No existen respuestas automáticas para preguntas como estas.

Y quizá ahí se encuentra una de las confusiones más frecuentes cuando hablamos de evaluación. A menudo confundimos objetividad con claridad. Una rúbrica puede hacer explícitos los criterios y volverlos visibles para todos, pero eso no elimina la necesidad de interpretarlos. Lo que sí hace es volver esa interpretación más transparente y más abierta al diálogo profesional.

La objetividad no consiste en eliminar la interpretación. Consiste en hacerla visible, argumentarla y someterla a discusión profesional.

Por supuesto, esto no significa que las rúbricas no sean útiles. Sería absurdo sostenerlo. Ayudan a clarificar expectativas, favorecen la retroalimentación y aportan transparencia al proceso evaluativo. El problema aparece cuando esperamos que hagan algo para lo que nunca fueron concebidas: reemplazar el juicio profesional del docente.

La llegada de la inteligencia artificial ha añadido una nueva dimensión a esta discusión. Hoy contamos con herramientas capaces de analizar textos, detectar patrones, comparar desempeños e incluso sugerir retroalimentación. Sus posibilidades son llamativas y, en muchos casos, realmente valiosas.

Sin embargo, detrás del entusiasmo actual parece esconderse una aspiración bastante antigua. Antes depositamos esa esperanza en las pruebas estandarizadas. Después, en las rúbricas analíticas. Hoy, en los algoritmos. La promesa es prácticamente la misma: conseguir evaluaciones más objetivas reduciendo al mínimo la intervención humana.

Vista en perspectiva, esta no es una discusión nueva. Durante décadas la educación ha intentado construir instrumentos capaces de hacer la evaluación más consistente, más comparable y menos dependiente del criterio individual de los docentes. Esa búsqueda ha producido avances importantes. Pero también ha alimentado una ilusión persistente: la idea de que, con suficiente precisión técnica, algún día podremos prescindir del juicio profesional.

En el fondo, se trata del intento recurrente de resolver mediante herramientas una cuestión que nunca ha sido exclusivamente técnica. Cada generación ha confiado en que una nueva innovación reducirá la incertidumbre inherente a la evaluación. Sin embargo, ninguna ha logrado eliminar la necesidad de interpretar, deliberar y decidir.

Porque la evaluación nunca ha sido solamente un problema técnico.

La inteligencia artificial puede ayudarnos a organizar información, contrastar criterios o detectar inconsistencias. Lo que no puede hacer es comprender plenamente el contexto de un estudiante, interpretar una trayectoria de aprendizaje o asumir la responsabilidad pedagógica que implica una decisión evaluativa. Esa sigue siendo una tarea profundamente humana.

Quizá por eso ha llegado el momento de cambiar la pregunta. Durante años nos hemos concentrado en cómo diseñar mejores instrumentos de evaluación. Tal vez deberíamos dedicar más energía a pensar cómo desarrollamos mejores juicios pedagógicos.

La diferencia es importante.

Los instrumentos pueden perfeccionarse mediante ajustes técnicos. Los juicios profesionales, en cambio, se construyen con experiencia, reflexión, análisis de evidencias y diálogo entre colegas.

De hecho, una parte importante del juicio profesional se desarrolla colectivamente. Cuando los docentes analizan evidencias juntos, comparan valoraciones y discuten las razones que sustentan sus decisiones, no solo buscan llegar a acuerdos. También hacen visibles los criterios que orientan su mirada y fortalecen su capacidad para interpretar el aprendizaje. El problema no es que existan diferencias de interpretación, sino que estas nunca se contrasten ni se enriquezcan mediante el diálogo profesional.

Si queremos fortalecer nuestros juicios pedagógicos, necesitamos más espacios para observar trabajos conjuntamente, debatir criterios y compartir las razones que sustentan nuestras decisiones. El juicio profesional no surge de manera automática: se construye, se cultiva y también se aprende.

La evaluación artística nos recuerda algo que a veces olvidamos en cualquier ámbito educativo: evaluar no consiste simplemente en poner una calificación. Consiste en interpretar evidencias complejas para tomar decisiones que ayuden a las personas a seguir aprendiendo.

Tal vez el problema nunca ha sido la falta de instrumentos. Tal vez el problema ha sido nuestra expectativa de que los instrumentos puedan resolver por sí solos cuestiones que pertenecen al terreno del juicio profesional.

Ninguna tecnología ha logrado reemplazar ese juicio porque la evaluación no consiste únicamente en clasificar desempeños. Consiste en interpretar evidencias para tomar decisiones pedagógicas.

Por eso, la finalidad no es construir mejores rúbricas.

La finalidad es construir mejores juicios pedagógicos.

Porque cuando creemos que la calidad de la evaluación depende únicamente de los instrumentos, terminamos olvidando algo esencial: el principal instrumento de evaluación sigue siendo el propio docente.

La finalidad no es construir mejores rúbricas

más artículos

Con el simple hecho de ser denunciad@…

Infancias frente a las pantallas

La sección 50 abre el debate sobre la democracia sindical

¿Qué le pasa a Lupita?