1.4. El jucio comparativo: ¿La siguiente gran revolución en evaluación?

La Directora de Educación de “No More Marking”, Daisy Christodoulou explica por qué los maestros deben repensar cómo evalúan, por qué evalúan y, indispensablemente, cuánto tiempo se debe dedicar a hacerlo.

 

Puntuar la escritura de manera fiable es difícil. Para entender por qué, prueba este experimento mental. Imagina que tienes un examen de matemáticas. Es un test simple con solo 40 preguntas y todas esas preguntas son bastante sencillas. Hay una puntuación disponible para cada pregunta, y no hay puntuaciones para el método. Supongamos que luego le doy ese examen a unos alumnos y hago que lo completen. Si luego copiara sus respuestas y se lo diese a un grupo de 100 maestros de matemáticas, esperaría que todos esos maestros estuvieran de acuerdo con la calificación que se debería otorgar a esas respuestas, incluso si nunca se hubieran reunido antes o nunca hubieran discutido las preguntas sobre el papel.

Ahora coja los mismos alumnos e imagine que se les ha pedido que escriban una breve descripción de la ciudad donde viven. Supongamos de nuevo que copiamos sus escritos, los distribuimos a 100 maestros y les pedimos que le asignen una calificación de 40. Es mucho menos probable que todos los maestros estén de acuerdo con la puntuación que se debe otorgar. Incluso si todos hubieran recibido capacitación en el significado del esquema de puntuación y se hubieran reunido con anticipación para analizar qué significaba el esquema de puntuación, sería muy poco probable que todos estuvieran de acuerdo de forma independiente sobre la puntuación que merecían esos escritos.

Hasta cierto punto, esto es de esperar. No hay una única respuesta correcta para una pregunta de escritura extendida, y diferentes personas tendrán diferentes ideas sobre cómo ponderar los diferentes aspectos que componen una pieza de escritura. Sin embargo, aunque podríamos aceptar que nunca obtendremos puntuaciones para acordar la puntuación exacta, seguramente queremos que se pueda acordar una puntuación aproximada. No todos estamos de acuerdo en que un alumno merezca una puntuación de 20 sobre 40, pero tal vez todos podamos estar de acuerdo en que merecen ese 20 sobre 40, más o menos un cierto número de puntuaciones. Cuanto mayor sea este margen de error, mayor será la dificultad que tengamos para determinar qué nos dice la evaluación. Supongamos, hipotéticamente, que el margen de error en esta pregunta fuese más o menos 15. ¡Un alumno con un 20 sobre 40 podría haber puntuado entre 5 y 35! Los grandes márgenes de error dificultan ver qué tan bien se está desempeñando un alumno, y también dificultan aún más ver si un alumno está progresando, ya que entonces tiene que lidiar con el margen de error en dos trabajos evaluados.

Para saber qué tan bien se están desempeñando los alumnos y si están mejorando, por lo tanto, necesitamos un método para evaluar de manera fiable la escritura extendida. Para considerar cómo podemos llegar a esto, primero veamos dos razones por las que es tan difícil puntuar la escritura extendida en este momento.

Primero, la evaluación de la escritura tradicional a menudo depende de juicios absolutos. Los evaluadores miran un escrito y tratan de decidir qué grado es el más adecuado para él. Esto puede parecer algo obvio, pero en realidad los humanos somos muy malos para hacer tales juicios absolutos. Esto no es solo cierto para puntuar ensayos, sino también para todo tipo de juicio absoluto. Por ejemplo, si le dan un tono de azul y le piden que identifique qué tan oscuro es el tono en una escala del 1 al 10, o si le dan una línea y le piden que identifique la longitud exacta, es probable que tenga dificultades para tener éxito. Sin embargo, si le dan dos tonos de azul y le piden que busque el más oscuro, o dos líneas, y le pidan que encuentre la más larga, lo encontrará mucho más fácil. El juicio absoluto es difícil; el juicio comparativo es mucho más fácil, pero el puntuado de ensayos tradicional funciona principalmente con el modelo absoluto.

En segundo lugar, la evaluación de la escritura tradicional depende del uso de descripciones en prosa de desempeño, como las que se encuentran en los esquemas de calificación o en las rúbricas de examen. La idea es que los evaluadores puedan usar estas descripciones para guiar sus juicios. Por ejemplo, con una tabla de examen, la descripción sobre una escritura de máxima calificación se describe de la siguiente manera:

• La escritura es fascinante e incorpora una serie de ideas convincentes y complejas.

• Hace un uso variado e inventivo de características estructurales.

La siguiente calificación por debajo se describe así:

• La escritura es altamente atractiva, con una gama de ideas complejas desarrolladas.

• Características estructurales variadas y efectivas.

No es difícil ver los tipos de problemas que pueden causar tales descriptores. ¿Cuál es la diferencia entre "fascinante" y "altamente atractivo"? ¿O entre el uso "efectivo" de características estructurales y el uso "inventivo"? Dichos descriptores causan tantos desacuerdos como resuelven, ya que los descriptores de prosa pueden interpretarse de varias maneras diferentes. Como dice Alison Wolf, "Uno no puede, en principio o en teoría, desarrollar descriptores escritos tan ajustados que puedan ser aplicados de manera confiable, por múltiples evaluadores, a múltiples situaciones de evaluación".

El juicio comparativo ofrece una forma de evaluar la escritura que, como su nombre indica, no implica juicios absolutos difíciles, y que también reduce la dependencia de los descriptores en prosa. En lugar de evaluadores que califiquen un ensayo a la vez, el juicio comparativo requiere que el evaluador mire un par de ensayos y juzgue cuál es mejor. El juicio que hacen es holístico sobre la calidad general de la escritura. No está guiado por una rúbrica y puede completarse con bastante rapidez. Si cada evaluador hace una serie de estos juicios, es posible que un algoritmo combine todos los juicios y los use para construir una escala de medición. Este algoritmo no es nuevo: fue desarrollado en la década de 1920 por Louis Thurstone. En los últimos años, la existencia de motores de juicio comparativo en línea ha hecho fácil y rápido que los maestros experimenten con este método de evaluación.

En No More Marking, donde soy Directora de Educación, hemos utilizado nuestro motor de juicio comparativo para varios proyectos en primaria y secundaria. En nuestras evaluaciones de la escritura de los alumnos podemos medir la fiabilidad de nuestros evaluadores, y somos capaces de reducir el margen de error de manera rutinaria a solo 2 puntos más o menos en una pregunta de 40 puntos. Los maestros también pueden completar estos juicios con relativa rapidez, lo que lleva a reducciones en la carga de trabajo. A más largo plazo, esperamos que el uso más amplio del juicio comparativo permita a los maestros identificar métodos de enseñanza prometedores con mayor precisión y también reducir la influencia que los esquemas de puntuación de estilo de casilla de verificación tienen en la enseñanza y el aprendizaje.

daisy.JPG

Por Daisy Christodoulou

volver