top of page
  • Foto del escritorEfecto Mcguffin

EL TAMAÑO DEL EFECTO: ¿EL TAMAÑO IMPORTA?



Seguro que habéis oído hablar, por lo que respecta a la Educación Guiada por la Evidencia, del “tamaño del efecto”, una de las maneras más sencillas y rápidas de ver el grado de impacto de una intervención en el aula y sus efectos. Aunque importante, el tamaño del efecto tiene también su letra pequeña y conviene conocerla para hacer un uso adecuado de este término. Para hablar sobre ello, os presentamos y comentamos un interesante artículo al respecto del Dr. Drew Miller desde la página evidenceforlearning.org.au


Queda claro que la práctica basada en la evidencia se está convirtiendo poco a poco en un enfoque clave para la educación y aquellas escuelas que buscan un cambio de cara a mejorar los resultados de aprendizaje de los alumnos. En cualquier iniciativa educativa que se precie, debe existir una discusión entre equipos y/o claustros sobre la calidad de la evidencia, una evidencia que se presenta en una gran variedad de formas y también rangos de calidad. En este artículo que comentamos hoy, el protagonista es el tamaño del efecto, para entender que llegar a él y hacer un buen uso no es tan sencillo como solamente mirar qué cifra de impacto nos da. Para empezar, empecemos desmontando el primer mito al respecto: Más grande no siempre es mejor (y sí, el comentario jocoso al respecto se hace por sí solo, pero prescindamos de él).


Supongamos que estamos interesados ​​en determinar si una intervención educativa tiene un impacto en los resultados de los estudiantes. Generalmente, se hacen dos preguntas al evaluar una intervención:


1. ¿El efecto observado es real o se debe únicamente al azar?

2. ¿Qué tan grande es el efecto?


La pregunta 1 se basa en evitar hacer una interpretación errónea típica que se resume con aquel mantra científico que dice que “correlación no significa causalidad”. Uno de mis preferidos al respecto: La aparición de Nicolas Cage en películas predice el ahogamiento de personas que caen en piscinas. Sí, hay un estudio y un magnífico gráfico al respecto:





La pregunta 2, por su parte, hace referencia a la magnitud de la diferencia entre los resultados de un grupo que recibe una intervención y otro grupo que no recibe la intervención (al que llamamos grupo de control o comparación). El tamaño del efecto sería la diferencia entre los grupos convertida en unidades de desviación estándar (lo que permite que el resultado se pueda comparar con otros estudios o con el crecimiento del rendimiento esperado de los estudiantes).


Vamos a por un ejemplo: Imaginemos dos estudios, cada uno diseñado para evaluar el efecto de una intervención de comprensión lectora diferente y cada uno de ellos con un grupo de control. En esos estudios el valor p (que hace referencia a la significación estadística, es decir, a lo poco probable que es que los resultados estén motivados por el simple azar, o dicho de otra manera, a que Nicolas Cage sea la causa de los ahogamientos en piscinas) nos indica que las intervenciones aplicadas en los dos estudios son significativas, es decir, marcan la diferencia y sí causan cambios en los resultados de manera directa. Una vez establecido esto y hechos los estudios con sus intervenciones correspondientes (¡y grupos de control!) miramos los resultados: En la intervención A el tamaño del efecto es de 0,68 y en la intervención B la cifra de desviación estándar nos indica un 0’18. De entrada, parece claro: La intervención de lectura A es más eficaz que la intervención de lectura B. Pues bien, apliquemos el vocablo más utilizado en ciencia: depende.


Para empezar un tamaño del efecto no nos da información sobre:


1. El tipo de investigación que se ha realizado.


2. Si los resultados utilizados son significativos en el gran esquema de la educación de un niño.


3. Si los resultados son generalizables a la población más amplia de escuelas y estudiantes, dentro de un sistema.


Resumiendo, lo que vendría a ser entender las grandes complejidades del diseño de una investigación. En el artículo, nos dan 3 tres principios generales del diseño de la investigación y cómo interactúan para determinar la calidad de la evidencia. ¿Empezamos?


1- ¿Qué tipo de investigación se utilizó?


Correlacional, cuasiexperimental y experimental son tres tipos de estudios amplios que informan los tamaños del efecto en la investigación educativa.

Los estudios correlacionales se consideran evidencia de menor calidad ya que se refieren a la fuerza de una relación entre dos variables (por ejemplo, la atención del maestro y el rendimiento del estudiante) y no a la capacidad de una variable para causar otra (recuerde, la correlación no es causalidad). Para más información acerca de este tipo de estudio, este enlace está muy bien.


Los estudios cuasiexperimentales carecen de la condición de asignación al azar (asignación aleatoria de grupos por un tercero) necesaria para ser etiquetados como un ensayo experimental. Como tales, los ensayos cuasiexperimentales carecen de confianza para concluir que una diferencia entre los grupos se debe únicamente a la intervención y no al muestreo de los participantes, lo cual es la ventaja del ensayo experimental y la razón por la que a estos últimos se los considera en la parte superior de la clasificación. Para saber más sobre estudios cuasiexperimentales, este enlace.


2- ¿Qué resultados se utilizan?


Los resultados del estudio que son más próximos (por ejemplo, el comportamiento del maestro en una intervención pedagógica) son más fáciles de cambiar que los resultados que son más distales (por ejemplo, pruebas de aritmética NAPLAN). Es probable que el uso de medidas más distales del rendimiento de los estudiantes proporcione una mejor indicación del efecto de una intervención para el desarrollo de habilidades más amplias en un área temática, y se vincula más fácilmente con los beneficios más amplios del logro de por vida a través de mejores resultados educativos.


3- ¿Cuál fue la muestra?


En la investigación diseñada para evaluar una intervención para la mejora de los resultados de los estudiantes, la investigación considerada de alta calidad utiliza diseños experimentales, medidas estandarizadas que son de naturaleza distal y utiliza grandes muestras de muchas escuelas diferentes. Por poner cifras, hablaríamos que una muestra <500 sería considerada baja, una entre 500-2000 moderada y la >2000, alta. Los hallazgos de la investigación de esta naturaleza tienen un alto nivel de generalización en los sistemas escolares porque la investigación está diseñada para eliminar los factores que ponen en duda si la intervención causó los resultados. Los resultados de estas evaluaciones están más conectados con el rendimiento académico general de los estudiantes y la muestra es representativa de la demografía de las escuelas que componen un sistema.

A menor calidad de la investigación, lógicamente menos capacidad y confianza tendremos para generalizar los resultados de los estudios, porque menos control habremos tenido para controlar los sesgos inherentes a nuestro estudio, los elementos en los que se centran los resultados serán muy pequeños y las muestras menos representativas.


Por poner un ejemplo práctico y real sobre como el tamaño del efecto varia según la calidad de los estudios, miremos un elemento muy de moda en la Educación Guiada por la Evidencia: la retroalimentación o feedback. Cuando la investigación basada en la retroalimentación se compara con los elementos del diseño de la investigación, el tamaño del efecto dentro de cada nivel de calidad muestra una tendencia sorprendente. A más calidad de la investigación, más se reduce el efecto del tamaño de la retroalimentación.


Esto no implica que la calidad de la intervención sea menor en los estudios que aplican una evaluación de alta calidad, pero sí que el tamaño del efecto derivado es probablemente una representación más precisa del impacto real de las intervenciones de retroalimentación en el rendimiento de los estudiantes.


En resumen, mejorar el rendimiento estudiantil (qué les voy a contar…) es un trabajo duro y ya hay voces que indican que el efecto de las intervenciones prometidas a las escuelas quizás haya sido excesivamente optimista (Kraft, 2020). Si bien el efecto del 0.08 de las intervenciones basadas en retroalimentación parece pequeño, esto equivale a un crecimiento de 1 mes más que el del grupo de control a lo largo de un año escolar (Education Endowement Foundation, 2018).


Hay varios puntos importantes a tener en cuenta de este análisis sobre el tamaño del efecto de la retroalimentación en condiciones de evaluación de alta calidad:


Primero, el resultado del efecto de la retroalimentación sigue siendo positivo.


En segundo lugar, la probabilidad de que las escuelas obtengan un resultado positivo de una iniciativa basada en la retroalimentación es alta porque los resultados se obtuvieron utilizando diseños experimentales en grandes muestras representativas medidas con resultados estandarizados.


Resumiendo: quizás los números no sean tan espectaculares, pero la intervención respaldada por estas pequeñas cifras es altamente recomendable por su contrastada eficacia.


Eso sí, incluso así, no olvidemos el contexto individual de nuestra propia escuela o instituto. Estas evaluaciones experimentales a gran escala no tienen en cuenta ese aspecto, y son las propias escuelas las que están en la mejor posición para enjuiciar y decidir si una intervención se adecua a su particular contexto (por ejemplo, teniendo en cuenta cuál es el costo económico de implementar aquella intervención en su centro).


El artículo pues, acaba dando una serie de recomendaciones de cara a las escuelas y la toma de decisiones basadas en la investigación:


1. Invertir en programas que hayan demostrado efectos en las condiciones de una evaluación rigurosa.

La gran cantidad de investigación educativa hasta la fecha sigue siendo informativa para la práctica, pero que las expectativas de tamaño del efecto de la investigación anterior deben evaluarse en relación con la calidad de la investigación utilizada para obtener el resultado. El Instituto de Ciencias de la Educación (EE. UU.), La Education Endowment Foundation (Reino Unido) y Evidence for Learning (Australia) financian y gestionan evaluaciones de alta calidad y síntesis de iniciativas educativas. Se espera que estas organizaciones y el Instituto Nacional de Evidencia, que pronto se establecerá, sean un punto de partida para el examen de evidencia de alta calidad.


2. Examinar la investigación

La información proporcionada aquí es un comienzo para comprender la investigación. La capacitación en métodos de investigación ayudaría a los líderes escolares y los líderes intermedios a ir más allá de los materiales ofrecidos por los intermediarios de evidencia y los proveedores de desarrollo profesional.

Y nota importante: La evidencia de escalado no es evidencia de impacto: un programa llevado a cabo en varios países, por cualquier número de escuelas, es evidencia de un buen equipo de marketing, no evidencia de impacto de alta calidad.


3. Implementar bien

Implementar una iniciativa con la mayor fidelidad posible es crucial para asegurar los efectos en los resultados en cuestión. Es natural que se produzca la adaptación en cualquier iniciativa que se implemente en diferentes entornos, sin embargo, se debe realizar una consulta cuidadosa con los desarrolladores del programa para asegurarse de que no se esté realizando ninguna adaptación 'sui generis' que pueda reducir drásticamente la posibilidad de que un programa logre su objetivo.

Igual de importante en un plan de implementación es la disposición de la escuela para tomar la iniciativa. Una evaluación de la preparación escolar debe informar cómo se lleva a cabo una iniciativa elegida en una escuela individual. En algunos casos, la escuela puede estar lista para funcionar (por ejemplo, la escuela tiene una cultura existente de práctica colaborativa) y, en otros, es posible que sea necesario trabajar en el desarrollo de la preparación a lo largo del tiempo (por ejemplo, comenzando en una escala más pequeña con los primeros en adoptar y cobrando impulso durante un período de planificación escolar de 3 a 4 años).


4. Evaluar

Independientemente de la calidad de la evidencia que sustenta una intervención que despierte el interés de su escuela, se sugiere probar y evaluar el impacto y la viabilidad / aceptabilidad para analizar el efecto de la intervención en su contexto escolar específico.


Resumiendo


En educación, el tamaño del efecto se ha utilizado tradicionalmente para vender la promesa de mejores resultados de los estudiantes en el lucrativo mercado de desarrollo profesional. Se puede aplicar un tamaño del efecto a cualquier tipo y calidad de investigación de intervención. Aquí radica el problema. La investigación educativa que utiliza diseños más débiles, muestras más pequeñas y medidas simples a menudo muestra tamaños de efecto más grandes. Criticar la calidad de la investigación utilizada para evaluar las intervenciones es más importante que confiar en una única medida de impacto. Los estudios de intervención de alta calidad a menudo producen tamaños de efecto más pequeños que los estudios de baja calidad, pero es más probable que proporcionen una imagen precisa del impacto, si lo hay, que una intervención puede tener en los estudiantes.


*El Dr. Drew Miller es el Director Adjunto del Centro de Investigación Docente y Docente de la Universidad de Newcastle. Drew tiene una amplia experiencia en análisis cuantitativo y es el líder de evaluación e impacto en Quality Teaching Academy. La Academia tiene como objetivo desarrollar la capacidad de los maestros, las escuelas y los sistemas y tiene una visión de enseñanza de calidad para todos los estudiantes, todos los días.

*La Dra. Pauline Ho es Directora Asociada de Evidence for Learning. Ella supervisa los proyectos de investigación y evaluación en Evidence for Learning, incluidos los pilotos y ensayos independientes del Learning Impact Fund, y la traducción de evidencia para profesionales y líderes de sistemas.



0 comentarios

Entradas Recientes

Ver todo

Comments


bottom of page