¿Cuál es el efecto techo en las pruebas?
¿Hay algún punto en el que los estudiantes estén demasiado avanzados para la prueba?
Mieke Dalle / Getty Images
Ejemplos de techos de prueba
Por ejemplo, un niño podría tener que perder tres preguntas seguidas antes de que el evaluador deje de hacer preguntas. Sin embargo, el evaluador se queda sin preguntas antes de que el niño pueda perder tres seguidas. Esto no significa que el niño no haya perdido ninguna pregunta. Es posible que haya perdido uno, haya respondido un par más, haya perdido dos, haya respondido más, y así sucesivamente hasta que no haya más preguntas disponibles.
Los puntajes de IQ para los niños que alcanzan el techo de una prueba de IQ pueden no ser precisos es decir, pueden ser demasiado bajos porque los niños no pudieron continuar respondiendo preguntas hasta que las preguntas se volvieron demasiado difíciles de responder. Por supuesto, el puntaje también podría ser correcto, pero cuando los niños llegan al límite de una prueba, todo lo que podemos saber es que el puntaje que recibieron es el puntaje más bajo posible. Su puntaje real podría ser un poco o mucho más alto, pero es imposible saberlo usando las pruebas como el único medio de medición.
¿Están los estudiantes avanzados en desventaja con los límites de prueba?
La Asociación Nacional para Niños Dotados sugiere que las pruebas estandarizadas que tienen techos incorporados realmente ponen a los estudiantes avanzados en desventaja, especialmente si el inglés es su segundo idioma o tienen una discapacidad de aprendizaje. Si bien las pruebas se pueden usar como puntos de referencia efectivos para el desempeño de los estudiantes, es aconsejable que también se tomen otras evaluaciones, para determinar el talento de un estudiante.
¿Cuál es el efecto techo en las pruebas?
Recuerde que Mycin y los expertos humanos acumularon aproximadamente el 65% de los puntajes disponibles "aceptables o equivalentes" del panel de jueces (Figura 3.4). Llegamos a la conclusión de que el rendimiento de Mycin fue aproximadamente igual al de los expertos humanos. Ahora imagine que Mycin y los expertos humanos acumularon aproximadamente el 100% de los puntajes disponibles "aceptables o mejores". ¿Podemos concluir que Mycin y los expertos humanos funcionan igual de bien? A primera vista, la respuesta es obvia: el programa obtuvo el mismo puntaje que los humanos, por lo que se desempeñan por igual. Pero esta situación es cualitativamente diferente de aquella en la que los humanos y Mycin obtuvieron aproximadamente el 65%. En este último caso, el 35% está disponible para demostrar un mayor rendimiento. Si Mycin fuera mejor que los humanos, podría tener una puntuación más alta. En el caso del 100%, si Mycin es mejor, no puede tener una puntuación más alta, porque ambos están "en el techo".
Cuando la hipótesis de uno es Rendimiento (A) Rendimiento (B), si A y B alcanzan el nivel máximo de rendimiento (o cercano a él), la hipótesis no debe confirmarse debido a un efecto de techo. Los efectos de techo surgen cuando los problemas de prueba son insuficientemente desafiantes. Los efectos de suelo son como los efectos de techo, pero se encuentran en el extremo opuesto de la escala de rendimiento. Imagine problemas de recomendaciones de terapia que son tan desafiantes que ni los expertos humanos ni Mycin pueden resolverlos correctamente.
Técnicamente, un efecto de techo ocurre cuando la variable dependiente, y, es igual en las condiciones de control y tratamiento, y ambos son iguales al mejor valor posible de y. En la práctica, usamos el término cuando el rendimiento es casi tan bueno como sea posible en las condiciones de tratamiento y control. Tenga en cuenta que "bueno" a veces significa grande (es decir, una mayor precisión es mejor) y a veces significa pequeño (por ejemplo, los tiempos de ejecución bajos son mejores), por lo que el techo puede abordarse desde arriba o desde abajo. Un techo limita así la «bondad» abstracta del rendimiento. Los efectos del piso ocurren cuando el rendimiento es casi tan malo como sea posible en las condiciones de tratamiento y control. Una vez más, el bajo rendimiento puede implicar puntuaciones pequeñas o grandes, por lo que el «piso» puede abordarse desde arriba o desde abajo.
Considere un ejemplo del proyecto Phoenix (sección 2.1). Suponga que la variable de rendimiento y es el tiempo requerido para contener un incendio, por lo que los puntajes buenos son pequeños y el techo es el puntaje más pequeño posible. El tiempo medio para contener incendios dentro de un radio de 50 km de la base de fuego es de aproximadamente 20 horas de tiempo simulado. Supongamos que ha diseñado un nuevo algoritmo de programación para el planificador de Phoenix, pero desafortunadamente, se reduce a solo 30 minutos del tiempo medio de finalización. Angustiado, consulta a un asistente de Phoenix, que le cuenta un poco sobre cuánto tiempo tardan las cosas en el entorno de Phoenix:
Efecto de piso, efecto de techo y computación Consistencia interna Fiabilidad en la prueba posterior
Muy a menudo, los investigadores (incluido yo) usan pruebas de opción múltiple para recopilar datos para determinar si una intervención ha funcionado o no. ¿El currículo Dance Your Way to Math realmente da como resultado puntajes más altos en los exámenes? ¿Lollipop Spelling reduce la cantidad de errores ortográficos? y así sucesivamente.
Recuerdo que me dijeron que las estadísticas que se generalizarían a la población, como la confiabilidad de la consistencia interna o la confiabilidad de la prueba-retest deberían calcularse utilizando solo los puntajes previos a la prueba (en el caso de la consistencia interna) o solo el grupo de control en el caso de correlaciones test-retest y confiabilidad de consistencia interna posterior a la prueba. Se nos dice que la razón es que "se ha hecho algo" al grupo de intervención, lo que significa que ya no son representativos de la población. Si bien estoy de acuerdo con ese razonamiento en el caso de la correlación test-retest, no estoy tan convencido en el caso de la consistencia interna.
$config[ads_text5] not foundHablemos de los efectos de piso y techo por un minuto.
Un efecto de piso es cuando la mayoría de sus sujetos puntúan cerca del fondo. Hay muy poca variación porque el piso de su prueba es demasiado alto. En términos comunes, sus preguntas son demasiado difíciles para el grupo que está evaluando. Esto es aún más un problema con las pruebas de opción múltiple. Con otros tipos, si el sujeto no sabe, no es probable que adivinen que la respuesta es, digamos (a + b) (ab), por lo que se equivocan. Con una prueba de opción múltiple con cuatro opciones, la obtendrán al azar el 25% del tiempo. Si hay un montón de preguntas que son demasiado difíciles, hay un montón de personas que responden aleatoriamente a cada una de ellas por casualidad. Combine la baja varianza con muchos errores aleatorios y su confiabilidad de consistencia interna estará en el inodoro. Entonces, digamos que tiene exactamente eso en su prueba previa. Luego, realiza la prueba nuevamente después de un tiempo y su grupo de control, sin haber recibido capacitación mientras tanto, es igualmente bajo, los problemas siguen siendo demasiado difíciles, todavía tiene conjeturas aleatorias y poca variación.
Un efecto de techo es lo opuesto, todas las asignaturas obtienen puntajes cerca de la parte superior. Hay muy poca variación porque el límite máximo de su prueba es demasiado bajo. En términos laicos, sus preguntas son demasiado fáciles para el grupo que está evaluando. Aquí no tiene el problema de adivinar al azar, pero tiene una varianza baja. Piense nuevamente en Estadísticas 101: la restricción del rango atenúa las correlaciones. Nuevamente, en términos laicos, si correlaciona la altura y el peso de los jugadores de la NBA, por ejemplo, casi no encuentra relación entre la altura y el peso porque TODOS son muy altos y TODOS muy pesados. Si hace que las preguntas en su prueba previa sean más fáciles, eso puede brindarle una mayor confiabilidad de consistencia interna en la prueba previa, pero dado que un buen porcentaje de sus sujetos sabían las preguntas al principio, al final de su capacitación, tal vez casi todas lo hagan., y luego te encuentras con un efecto de techo.
$config[ads_text6] not foundMi sugerencia es calcular la confiabilidad de consistencia interna al comienzo de su estudio para todo el grupo y después de la prueba para los grupos de control e intervención por separado. Puede descubrir que, habiendo evitado con éxito los efectos de piso y techo para el grupo de intervención posterior a la prueba, obtiene una buena confiabilidad de consistencia interna para ellos.
¿Cuál es el efecto techo en las pruebas?
Recuerde que Mycin y los expertos humanos acumularon aproximadamente el 65% de los puntajes disponibles "aceptables o equivalentes" del panel de jueces (Figura 3.4). Llegamos a la conclusión de que el rendimiento de Mycin fue aproximadamente igual al de los expertos humanos. Ahora imagine que Mycin y los expertos humanos acumularon aproximadamente el 100% de los puntajes disponibles "aceptables o mejores". ¿Podemos concluir que Mycin y los expertos humanos funcionan igual de bien? A primera vista, la respuesta es obvia: el programa obtuvo el mismo puntaje que los humanos, por lo que se desempeñan por igual. Pero esta situación es cualitativamente diferente de aquella en la que los humanos y Mycin obtuvieron aproximadamente el 65%. En este último caso, el 35% está disponible para demostrar un mayor rendimiento. Si Mycin fuera mejor que los humanos, podría tener una puntuación más alta. En el caso del 100%, si Mycin es mejor, no puede tener una puntuación más alta, porque ambos están "en el techo".
Cuando la hipótesis de uno es Rendimiento (A) Rendimiento (B), si A y B alcanzan el nivel máximo de rendimiento (o cercano a él), la hipótesis no debe confirmarse debido a un efecto de techo. Los efectos de techo surgen cuando los problemas de prueba son insuficientemente desafiantes. Los efectos de suelo son como los efectos de techo, pero se encuentran en el extremo opuesto de la escala de rendimiento. Imagine problemas de recomendaciones de terapia que son tan desafiantes que ni los expertos humanos ni Mycin pueden resolverlos correctamente.
$config[ads_text7] not foundTécnicamente, un efecto de techo ocurre cuando la variable dependiente, y, es igual en las condiciones de control y tratamiento, y ambos son iguales al mejor valor posible de y. En la práctica, usamos el término cuando el rendimiento es casi tan bueno como sea posible en las condiciones de tratamiento y control. Tenga en cuenta que "bueno" a veces significa grande (es decir, una mayor precisión es mejor) y a veces significa pequeño (por ejemplo, los tiempos de ejecución bajos son mejores), por lo que el techo puede abordarse desde arriba o desde abajo. Un techo limita así la «bondad» abstracta del rendimiento. Los efectos del piso ocurren cuando el rendimiento es casi tan malo como sea posible en las condiciones de tratamiento y control. Una vez más, el bajo rendimiento puede implicar puntuaciones pequeñas o grandes, por lo que el «piso» puede abordarse desde arriba o desde abajo.
Considere un ejemplo del proyecto Phoenix (sección 2.1). Suponga que la variable de rendimiento y es el tiempo requerido para contener un incendio, por lo que los puntajes buenos son pequeños y el techo es el puntaje más pequeño posible. El tiempo medio para contener incendios dentro de un radio de 50 km de la base de fuego es de aproximadamente 20 horas de tiempo simulado. Supongamos que ha diseñado un nuevo algoritmo de programación para el planificador de Phoenix, pero desafortunadamente, se reduce a solo 30 minutos del tiempo medio de finalización. Angustiado, consulta a un asistente de Phoenix, que le cuenta un poco sobre cuánto tiempo tardan las cosas en el entorno de Phoenix:
Actividad | Tiempo promedio para la actividad. |
---|---|
Notar un incendio en el medio ambiente | 2 horas | $config[ads_text8] not found
Decidir qué plan usar | 1 hora |
Tiempo promedio de tránsito de la excavadora desde la base de fuego a cualquier punto en un raduis de 50 km | 4 horas |
Tiempo promedio para cortar un segmento de la línea de fuego | 6 horas |
Ninguna de estas actividades implica la programación. Cada excavadora corta un promedio de dos segmentos de línea de fuego, por lo que el tiempo promedio para contener un incendio es de 19 horas. Por lo tanto, el nuevo algoritmo de programación tiene muy poco espacio para mostrar su superioridad, porque la versión anterior de Phoenix requería 20 horas, y cualquier versión requiere al menos 19 horas. Este es un efecto de techo, abordado desde arriba.
Lo más importante para recordar acerca de los efectos de techo y piso es cómo surgen. Surgen no porque un programa en una condición de control es muy bueno (o malo) sino porque el programa funciona muy bien (o mal) en un conjunto particular de problemas de prueba. El hecho de que el antiguo algoritmo de programación de Phoenix demore solo una hora más que el mínimo no significa que sea un buen algoritmo: una docena de factores no controlados podrían explicar este desempeño, y su desempeño en un escenario ligeramente diferente podría ser considerablemente peor. Los efectos de techo y de piso se deben a problemas de prueba mal elegidos.
www.cs.colostate.edu