Challenges in international assessment

By: Louise Badham

Artículo publicado originalmente en la edición de primavera de 2023 de International School Magazine.

El Bachillerato Internacional (IB) ofrece programas educativos a estudiantes de más de 5.000 colegios ubicados en más de 150 países.

Uno de los puntos más fuertes y de mayor satisfacción para el Bachillerato Internacional es la enorme diversidad de colegios y estudiantes que pueden acceder a la educación del IB a través del Programa de la Escuela Primaria, el Programa de los Años Intermedios, el Programa del Diploma y el Programa de Orientación Profesional. En el Programa del Diploma, que es el de mayor envergadura entre los que ofrece el IB, se representaron 188 primeras lenguas diferentes y 212 primeras nacionalidades (IBO, 2022) en el grupo de estudiantes que realizó sus exámenes finales en mayo de 2022. El IB está muy orgulloso de esta representación extraordinaria de lenguas y culturas de todo el mundo, la cual constituye un ejemplo tangible de su misión de promover la mentalidad internacional.

No obstante, al abordar la necesidad de ofrecer evaluaciones formales, esta maravillosa diversidad también hace que el IB se enfrente a una serie de desafíos particulares que dan lugar a preguntas importantes, como por ejemplo: ¿cómo nos aseguramos de que los exámenes de distintas lenguas ofrecen el mismo nivel de dificultad a todo el alumnado? ¿Cómo elaboramos preguntas de examen que sean culturalmente representativas e inclusivas para estudiantes de todo el mundo? ¿Cómo traducimos los esquemas de calificación de manera coherente si términos clave como adecuado y bueno tienen significados distintos en diferentes lenguas? ¿Cómo garantizamos que las calificaciones finales reflejan niveles equivalentes de logro, independientemente de la lengua en que se realicen los exámenes? Las evaluaciones sumativas formales desempeñan un rol fundamental en la vida del alumnado y determinan el siguiente paso de su vida académica o profesional; por eso, es necesario plantear estas preguntas difíciles. Las respuestas suelen ser complejas y difíciles de entender, pero así suele suceder con las preguntas más interesantes e importantes.

Por lo tanto, el personal de evaluación del IB se plantea constantemente estas preguntas controvertidas y analiza estrategias para procurar que las prácticas de evaluación sean lo más justas, válidas y confiables posible, así como lo más inclusivas desde el punto de vista lingüístico y cultural. En estudios recientes realizados por el equipo de investigación sobre la evaluación se analizó si las preguntas de examen de los cursos de Biología, Física y Química del Programa del Diploma se ven afectadas durante la traducción (McGrane et al., 2021). Es decir, si el nivel de exigencia cambia cuando la evaluación se traduce a otras lenguas. En otro estudio, se está traduciendo el trabajo del alumnado entre seis lenguas diferentes para determinar si los límites de palabras en los trabajos de clase inciden en el desempeño del alumnado en aquellas lenguas en que se necesitan más palabras para comunicar ideas.

También investigamos si los enfoques tradicionales de la evaluación —con los que el equipo examinador revisa el trabajo de un alumno/a y le asigna una nota— son siempre los más adecuados cuando se busca comparar el trabajo que produce el alumnado en distintas lenguas. En lugar de que el personal examinador de habla inglesa puntúe los trabajos en inglés y el personal examinador de habla hispana puntúe los de español, antes de comparar las puntuaciones finales, ¿sería posible que examinadores/as bilingües evalúen trabajos de las dos lenguas a la vez? La respuesta inmediata es que sí pueden hacerlo; pero hasta cierto punto. Además, es complicado y engorroso.

Solicitamos al personal examinador con experiencia del curso de Lengua A: Literatura del Programa del Diploma que usara un método denominado “valoración comparativa” para revisar pares de ensayos literarios correspondientes a una convocatoria de exámenes anterior (Badham y Furlong, 2022). En lugar de asignar puntuaciones, cada examinador/a revisó alrededor de 100 pares de ensayos y, en cada caso, simplemente determinó qué ensayo era mejor. Se utilizaron los resultados de múltiples decisiones para establecer un orden de clasificación para las respuestas y calcular los resultados finales. Al personal examinador le resulta notablemente difícil llegar a un acuerdo común sobre las respuestas de desarrollo subjetivas, como las que se requieren para evaluar las habilidades de análisis literario. Por lo tanto, la valoración comparativa puede ser una herramienta realmente útil para resolver esta dificultad; en particular, porque diferentes examinadores/as deben ver todas las respuestas varias veces para asegurarse de que la decisión final es lo suficientemente fiable.

La siguiente pregunta trataba sobre si este enfoque resultaría eficaz cuando al personal examinador bilingüe se le pidiera que comparara trabajos escritos en diferentes lenguas. A nuestro equipo examinador de Lengua A: Literatura se le pidió que revisara pares de ensayos en inglés, pares de ensayos en español y pares de ensayos en los cuales uno de los trabajos estaba en inglés y otro en español. La información obtenida a través de más de 4.000 valoraciones de examinadores/as se utilizó para establecer un orden de clasificación para las respuestas del alumnado, desde las más sólidas hasta las menos satisfactorias, tanto en cada lengua como entre distintas lenguas. Por último, pedimos que cada examinador/a nos brindara su opinión sobre el funcionamiento de todo este proceso.

Es interesante observar que, al considerar solo los números, el uso de la valoración comparativa de forma bilingüe en todas las lenguas resultó una estrategia bastante satisfactoria. En general, los examinadores/as expresaron opiniones coincidentes respecto de cuáles eran los ensayos de mejor nivel y de peor nivel. Hubo pequeñas indicaciones de que las valoraciones bilingües eran un poco menos fiables. Sin embargo, en general, el método pareció funcionar adecuadamente. En teoría, a partir de las comparaciones bilingües, podíamos haber generado una puntuación para el trabajo de cada estudiante que, desde el punto de vista estadístico, se consideraría un resultado “confiable”.

No obstante, los comentarios del personal examinador mostraron que la solución no era tan simple. Si bien se llegó a la conclusión de que los posibles beneficios de la estandarización entre lenguas ofrecían una ventaja, existían numerosos desafíos. La mayoría consideró que realizar valoraciones bilingües era más difícil que la corrección tradicional, ya que pensar en dos lenguas a la vez planteaba una gran exigencia intelectual. Además, para implementarlo a gran escala, este método requeriría contar con un gran número de examinadores/as bilingües, y sería sumamente difícil desde el punto de vista de reclutamiento. Por otra parte, debería existir un sistema para medir y verificar la competencia lingüística del personal examinador en las dos lenguas, a fin de asegurar que todo el equipo pueda acceder a las respuestas del alumnado y comprenderlas por igual en ambas lenguas.

El personal examinador también encontró interesantes diferencias académicas en el modo en que el alumnado de cada lengua escribía sus ensayos. Al comparar Inglés A: Literatura con Español A: Literatura, se observaron diferencias en el estilo y en la estructura que el alumnado utilizó en los ensayos. También notaron que los alumnos/as de Español A: Literatura tendían a adoptar un enfoque más contextual —por ejemplo, señalando que aspectos tales como los datos biográficos de los autores/as podían haber influido en la escritura de los textos—, mientras que el alumnado de Inglés A: Literatura se mostraba más proclive a analizar los textos desde un punto de vista técnico —por ejemplo, centrándose más en recursos literarios formales—.

Todo esto genera una serie de preguntas interesantes: ¿cuáles son las maneras más apropiadas de comparar los resultados de las diferentes versiones lingüísticas de las evaluaciones del IB? ¿Cómo diseñamos evaluaciones que permitan enfocar el mismo tema desde puntos de vista diferentes en términos culturales? ¿Cómo podemos reunir pruebas significativas acerca de cómo se representan y conciben las habilidades académicas en diferentes grupos lingüísticos y culturales? ¿Cuándo debería considerarse que las diferentes versiones lingüísticas son variantes de una misma asignatura académica, y cuándo que son asignaturas independientes por derecho propio? Las respuestas, por supuesto, serán complejas y difíciles de entender. Pero solamente si continuamos indagando e investigando estas preguntas difíciles podemos intentar ofrecer las evaluaciones más justas y válidas a nuestra comunidad del IB, que es lingüística y culturalmente diversa.

Referencias bibliográficas

BADHAM, L.; FURLONG, A. “Summative assessments in a multilingual context: What comparative judgment reveals about comparability across different languages in Literature”. En International Journal of Testing. 2022, n.^o 23 (2). Págs. 111-134.

ORGANIZACIÓN DEL BACHILLERATO INTERNACIONAL. The IB Diploma Programme and Career-Related Programme Final Statistical Bulletin. May 2022 Assessment Session. Cardiff: Organización del Bachillerato Internacional [en línea]. <https://ibo.org/globalassets/new-structure/about-the-ib/pdfs/final-statistical-bulletin-dp-cp-may-2022.pdf>.

MCGRANE, J.; KAYTON, H.; DOUBLE, K.; WOORE R.; EL MASRI, Y. ¿Se puede traducir la ciencia? Efectos del lenguaje en las evaluaciones de Ciencias del PD. Informe final. Centro de Evaluación Educativa de la Universidad de Oxford, 2021 [en línea]. <https://ibo.org/es/research/assessment-research/assessment-research-studies/is-science-lost-in-translation-language-effects-in-the-dp-science-assessments/>.