Challenges in international assessment

By: Louise Badham

Article originellement publié dans l’International School Magazine (en anglais), printemps 2023 : International School Magazine - Spring 2023 | School Management Plus: School & education news worldwide.

Le Baccalauréat International (IB) propose des programmes d’enseignement aux élèves de plus de 5 000 établissements scolaires répartis dans plus de 150 pays du monde entier.

La grande diversité des établissements et des élèves qui bénéficient du système éducatif de l’IB grâce au Programme primaire, au Programme d’éducation intermédiaire, au Programme du diplôme ou au Programme à orientation professionnelle est l’une des principales forces et joies de l’organisation. Les élèves qui ont passé l’examen final du Programme du diplôme (le plus grand programme de l’IB) en mai 2022 représentaient 188 langues maternelles et 212 nationalités (IBO, 2022 ; document en anglais). Cette représentation exceptionnelle de langues et de cultures du monde entier, qui fait la plus grande fierté de l’IB, est un exemple concret de la mission du Baccalauréat International en matière de sensibilité internationale dans la pratique.

Pourtant, lorsqu’il s’agit de proposer des évaluations formelles, cette diversité remarquable pose aussi à l’organisation un ensemble de défis spécifiques. Elle soulève d’importantes questions comme les suivantes : comment garantir le même niveau de difficulté aux élèves passant les examens dans différentes langues ? Comment rédiger des questions d’examen de manière culturellement représentative et inclusive pour les élèves du monde entier ? Comment traduire les barèmes de notation de façon cohérente si des termes clés comme « adéquat » et « bon » ont d’autres significations dans certaines langues ? Comment garantir que les notes finales reflètent des niveaux d’accomplissement équivalents, indépendamment de la langue de passage des examens ? Puisque les évaluations formelles et sommatives jouent un rôle aussi central dans la vie des élèves et déterminent la prochaine étape de leur parcours scolaire, universitaire ou professionnel, ces questions difficiles doivent être posées. Les réponses sont souvent compliquées et difficiles, mais c’est souvent le cas des questions intéressantes et importantes.

Ainsi, le personnel de l’IB chargé de l’évaluation fait constamment face à ces questions épineuses et explore la manière dont l’IB peut rendre ses pratiques d’évaluation justes, valables, fiables, et aussi linguistiquement et culturellement inclusives que possible. De récentes études menées par l’équipe de recherche en matière d’évaluation ont, par exemple, cherché à déterminer les effets de la traduction (McGrane et al., 2021) des questions d’examen des cours de biologie, physique et chimie du Programme du diplôme, et à savoir si le niveau d’exigence variait en fonction de la traduction dans d’autres langues. Dans une autre étude, des travaux d’élèves ont été traduits en six langues afin de déterminer si le nombre maximal de mots dans les travaux réalisés dans le cadre des cours avait une influence sur les résultats des élèves dans les langues plus « gourmandes » en mots que d’autres.

Nous avons également cherché à déterminer si les approches traditionnelles de l’évaluation, dans lesquelles les examinateurs et examinatrices passent en revue des travaux d’élèves et leur attribuent une note, sont toujours les plus pertinentes lorsqu’il s’agit de comparer des travaux d’élèves produits en différentes langues. Plutôt qu’un examinateur ou une examinatrice anglophone note des travaux en anglais et qu’un examinateur ou une examinatrice hispanophone note des travaux en espagnol, avant de comparer les notes finales, des personnes bilingues chargées de l’évaluation pourraient-elles examiner les travaux dans les deux langues en même temps ? La réponse courte est : oui, c’est possible ! Dans une certaine mesure. Mais… c’est compliqué et difficile.

Nous avons demandé à des personnes expérimentées chargées de l’évaluation des épreuves de langue A : littérature du Programme du diplôme d’utiliser une méthode de « jugement comparatif » pour examiner des paires de compositions littéraires d’une session d’examen passée (Badham et Furlong, 2022). Au lieu d’attribuer des notes, chaque examinateur ou examinatrice a contrôlé environ 100 paires de compositions et, pour chacune, a simplement décidé quelle composition était la « meilleure ». Les résultats de plusieurs décisions ont été utilisés pour classer les réponses et calculer les résultats finals. Il est notoirement difficile pour les personnes chargées de l’évaluation de parvenir à un consensus sur des compositions comme celles qui sont requises pour évaluer les compétences en matière d’analyse littéraire. Le jugement comparatif peut donc être un excellent moyen de contourner cette difficulté, notamment parce que chaque réponse doit être examinée plusieurs fois par différentes personnes chargées de l’évaluation pour assurer la fiabilité de la décision finale.

La question suivante a été de déterminer si cette approche pouvait fonctionner lorsque les personnes bilingues chargées de l’évaluation devaient comparer des travaux rédigés en différentes langues. Nous avons donc demandé à nos examinateurs et examinatrices de langue A : littérature de travailler sur des paires de compositions en anglais, des paires de compositions en espagnol, et des paires de compositions dont l’une était rédigée en anglais et l’autre en espagnol. Les décisions de plus de 4 000 évaluations ont été utilisées pour classer les réponses des élèves de la meilleure à la plus faible, pour chaque langue et pour les deux langues à la fois. Enfin, nous avons demandé aux personnes chargées de l’évaluation leur avis sur la qualité du fonctionnement de l’intégralité de ce processus.

Si l’on prend uniquement en compte les chiffres, l’utilisation du jugement comparatif entre les langues semble avoir plutôt bien réussi. Dans l’ensemble, les personnes chargées de l’évaluation se sont accordées sur les meilleures compositions et les compositions les plus faibles. Certains indices ont montré que les jugements bilingues étaient un peu moins fiables, mais, d’une manière générale, la méthode a semblé fonctionner. En théorie, nous aurions pu attribuer une note pour chaque travail d’élève à partir des comparaisons bilingues qui, d’un point de vue statistique, seraient considérées comme des résultats « fiables ».

Toutefois, le retour d’information des personnes chargées de l’évaluation a montré que cela n’était pas aussi simple. Bien qu’elles aient trouvé que la normalisation entre les langues présentait des avantages potentiels, elles ont également fait face à de nombreux défis. La plupart ont trouvé les jugements bilingues plus sévères que la notation traditionnelle, car penser dans deux langues à la fois est intellectuellement exigeant. Par ailleurs, à grande échelle, cette méthode nécessiterait de faire appel à de nombreuses personnes chargées de l’évaluation ayant un niveau de bilinguisme très élevé, ce qui représenterait un défi majeur en matière de recrutement. De plus, il faudrait aussi trouver un moyen de mesurer et vérifier les compétences linguistiques des examinateurs et examinatrices dans les deux langues, un impératif pour assurer que toutes ces personnes puissent consulter et comprendre les réponses des élèves de manière égale dans les deux langues.

Les examinateurs et examinatrices ont aussi relevé des différences intrigantes dans la manière dont les élèves de chaque langue avaient rédigé leur composition. Ces différences concernaient le style et la façon dont les élèves avaient structuré leur composition en anglais A : littérature par rapport à l’espagnol A : littérature. Les examinateurs et examinatrices ont aussi remarqué que les élèves d’espagnol A : littérature avaient eu tendance à adopter une approche plus contextuelle, par exemple en faisant des commentaires sur la façon dont certains aspects (comme des détails sur la vie des auteures et auteurs) avaient pu influencer la rédaction de leurs compositions, tandis que les élèves d’anglais A : littérature avaient plutôt semblé analyser les textes d’un point de vue plus technique, en se concentrant sur les procédés littéraires formels.

Tout cela soulève un nombre intéressant de questions : quelles sont les façons les plus adaptées de comparer les résultats de différentes versions linguistiques d’évaluations de l’IB ? Comment concevoir des évaluations permettant des approches culturellement différentes de la même matière ? Comment recueillir des preuves pertinentes sur la manière dont les compétences scolaires sont représentées et comprises au sein de différents groupes linguistiques et culturels ? Dans quelle mesure différentes versions linguistiques peuvent-elles être considérées comme des variantes d’une seule matière, ou bien des matières tout à fait indépendantes ? Bien sûr, les réponses seront compliquées et difficiles, mais c’est en continuant à nous poser ces questions complexes et à les étudier que nous parviendrons à proposer les évaluations les plus justes et valides possible à la communauté de l’IB multilingue et multiculturelle.

Références bibliographiques

BADHAM, L. et FURLONG, A. Summative assessments in a multilingual context: What comparative judgment reveals about comparability across different languages in Literature. International Journal of Testing. 2022, volume 23, numéro 2, p. 111 – 134.

ORGANISATION DU BACCALAURÉAT INTERNATIONAL [IB]. 2022. The IB Diploma Programme Statistical Bulletin – May 2022. Cardiff, Royaume-Uni : Organisation du Baccalauréat International. Disponible sur Internet : <https://ibo.org/globalassets/new-structure/about-the-ib/pdfs/final-statistical-bulletin-dp-cp-may-2022.pdf)>.

MCGRANE, J., KAYTON, H., DOUBLE, K., WOORE, R. et EL MASRI, Y. Is Science Lost in Translation? Language Effects in the International Baccalaureate Diploma Programme Science Assessments. Rapport complet. Oxford University Centre for Educational Assessment (OUCEA). 2021. Disponible sur Internet : <https://ibo.org/fr/research/assessment-research/assessment-research-studies/is-science-lost-in-translation-language-effects-in-the-dp-science-assessments/>.