Corps de l’article

Problématique

Depuis une vingtaine d’années, des travaux sur le développement professionnel en éducation soulignent une démotivation grandissante des enseignants[2], due notamment à une dépossession de leur pouvoir d’action par la noosphère, qui les assimilerait davantage à des techniciens qualifiés de l’éducation qu’à des praticiens réflexifs et responsables (Osborn, 2002 ; Rayou, 2008). Ce phénomène a été spécifiquement pointé par des recherches qui postulent que les enseignants se sentent dépossédés de leurs compétences à évaluer leurs élèves lorsqu’ils font face à de nombreuses et récurrentes modalités d’évaluations externes, comme c’est aujourd’hui le cas dans la plupart des systèmes scolaires occidentaux (Jorro, 2015 ; Koretz, 2017 ; Maroy et Cattonar, 2002 ; Osborn, 2006).

Conjointement, des études dans le domaine de l’évaluation soulignent qu’un pourcentage restreint d’enseignants toutes années d’études confondues met en oeuvre des démarches d’évaluation sommative[3] centrées sur les apprentissages et les progrès des élèves (p. ex., Bateman et al., 2009 ; Moss, 2013 ; Mottier Lopez, 2014). Nusche, Radinger, Santiago et Shewbridge (2013) confirment ce constat dans une méta-analyse menée à large échelle qui montre que, dans la plupart des pays de l’Organisation de coopération et de développement économiques (OCDE), les évaluations sommatives sont centrées sur un nombre limité d’apprentissages le plus souvent peu complexes, réduisant ainsi le contenu du curriculum. Mottier Lopez (2014) va dans le même sens en décrivant des pratiques qualifiées de « traditionnelles » parce qu’axées fortement sur les notes et peu informatives.

D’autres travaux, complémentaires, pointent de forts écarts existant entre les représentations que se font les enseignants de pratiques d’évaluation sommative cohérentes et la description de leurs propres pratiques (Braxmeyer et al., 2005 ; Martinez et al., 2009 ; Rieg, 2007). Selon Moss (2013), ces écarts s’expliqueraient notamment par le fait que les enseignants utilisent régulièrement une variété de méthodes d’évaluation sommative alors que leurs compétences en la matière sont faibles. Cette auteure fait alors l’hypothèse qu’une des causes de ces problèmes viendrait notamment d’un manque de formation ou encore d’actions de formation insuffisamment centrées sur des contenus pédagogiques et disciplinaires (Guskey et Yoon, 2009 ; Timperley, 2011). Les pratiques d’évaluation sommative, tous contextes et années d’études confondus, seraient donc souvent davantage le fruit d’habitudes peu remises en question ou d’essais-erreurs que de pratiques modélisées et cohérentes.

Étant donné que le développement professionnel est optimal lorsque « les enseignants deviennent coapprenants ou apprenants autorégulés par un processus d’enquête situé dans l’environnement immédiat de leur pratique » (Timperley, 2011, p. 34), la conjugaison de ces éléments encourage à mettre en oeuvre des dispositifs de recherche en évaluation offrant aux enseignants la possibilité de « s’orienter vers la résolution de problèmes, d’être autonomes dans le choix des stratégies pédagogiques » (Perrenoud, 1996, p. 554). Cette nécessité serait d’autant plus grande relativement à l’évaluation sommative pour que cette dernière puisse être en lien avec les apprentissages des élèves, et non dépendante d’autres facteurs (Hadji, 2016, 2017 ; Pasquini, 2021).

Ces constats nous amènent à formuler deux hypothèses :

  1. Amener les enseignants à améliorer la cohérence de leurs pratiques évaluatives sommatives demande à travailler leur capacité à mobiliser des concepts issus de la recherche (Altet, 2000) étant susceptibles d’être « des instruments du pouvoir d’agir des acteurs de terrain » (Vinatier et Morrissette, 2015, p. 142) ;

  2. Avec l’idée que des dispositifs de formation de type descendant (top-down) ont peu d’impact positif sur les pratiques effectives (Jorro, 2013), le développement des compétences en évaluation doit alors être envisagé selon deux perspectives : a) la considération des pratiques réelles avec une attention portée aux « questions vives » de la pratique des enseignants inscrites dans leur réalité de classe (Pasquini, 2017) et b) la prise en compte des spécificités disciplinaires et des contextes (p. ex., type et niveau des élèves, prescriptions en matière d’évaluation).

Au regard de ces éléments de problématisation, notre question de recherche est la suivante : En quoi une recherche collaborative peut-elle contribuer au développement de compétences en évaluation sommative au service de démarches de certification cohérentes ?

Pour la traiter, nous commençons par dresser notre cadre conceptuel en y définissant les éléments théoriques clés de notre étude. Ensuite, la méthodologie présente les éléments de notre recherche collaborative, notre dispositif ainsi que nos données et outils d’analyse. Les résultats sont organisés de manière à mettre en évidence l’évolution des compétences des enseignants entre le début et la fin de la recherche, dans une perspective visant à souligner la dimension dynamique du processus. Une discussion relève ensuite quelques tensions en vue de futures problématisations. Enfin, nous terminons avec une conclusion mettant notamment en évidence les atouts et limites du présent travail.

Cadre conceptuel

L’évaluation sommative

L’évaluation sommative se définit comme « une évaluation qui a pour objet un inventaire. Son usage social est de vérifier (probation), sa fonction sociale de certifier. Elle a comme fonctions annexes classer, situer ou encore informer » (Hadji, 1989, cité dans Mottier Lopez, 2015, p. 23). Relativement à notre problématique, trois raisons nous ont poussé à suivre cette définition :

  1. Elle renvoie à la nécessité d’obtenir des preuves des apprentissages essentiels des élèves (to sum up ; Brookhart, 2017), qui induit la question « qu’évaluer ? » et qui interroge les modalités permettant une évaluation référée aux apprentissages et aux contenus ;

  2. Elle met en évidence les fonctions informatives de toute démarche sommative. La note validant un résultat peut dès lors, à certaines conditions, renseigner l’élève et le corps enseignant sur les apprentissages évalués, au-delà du seul chiffre ;

  3. Enfin, elle considère que l’évaluation sommative peut, dans une certaine mesure, poursuivre d’autres fonctions, comme classer ou situer les élèves, deux visées possiblement contrastées qui ont un impact important sur le rôle de la note dans leur parcours.

Ainsi, nous pouvons envisager que la mise en oeuvre d’une démarche d’évaluation sommative devrait être qualitative, car centrée sur les apprentissages réellement menés, ce qui permet à l’enseignant de situer les élèves par rapport à l’atteinte d’un objectif et de les informer sur leurs performances au-delà d’une note chiffrée. La littérature s’accorde sur le fait que la conceptualisation d’une cohérence en évaluation sommative (Anderson, 2002 ; Pasquini, 2018 ; Sadler, 2009) doit faire appel à des modèles théoriques (Mottier Lopez et Figari, 2012).

Un modèle théorique pour saisir la cohérence des pratiques évaluatives sommatives

Pour comprendre et analyser les phénomènes de cohérence en évaluation sommative, nous avons exploité avec les enseignants le modèle théorique de l’alignement curriculaire élargi (Pasquini, 2018, 2019). Conceptualisé à partir du modèle de l’alignement curriculaire (Anderson, 2002 ; Gauthier et al., 2005), il désigne, en évaluation sommative, « le fort lien de cohérence systémique existant entre les objectifs évalués, les tâches évaluatives, les points et/ou les critères attribués et l’échelle de notation » (Pasquini, 2019, p. 83).

Plus précisément, et comme le montre la figure 1, la référenciation restreinte décrit « ce qui fait foi » chez les enseignants quand ils opèrent des choix relativement aux objectifs d’apprentissages à évaluer d’un point de vue sommatif dans une épreuve (Vial, 2012). Le « design » (Wiggins et McTighe, 2005) explicite les processus de construction des tâches évaluatives complexes ou des items simples, du point de vue des contenus et des habiletés cognitives sur lesquels ils portent. La pondération renvoie au poids alloué aux apprentissages et aux outils exploités pour ce faire (des critères, des points ou des critères appariés à des points comme modalité mixte ; Jönsson, 2014). Enfin, la notation cible les démarches de construction de la note chiffrée en lien avec l’apprentissage à l’aide d’outils comme les échelles et les barèmes (Dubus, 2006 ; Marzano et Heflebower, 2011). Ce sont alors cinq relations entre les différentes composantes qui devraient entretenir entre elles des liens de cohérence au sein de toute épreuve, possiblement traduisibles par le biais de questions non exhaustives comme :

  • Les objectifs formulés sont-ils évalués au travers des tâches ? Les tâches rendent-elles compte des objectifs évalués ? (relation A) ;

  • Les objectifs formulés se retrouvent-ils dans les critères ? Les critères décrivent-ils les objectifs évalués ? (relation B) ;

  • Les tâches donnent-elles lieu à un poids alloué à l’apprentissage cohérent ? Le poids des apprentissages évalués correspond-il à ce que les tâches évaluent quant à la complexité des contenus et des habiletés cognitives ? (relation C) ;

  • Les contenus et habiletés présents dans les tâches se retrouvent-ils dans les descripteurs des échelles ? Les échelons des échelles donnent-ils à voir les contenus et habiletés issus des tâches ? (relation D) ;

  • Relativement à la notation, les critères permettent-ils l’établissement des échelons, surtout le seuil de suffisance ? Les échelons et leur progression sont-ils en rapport avec les critères ? (relation E)

Figure 1.

L’alignement curriculaire élargi (Pasquini, 2018, 2019)

L’alignement curriculaire élargi (Pasquini, 2018, 2019)

-> Voir la liste des figures

Ici, la cohérence entre les différentes composantes du modèle est lue à l’aune de la taxonomie d’Anderson et Krathwohl (2001), qui propose de formuler des objectifs d’apprentissage en appariant des habiletés cognitives à des contenus (p. ex., en français : rédiger le portrait physique et moral d’un héros).

C’est au travers de ce questionnement permis par le modèle que nous avons parlé avec les enseignants de cohérence curriculaire élargie de l’épreuve en cas de cohérence globale (relations A, B, C, D et E) et de désalignements curriculaires (Airasian et Miranda, 2002 ; Biggs, 2003) sur une ou plusieurs de ces relations quand cette cohérence se perdait, par exemple lorsque les tâches évaluatives ne permettaient pas ou partiellement de certifier les objectifs évalués (Pasquini, 2018). Ce questionnement itératif, dès le début du processus de recherche, a permis une explicitation et une objectivation des phénomènes de cohérence – ou d’incohérence – curriculaire au sein des pratiques, dans diverses situations. C’est également à l’aune des composantes de ce modèle que nous avons construit nos catégories conceptualisantes pour documenter le développement progressif des compétences en évaluation chez les enseignants, comme nous le détaillons dans notre méthodologie.

Les compétences en évaluation

Une importante revue de littérature (Pasquini, 2018) nous a permis de recenser les connaissances jugées indispensables au développement de compétences en évaluation (Paquay, 2012). Nous avons considéré ces connaissances comme des unités d’apprentissage mobilisées par les acteurs sous forme de compétences (Paquay et al., 2010). Nous avons dès lors postulé que le développement des compétences relevait d’une subtile mobilisation de connaissances en contexte en vue de résoudre des situations complexes (Paquay et al., 2010). Dans ce sens, nous avons suivi Le Boterf (2011), pour qui agir avec compétence revient à « mettre en oeuvre une pratique professionnelle pertinente par rapport aux exigences de la situation, tout en mobilisant une combinatoire appropriée de ressources (connaissances, habiletés, comportements, aptitudes) » (p. 28).

Nous avons fait l’hypothèse selon laquelle l’amélioration de la cohérence des pratiques évaluatives des enseignants et leur capacité à progressivement les justifier en fonction de leurs discipline, contraintes et contexte seraient des signes de développement de leurs compétences, et que ce processus d’apprentissage serait rendu possible en partie depuis les connaissances issues de notre modèle théorique. La finalité poursuivie était d’amener chacun à pouvoir répondre à ses questions évaluatives, à trouver des stratégies pour les affronter et à faire face aux dilemmes verbalisés en début et en fin de processus (Perrenoud, 2004). Nous avons alors souhaité que les apports puissent être incarnés dans une manière de penser la cohérence évaluative sommative du point de vue des pratiques réelles, selon une perspective dynamique et disciplinaire.

Dès lors, en référence aux différentes composantes de notre modèle théorique, et en articulant les apports de la recherche sur les compétences clés en évaluation (Brookhart, 2011 ; Popham, 2009) avec les dimensions contextuelles des enseignants, nous avons formulé six compétences :

  1. Analyser le plan d’études du point de vue des objectifs et des contenus disciplinaires qui y circulent à des fins d’évaluation sommative en mettant en relation de manière cohérente les différents niveaux de formalisation des objectifs, et en analysant les contenus pour en déterminer les caractéristiques essentielles à des fins d’évaluation sommative ;

  2. Élaborer des tâches évaluatives complexes en rapport avec les objectifs des plans d’études qui donnent des preuves d’apprentissages maîtrisés ou en voie de réalisation en privilégiant des tâches qui donnent à voir des unités d’apprentissage significatives (approche qualitative) ;

  3. Adopter des systèmes de pondération permettant de mettre en évidence le poids donné à l’apprentissage référé aux objectifs et aux contenus en privilégiant, autant que possible, une pondération critériée, notamment pour permettre du feedback aux élèves à visée de régulation ;

  4. Construire des notes de manière à ce qu’elles rendent compte des acquis et lacunes des apprentissages des élèves en élaborant ses propres échelles et barèmes en référence au système de pondération, à la complexité des tâches et aux objectifs évalués ;

  5. Penser ses pratiques évaluatives sommatives en termes de validité et de cohérence d’alignement curriculaire élargi en les référant aux processus d’enseignement et d’apprentissage, et en analysant leur cohérence à l’aune d’éléments taxonomiques ;

  6. Justifier ses choix en matière de pratiques évaluatives sommatives au regard de son contexte institutionnel cantonal, local (établissement) et de la culture des équipes dans lesquelles elles s’inscrivent en les adaptant aux prescriptions institutionnelles, tout en étant attentif à ce qu’elles soutiennent les apprentissages des élèves.

Méthodologie

Notre recherche collaborative

Pour favoriser un développement professionnel des enseignants sur leurs compétences en évaluation (Jorro, 2013 ; Van Nieuwenhoven et Colognesi, 2015), nous avons modélisé une recherche collaborative (voir Figure 2) en nous inspirant des travaux de Desgagné (1997) et de Desgagné, Bednarz, Lebuis, Poirier et Couture (2001).

Figure 2

Modélisation de notre recherche collaborative

Modélisation de notre recherche collaborative

-> Voir la liste des figures

Plus spécifiquement, nous avons souhaité que l’activité réflexive soit présente dans tous les temps de notre dispositif décrit plus bas, dans la mesure où elle constitue le pivot de la recherche collaborative (Bednarz, 2013) en tant que « zone interprétative partagée entre chercheurs et praticiens où les argumentations et les ressources des uns et des autres sont mobilisées, où les praticiens en collaboration avec des chercheurs viennent éclairer un certain objet lié à cette pratique » (Bednarz, 2015, p. 174). D’un point de vue méthodologique, la mise en oeuvre de cette activité a été rendue possible par la création d’espaces dans lesquels les connaissances sur des objets liés à la pratique évaluative se sont coconstruites, issues du croisement entre notre logique de chercheur et celle des enseignants. Aussi avons-nous invité ces derniers à expliciter les problèmes et à formuler leurs questions dès le début du processus, dans un souci de rendre compte de leurs préoccupations, tout en étant attachés aux nôtres afin de construire des connaissances pour la pratique et la recherche.

Ce critère de double vraisemblance du dispositif (Bednarz, 2013 ; Desgagné, 2007) s’est décliné en fonction des trois phases de la recherche : 1) une phase de cosituation, où il s’est agi de faire en sorte que la problématique choisie soit pertinente d’un point de vue de préoccupation de recherche, mais aussi relativement aux questions des enseignants ; 2) une phase de coopération, où ont lieu les interactions entre les enseignants et où nous avons favorisé un espace de collecte de données en rapport avec la méthodologie, tout en laissant ouvert un espace de questionnement de la pratique ; et 3) une phase de coproduction, qui a permis une double fécondité des résultats sur le plan professionnel (pour la pratique) et sur le plan de la recherche, en lien avec le questionnement évolutif des participants. Ces phases ont traduit la validité du dispositif : « double pertinence sociale lorsque se coconstruit le projet, double rigueur méthodologique dans la coactivité autour des pratiques […] et double fécondité des résultats » (Bednarz, 2015, p. 181).

Un rôle d’accompagnateur pour le chercheur

Dans la mesure où il s’est avéré nécessaire de guider les praticiens dans leurs questionnements et démarches de développement, nous avons également investi de manière articulée un rôle de formateur qui « encadre la démarche de recherche des enseignants, prise au sens informel du terme » (Desgagné et al., 2001, p. 39). Ce double investissement de postures, considérées parfois comme peu compatibles (Bednarz, 2015), a pu se réaliser aux deux conditions suivantes : nous avons gardé constamment en vue l’objet de la recherche et nous sommes resté fidèle au processus d’investigation requis par la recherche. Nous avons alors adopté une posture d’accompagnateur, c’est-à-dire d’un chercheur qui s’implique dans le projet pédagogique qu’il accompagne (Cuche et al., 2012), dans la mesure où nous avons aidé chaque enseignant à cheminer dans son parcours individuel au regard de ses questions, mais aussi à gérer les tensions, craintes, voire découragements auxquels chacun a fait face.

Cette posture s’est avérée nécessaire vu l’expérimentation collaborative qu’ont menée les enseignants dans le développement de leurs pratiques évaluatives, et dans le souci d’approfondir le « pour quoi » et le « comment » de ces pratiques d’un point de vue spontané, puis progressivement à l’aide d’un modèle théorique (Boucenna et Charlier, 2012) puisque « pour être formatrice, la pratique doit être théorisée » (Charlier, 2012, p. 130).

Les enseignants participant à notre recherche collaborative

Trois enseignants de mathématiques et trois de français du secondaire (élèves de 13 à 16 ans) ont pris part à cette recherche collaborative[4]. Ils ont été recrutés sur une base de volontariat en contactant divers établissements scolaires où nous avions mené des actions de formation continue. Leur expérience variait de 3 à 15 ans, mais aucun d’entre eux n’avait participé à une recherche de ce type. Tous étaient titulaires d’un titre d’enseignement reconnu, mais personne n’avait suivi de formation continue récente en évaluation.

Les enseignantes de langue travaillaient dans le même établissement. Deux enseignants de mathématiques exerçaient dans un établissement différent, tandis que le troisième provenait d’une autre école présentant des caractéristiques socioéconomiques similaires. Du point de vue de l’évaluation sommative, ils étaient légalement tenus d’évaluer leurs élèves par le biais d’épreuves complexes, puis de les certifier à l’aide de notes allant de 1 à 6 avec demi-notes, la note 4 traduisant le seuil de suffisance.

Étant donné que les enseignants ont été invités à partager au plus vite leurs questions avec leurs pairs et le chercheur, notre recherche collaborative s’est ouverte à une complexité du réel exprimée du point de vue de la pratique, qui « est au coeur d’une tension entre un souci de rigueur pour toute démarche méthodologique […] et la nécessité de maintenir une certaine souplesse pour mieux sentir le terrain » (Morrissette et Desgagné, 2009, p. 139). Il s’est agi ici de saisir la pratique dans toutes ses dimensions et, donc, de reconnaître aux praticiens un champ de compétences spécifique à mettre au service de l’objet de recherche (Desgagné et Larouche, 2010). Dès lors, leur développement de compétences a dépendu également en partie de connaissances et de compétences dont ils étaient porteurs, dès le départ, comme nous le montrons dans nos résultats.

Le dispositif et les données

Huit temps ont marqué notre dispositif, lesquels sont synthétisés dans le tableau 1.

Tableau 1

Dispositif de recherche

Dispositif de recherche

-> Voir la liste des tableaux

Une première rencontre a permis de recenser les problèmes que souhaitaient traiter les enseignants dans leurs pratiques évaluatives, notamment du point de vue des contenus disciplinaires en mathématiques et en français. Le temps 1 a été consacré à des entretiens compréhensifs (Kaufmann, 2011) individuels permettant de documenter comment les participants parlaient de leurs pratiques évaluatives sommatives en contexte avant d’entrer dans la recherche. Le temps 2 a concrétisé le premier acte d’écriture par la production d’un récit exemplaire de pratique (Desgagné, 2005 ; Pasquini, 2013, 2016).

Cette démarche réflexive s’est reproduite pendant la recherche (temps 4) pour décrire l’évolution de leur questionnement et de leurs acquisitions et à la suite de celle-ci (temps 7) afin de dresser un bilan de leur parcours. Lors du temps 3, les enseignants ont modélisé la cohérence d’une épreuve sommative inconnue à l’aide du modèle théorique de l’alignement curriculaire élargi (Pasquini, 2018, 2019), puis ils ont commencé à élaborer une épreuve pour leurs élèves en respectant leurs habitudes de travail et leur programme.

La deuxième rencontre (temps 5) a eu lieu six semaines plus tard, une fois entre enseignantes de français, une autre entre enseignants de mathématiques, afin d’approfondir les questions liées aux contenus des deux disciplines. Ce laps de temps a permis aux enseignants de terminer la conception de leur épreuve et, parfois, de la mettre en oeuvre dans leur classe. Durant cette deuxième séance, la première épreuve a été discutée entre le chercheur et les enseignants, puis ces derniers ont commencé à construire une seconde épreuve.

Deux mois plus tard, le temps 6 a consisté en une dernière rencontre, en grand groupe, durant laquelle a été réitéré le processus de discussion de chaque épreuve. Parallèlement au dernier écrit de pratique (temps 7), les enseignants ont été conviés au second entretien compréhensif (temps 8) centré sur l’évolution de leurs pratiques depuis le départ.

L’entièreté du dispositif a duré sept mois. Quatre types de données ont ainsi été récoltés : les épreuves sommatives réalisées, les enregistrements des échanges lors des discussions de ces épreuves pendant les rencontres, deux entretiens compréhensifs et trois écrits exemplaires de pratique.

La méthode d’analyse

L’analyse des données issues de notre dispositif a permis de documenter et de comprendre l’impact d’un modèle théorique sur le développement des compétences en évaluation des enseignants, dans des situations d’évaluation réelles référées à des pratiques de classe contextualisées.

Afin de dégager des éléments qualitatifs de nos données, nous avons opté pour une analyse à l’aide de catégories conceptualisantes, définies comme « une production textuelle se présentant sous la forme d’une brève expression et permettant de dénommer un phénomène perceptible à travers une lecture conceptuelle d’un matériau de recherche » (Paillé et Mucchielli, 2012, p. 316). Toute catégorie désignant un phénomène, nous avons considéré les composantes de notre modèle théorique comme étant proches de catégories. Par exemple, la tâche évaluative joue un rôle structurant dans la compréhension des phénomènes évaluatifs par le praticien, tout en demandant au chercheur d’incarner l’attribution de signification des phénomènes relatifs au concept de tâche pour comprendre les pratiques. Aussi, nous avons mis en dialogue les composantes de notre modèle théorique avec nos données, ce qui nous a permis de construire cinq catégories : rapport au référentiel, expression du contenu, élaboration des tâches évaluatives, pratiques de pondération et pratiques de notation.

Nous avons alors croisé nos cinq catégories avec les six compétences élaborées au regard des apports de la recherche, des questions des praticiens et de leur contexte. Les catégories conceptualisantes ont ainsi permis de documenter l’évolution du développement des différentes compétences. En complément, nous avons adopté une démarche de triangulation méthodologique (Silverman, 2009) pour contrôler les biais éventuels d’interprétation, dans une recherche de validité. Nous avons alors considéré la triangulation comme une stratégie inductive de recherche, car elle privilégie et valorise le fait de partir d’un phénomène particulier issu des pratiques pour le décrire et le comprendre, ce qui est pertinent avec la logique des trois phases de la recherche collaborative décrites auparavant (cosituation, coopération et coproduction).

Dans cette idée, la triangulation s’est assimilée à une procédure de va-et-vient dynamique entre opérations de recueil, d’analyse et de conceptualisation – qui renvoie à l’analyse des données par le biais des catégories conceptualisantes – et au rapport de cohérence que cette analyse a entretenu avec nos données qualitatives. Cette triangulation s’est dès lors basée sur le principe de réinjection, prenant lui-même la forme de questionnements, d’hypothèses et d’observations.

Résultats

Nous présentons les résultats qui documentent le développement des compétences en évaluation de chaque enseignant dans son parcours individuel. Pour chacun d’entre eux, un tableau (voir Tableaux 2 à 7) synthétise l’évolution des six compétences avant et après la recherche, en fonction de la discipline. Les éléments significatifs ont été sélectionnés et exemplifiés à l’aide d’extraits de protocoles, signalés entre guillemets dans les tableaux. Les contenus des épreuves qu’ils ont conçues sont symbolisés par les codes E1 et E2. De par le fait que les compétences E et F portaient sur la mobilisation des apports proposés, les indices de leur développement n’apparaissent que dans la seconde partie de tableau. Quelques lignes résument ensuite les changements saillants chez chaque participant en précisant sur quoi portait son questionnement de départ. Une synthèse clôt cette section en mettant en évidence les points clés.

Les enseignants de mathématiques

Fernand

Au début de la recherche, Fernand explique que son plus grand problème réside dans la pondération : « Dans une évaluation, quel poids donner sur chaque partie, sur chaque objectif que j’évalue ? Pour moi, c’est le plus difficile. » À la fin, nous observons que le plan d’études prend davantage de sens avec un rôle central donné aux contenus disciplinaires et aux objectifs, qui déterminent par ailleurs l’élaboration des tâches évaluatives. L’attribution des points ne suit plus une logique mathématique, mais fait référence à l’importance des apprentissages évalués à partir de critères. Le seuil de suffisance (note = 4) est établi en référence aux apprentissages, mais le barème fédéral[5] est toujours utilisé pour établir le seuil des autres notes. Fernand peut justifier la cohérence de ses épreuves, même s’il peine encore à éviter des désalignements de la notation et s’il ne parvient pas à apparier une évaluation critériée et une note référée à l’apprentissage : « Encore dans l’évaluation d’hier, j’ai essayé de mettre quelques critères, et puis je les ai gardés pour moi… Comme on regarde un tableau de maître qu’on a dans son coffre (rire). »

Tableau 2

Évolution des compétences en évaluation chez Fernand

Évolution des compétences en évaluation chez Fernand

-> Voir la liste des tableaux

Paul

Le problème principal que Paul soulève dans son premier entretien et son premier écrit est celui des barèmes de notation, notamment en matière d’exploitation du barème fédéral : « Cet aspect mécanique de l’évaluation ne me plaît pas du tout […],car on utilise rarement l’évaluation pour que ça serve à l’élève. » En fin de recherche, de manière générale, nous observons cependant que ses pratiques évaluatives se réfèrent de plus en plus aux contenus disciplinaires et aux objectifs : le plan d’études a gagné en clarté, et l’élaboration des tâches évaluatives, l’attribution des points et la construction de la note suivent davantage une réflexion centrée sur les apprentissages. Malgré un gain d’assurance dans ses choix, il subsiste toutefois chez Paul des espaces d’inconfort concernant la construction de la note, où des compromis peu convaincants sont toujours réalisés : « Le barème fédéral, c’est ma base de travail […]. Je ne pense pas que c’est bien, mais il faut bien que je travaille avec quelque chose. »

Philémon

Le souhait de Philémon serait d’arriver à des évaluations plus « justes » en se concentrant sur la pondération, jugée selon lui délicate à opérationnaliser : « Est-ce que je suis vraiment en train d’évaluer chez l’élève une acquisition de connaissances ou est-ce que je suis en train d’évaluer tout le temps les mêmes choses ? » Au terme du processus, les objectifs et les contenus prennent plus d’importance dans ses pratiques évaluatives : le plan d’études devient une référence pour déterminer les attentes, et c’est autour d’une réflexion sur les critères que l’élaboration des tâches évaluatives – de complexité plus homogène – et la construction de la note suffisante 4 ont lieu. Il subsiste toutefois encore des problèmes à construire les autres notes en référence à ces mêmes critères : « Je ne suis pas convaincu que faire fi des points, ça va me permettre d’être meilleur dans ma cohérence. » Cela dit, Philémon assume ses choix en matière d’évaluation.

Les enseignantes de français

Alizée

Alizée éprouve trois problèmes. Le premier est l’évaluation de certains contenus comme l’expression orale, tandis que le deuxième consiste en l’exploitation des grilles de critères : « Quel poids on met à chaque partie […], quel équilibre on donne à chaque partie ? » Le troisième problème est relatif à la notation : « Comment et quand fixer nos échelles ? » À la fin de la recherche, en référence aux deux épreuves construites avec sa collègue directe Anouck, les changements majeurs se situent dans la place prépondérante que prennent désormais les contenus et les objectifs, référés à la taxonomie d’Anderson et Krathwohl (2001). Son approche critériée, totalement cohérente d’un point de vue d’alignement curriculaire élargi, lui permet d’assumer ses choix et de refuser certaines directives relatives à la notation considérées comme apédagogiques, par exemple la linéarité des échelles. Toutefois, elle reste toujours en questionnement sur la transposition de telles pratiques à d’autres contenus : « La compréhension orale… je ne sais toujours pas comment l’évaluer. »

Tableau 3

Évolution des compétences en évaluation chez Paul

Évolution des compétences en évaluation chez Paul

-> Voir la liste des tableaux

Tableau 4

Évolution des compétences en évaluation chez Philémon

Évolution des compétences en évaluation chez Philémon

-> Voir la liste des tableaux

Tableau 5

Évolution des compétences en évaluation chez Alizée

Évolution des compétences en évaluation chez Alizée

-> Voir la liste des tableaux

Anouck

Le questionnement initial d’Anouck se situe par rapport aux contenus à évaluer : « Je me rends compte qu’on ne sait pas toujours ce qu’on attend, finement, quand on fait un test. Enfin, qu’est-ce qu’on veut ? Si on veut juste qu’ils sachent écrire, ou bien s’ils doivent avoir atteint des objectifs plus précis à l’intérieur ? » Au terme de notre collaboration, les changements dans ses pratiques sont de plusieurs ordres : les contenus sont désormais centraux dans sa manière d’envisager toute démarche d’évaluation sommative, et la taxonomie est aussi une référence pour formuler et analyser les objectifs. Anouck se sent enfin délivrée du phénomène de compensation des points qui lui posait problème, mais elle reste en questionnement sur la construction des notes autres que le seuil de suffisance (note = 4) : « La grande question que j’ai encore, c’est celle de l’échelle. […] Je me sens légitimée dans ma manière de placer le 4. Je le fais facilement. Après, il reste le problème d’en dessus et d’en dessous. »

Samia

Dès la première rencontre, Samia exprime un malaise dans ses pratiques qui la font se demander si elle est « juste » avec les élèves : « Des textes relativement pauvres en imagination ou intérêt obtiennent quand même la note 4 grâce aux différents objectifs. Et parfois des textes assez mauvais en syntaxe et structuration obtiennent le 4 grâce à la richesse des idées ou simplement au fait d’avoir suivi scrupuleusement les objectifs. » Cela étant, en fin de recherche, des changements clés ont eu lieu : le plan d’études est devenu une référence pour évaluer, et les tâches évaluatives se réfèrent aux contenus et ne dépendent plus d’une habitude mélangeant technique et compétences langagières. La note suffisante est établie en fonction d’attentes relatives aux apprentissages menés. En revanche, des doutes subsistent quant à l’opérationnalisation de la cohérence au sein des épreuves : « Il y a encore une difficulté. Quand je fais mes évaluations, ça me prend toujours beaucoup de temps parce que je dois encore ressortir (rire) le schéma de l’alignement… »

Tableau 6

Évolution des compétences en évaluation chez Anouck

Évolution des compétences en évaluation chez Anouck

-> Voir la liste des tableaux

Tableau 7

Évolution des compétences en évaluation chez Samia

Évolution des compétences en évaluation chez Samia

-> Voir la liste des tableaux

Synthèse

Au début de la recherche, les enseignants des deux disciplines sont aux prises avec des problèmes variés, mais parfois partagés : le plan d’études est au mieux exploité de loin comme fil rouge, au pire est mis de côté, car considéré comme peu lisible pour évaluer. Les tâches évaluatives des épreuves obéissent à des principes établis, mais rarement étayés : mélange d’exercices techniques et de problèmes en mathématiques, évaluation systématique de la technique de la langue dans des épreuves de production et de compréhension écrites en français. Toutefois, leurs interrogations se rejoignent pleinement sur deux sujets : 1) la pondération en points souffre de manque de réflexion sur les apprentissages et débouche systématiquement sur une logique de compensation perçue comme délicate et 2) l’utilisation de critères est problématique ; la notation s’opère à l’aide de barèmes standardisés ou de manière à correspondre à certains pourcentages de points, obéissant ainsi à des procédures jugées peu satisfaisantes.

À la fin de la recherche, tous ont développé des compétences sur plusieurs plans. Relativement à la compétence A, les enseignants sont capables de lire et d’exploiter le curriculum de manière critique en donnant une importance aux contenus et à la complexité des objectifs. Tous les enseignants, sauf dans une certaine mesure Samia, élaborent désormais des tâches évaluatives de niveau de complexité homogène qui sont alignées avec la complexité des objectifs évalués (compétence B). Il est ensuite intéressant de différencier le développement des compétences C et D en fonction de la discipline relativement aux questions plus prégnantes. Alors que les enseignants de mathématiques restent toujours en difficulté pour pondérer explicitement leurs épreuves à l’aide de critères, Anouck et Alizée, en français, y parviennent sur des épreuves de production écrite. Logiquement, pour une majorité d’entre eux, une construction de note référée à l’apprentissage par le biais de ces critères et alignée curriculairement reste toutefois délicate, voire inconcevable (compétence E) : nous observons que les enseignants de mathématiques sont tous aux prises avec une impossibilité d’éviter des désalignements curriculaires dans la notation, ce qui n’est pas le cas de deux enseignantes de français. Enfin, relativement à la compétence F, nous voyons que tous les participants sont en mesure de justifier leurs choix évaluatifs, et ce, même si certaines questions de départ n’ont toujours pas de réponse, comme chez Fernand, Paul, Anouck et Alizée.

Discussion 

Notre question de recherche visait à comprendre en quoi notre recherche collaborative pouvait contribuer au développement de compétences en évaluation sommative au service de démarches de certification cohérentes. Nous observons qu’un développement de compétences est présent chez tous les enseignants et qu’il est favorisé par les multiples espaces dédiés à l’activité réflexive (Bednarz, 2015). À partir des compétences de départ des uns et des autres, de nouvelles réflexions ont émergé, comme si le questionnement permis par le modèle théorique proposé, inscrit dans de multiples possibilités de travailler à partir des pratiques réelles, permettait une explicitation d’interrogations ancrées souvent dans des habitudes relativement figées (Pasquini, 2018).

Le développement des compétences que ces réflexions ont rendu possible – bien qu’irrégulier, non linéaire et dépendant de multiples éléments contextuels et disciplinaires – est selon nous significatif. En effet, nous observons qu’il existe une corrélation entre la discussion progressive de la cohérence des pratiques entre les enseignants à la lumière du modèle théorique et le développement des six compétences. Même si des questions restent en suspens et mériteraient plus de travail, ces résultats tendent à confirmer que l’activité réflexive gagne à s’appuyer sur des éléments théoriques possiblement mobilisables en contexte (Charlier, 2012).

Plus précisément, nous observons que c’est le développement des compétences A et B qui est le plus marquant chez tous les participants : leurs réflexions donnent désormais une place prépondérante aux contenus et aux objectifs dans une perspective systémique, soulignant ainsi la validité de leurs pratiques évaluatives (Bonner, 2013).

En revanche, la compétence C se développe de manière contrastée en fonction des disciplines et des enseignants. Cela confirmerait que les contenus jouent un rôle déterminant dans la formulation des critères d’évaluation (p. ex., Jönsson, 2014 ; Mottier Lopez et Pasquini, 2017 ; Prøitz, 2013), jusque dans les possibilités, ou non, de construire une note référée à l’apprentissage, ce qui encourage à privilégier des dispositifs de recherche donnant une place prépondérante aux spécificités disciplinaires. À ce titre et relativement à la compétence D, notons que tous les enseignants, en début de recherche, se demandaient comment noter « juste » et que cette question reste délicate chez bon nombre d’entre eux à la fin du processus. Serait-ce à dire, comme le suggèrent par exemple McMillan et Nash (2000), que les pratiques de notation méritent une attention particulière en recherche ?

Quant aux compétences E et F, plus réflexives, nous observons que la majorité des enseignants sont en mesure de justifier la cohérence de leurs pratiques avec des arguments pédagogiques, même s’ils sont toujours aux prises avec des compromis (Carless, 2014), notamment lorsqu’il est question de faire cohabiter une recherche de cohérence curriculaire avec des spécificités disciplinaires ou des prescriptions ressenties parfois comme (trop) fortes.

Ces divers résultats, bien que difficiles à généraliser, soulignent la dimension dynamique du développement des compétences saisi dans notre recherche collaborative ainsi que quelques axes de recherche à développer. Nous y revenons en fin de texte.

Conclusion

Notre recherche collaborative a poursuivi une finalité heuristique dans un souci de décrire et de comprendre les pratiques. Toutefois, elle a également été fidèle à un souci pragmatique en proposant aux enseignants de nouvelles ressources en vue d’amener leurs pratiques évaluatives vers plus de cohérence, puis de développer leurs compétences (Lefeuvre et al., 2009). Ces finalités traduisent une perspective professionnalisante de développement professionnel, entendu comme :

un processus graduel d’acquisition et de transformation des compétences et des composantes identitaires conduisant progressivement les individus et les collectivités à améliorer, enrichir et actualiser leur pratique, à agir avec efficacité et efficience dans les différents rôles et responsabilités professionnelles qui leur incombent, à atteindre un nouveau degré de compréhension de leur travail et à s’y sentir à l’aise

Mukamurera, 2014, p. 12

Plus précisément, notre dispositif a suivi trois principes déterminants pour un développement professionnel efficace : le développement professionnel s’est inscrit dans une démarche d’accompagnement reposant sur un travail collaboratif ; il a été distribué dans le temps en fonction des possibles des participants ; et les activités proposées aux enseignants ont été étayées par des apports de la recherche (Richard et al., 2017). Sa perspective professionnalisante a relevé d’un processus d’apprentissage provoqué par une intention de formation explicite (Lefeuvre et al., 2009 ; Timperley, 2011), processus concrétisé par la référence au modèle théorique de l’alignement curriculaire élargi pour penser la cohérence des pratiques évaluatives (Pasquini, 2018, 2019). Ce choix a inscrit notre recherche collaborative dans une épistémologie qui a grandement influencé la nature et le rôle de l’activité réflexive. Notons également qu’en nous appuyant sur le principe de triangulation, nous avons pu en approfondir la conceptualisation en exploitant nos quatre types de données.

Nos deux hypothèses de départ se voient ainsi confirmées. Toutefois, au moins deux réflexions subsistent, ce qui souligne les limites de notre recherche. La première interroge le rôle du modèle théorique sur l’activité réflexive et sur le développement des compétences. En quoi le modèle les a-t-il orientés ? Dans quelle mesure le recours à l’alignement curriculaire élargi comme outil compréhensif des pratiques a-t-il induit un effet de désirabilité sociale (Leclerc et al., 2011), poussant les enseignants à se conformer à nos attentes implicites ? En d’autres termes, quel aurait été l’impact d’un accompagnement où les apports auraient été coconstruits avec les participants au fur et à mesure de leur cheminement sur le développement de leurs compétences ?

La seconde réflexion, qui prolonge la précédente, revient à penser l’activité réflexive dans une autre méthode de recherche visant également un développement professionnel (Dionne et al., 2010) et, surtout, comme nous l’avons montré, lorsque certains problèmes rencontrés par les enseignants « résistent » aux cadres interprétatifs offerts par les modèles théoriques et aux espaces de réflexivité proposés. Nous pensons par exemple aux communautés d’apprentissage (Savoie-Zajc, 2010), où les durées sont plus conséquentes et les activités réflexives encore plus articulées avec les réalités de classes, donc plus propices au développement des compétences (Guskey et Yoon, 2009).

L’impact des méthodes de recherche sur le développement professionnel ne peut être jugé de manière univoque (Richard et al., 2017 ; Timperley, 2011). Toutefois, ces réflexions nous semblent importantes pour penser des dispositifs de recherche en évaluation tenant compte de facteurs clés qui ont fortement un impact sur les pratiques comme les contextes, les prescriptions ou les contenus disciplinaires, et pour encourager des formes collectives de développement professionnel permettant de créer des espaces de collaboration et de coapprentissage (Dionne et al., 2010). Notre recherche est modestement allée dans ce sens. Or, beaucoup de travail reste à faire quant aux pratiques d’évaluation sommative, dont la cohérence demeure trop souvent insuffisante (Moss, 2013). Ce travail semble encore plus urgent en matière de pratiques de notation, qui constituent un espace d’important questionnement professionnel lorsqu’il s’agit de construire une note référée à l’apprentissage (Brookhart, 2017).