Corps de l’article

Introduction

L’histoire de l’évaluation de l’intelligence a toujours été marquée de débats intenses tant au niveau des outils d’évaluation proposés qu’au niveau de leur étayage théorique. L’adaptation et la diffusion en France de l’échelle d’intelligence pour enfants WISC IV (Wechsler, 2005) ne dérogent pas à cette règle puisqu’un nouveau débat s’est engagé sur ses prétendus apports et ses éventuels reculs par rapport aux versions précédentes, notamment la WISC III (Rozencwajg, 2006).

L’évaluation de l’intelligence humaine depuis un peu plus d’un siècle s’est largement organisée autour de deux approches : globale et factorielle. L’approche globale, dont Binet est un des pionniers, se centre sur le sujet. Elle se caractérise par le fait que l’on cherche à appréhender le sujet dans « son entier ». Selon Binet, on ne peut évaluer le niveau intellectuel d’un sujet (pour cet auteur, par la notion d’âge mental) qu’à travers des épreuves diversifiées dont la combinaison est variable et faisant appel à « des aptitudes ou à des processus plus ou moins complexes » (Grégoire 2006, p.51). Wechsler, dont les travaux initiaux (création en 1939 de la WBIS[1] destinée aux adultes) s’appuient, pour l’essentiel, sur une analyse critique des tests dérivés de celui de Binet, s’inscrit également dans cette approche globale. Wechsler reproche en effet aux tests dérivés des travaux de Binet d’être exclusivement axés sur le domaine verbal et, en référence à la notion d’âge mental, de se limiter par construction à une population d’enfants ou d’adolescents. Les tests alors proposés par Wechsler visent à pallier ces insuffisances. En particulier, Wechsler crée en complément des épreuves verbales, des épreuves dites de performance dans lesquelles le sujet agit plus qu’il ne dit et il caractérise la performance intellectuelle, non plus par un quotient établi sur l’âge mental et l’âge chronologique, mais par le rang de cette performance dans la distribution des performances d’un échantillon de sujets comparables. Wechsler attribue le score 100 au rang médian de la distribution des scores des sujets de l’étalonnage et bien qu’il ne s’agisse plus d’un quotient, il conserve par commodité l’appellation de QI pour caractériser la performance intellectuelle d’un sujet. Malgré sa parfaite connaissance de la littérature rendant compte des développements des recherches sur l’évaluation de l’intelligence, notamment par les chercheurs « factorialistes » et des critiques faites à ses outils (en particulier sur leur construction empirique et la faiblesse de leur étayage théorique), Wechsler, comme l’a rapporté Alan Kaufman lors du congrès parisien sur l’intelligence de l’enfant en 2005[2], a toujours indiqué que, lui vivant, on ne toucherait pas une virgule à ses tests.

L’approche factorielle de l’intelligence se centre sur les variables observées et, comme son nom le suggère, cherche à déterminer leur organisation, leur structure factorielle. Dans ce but, l’analyse requiert un certain niveau d’inter-corrélations entre les variables observées. À mesure de l’avancée des recherches, différents modèles factoriels de l’intelligence ont été proposés. Le premier modèle factoriel, celui de Spearman au début du vingtième siècle (1904) met en évidence un facteur commun, général à toutes les épreuves d’intelligence (facteur G). Dans ses travaux, Spearman, qui s’est aperçu que les différentes épreuves intellectuelles auxquelles étaient soumis les élèves dans les établissements scolaires présentent des inter-corrélations non négligeables, va chercher quel élément commun peut être à l’origine des covariations de ces différentes épreuves. Par un procédé mathématique qui se développera ultérieurement sous le nom d’analyse factorielle, Spearman met donc en évidence un facteur commun à toutes ces épreuves, facteur qui explique une part très élevée de la variance des épreuves (de 50 à 90 % selon les épreuves). La part de variance non expliquée par le facteur général étant, selon cet auteur, un facteur spécifique propre à chaque épreuve. Pour Spearman, le facteur général ainsi mis en évidence caractérise l’intelligence générale puisqu’il représente « l’énergie mentale » qui permet d’établir et d’appliquer des relations entre différentes informations. Des tests présentant une forte saturation en facteur général ont donc été développés sur la base des travaux de Spearman dans le but de réaliser des évaluations de l’intelligence ainsi conçues. Dans les années 30, en multipliant les épreuves et en s’adressant à de très larges échantillons de sujets, Thurstone met à jour plusieurs facteurs communs à certaines épreuves, mais ces facteurs ne peuvent pas être assimilés à un facteur général comme le propose Spearman, puisqu’ils sont réputés indépendants. Thurstone (1938) met ainsi progressivement en évidence sept facteurs (ou aptitudes) primaires comme, par exemple, l’aptitude spatiale ou la fluidité verbale. De ces positions a priori inconciliables – la conception unidimensionnelle de Spearman et la conception pluridimensionnelle de Thurstone – va naître un débat scientifique durable qui trouvera une forme de résolution en plusieurs temps. D’abord, le raffinement progressif des procédures de calcul permet des analyses factorielles hiérarchiques. Il s’agit pour les psychologues, sur la base des corrélations observées entre les différentes épreuves, de dégager des facteurs primaires (comparables aux aptitudes primaires de Thurstone), puis constatant que ces facteurs primaires présentent eux aussi des inter-corrélations, de réaliser une analyse factorielle sur ces facteurs primaires mettant alors à jour un (ou des) facteur(s) commun(s) de second ordre expliquant une large part de la variance des facteurs primaires. C’est cette voie qui permet la présentation du modèle hiérarchisé de Horn et Cattell (1966). Ce modèle met en évidence cinq facteurs de second ordre obtenus à travers les inter-corrélations de facteurs primaires. Parmi ces facteurs de second ordre, les plus connus et les plus heuristiques sont l’intelligence cristallisée (Gc) et l’intelligence fluide (Gf). Ensuite, dans les années 1990, la présentation du modèle hiérarchique de Carroll (1993), qui intègre et enrichit celui de Horn et Cattell, s’organise en trois strates. Au sommet de la hiérarchie (strate 3), on relève la présence d’un facteur général. Au niveau immédiatement inférieur de cette hiérarchie (strate 2), huit facteurs de second ordre sont présentés parmi lesquels on trouve notamment l’intelligence fluide, l’intelligence cristallisée, la mémoire générale et la vitesse de traitement. Enfin, au niveau inférieur (strate 1) se trouvent quelque trente facteurs spécifiques (correspondant, bien que plus nombreux parce que plus détaillés, aux aptitudes primaires de Thurstone), chacun étant relié à un facteur de la strate 2. Depuis lors, ce modèle classiquement dénommé C-H-C (Cattell-Horn-Carroll) fait très largement consensus dans la littérature psychologique contemporaine.

Par rapport aux tests de Wechsler des générations précédentes, la version IV de la WISC représente une réelle rupture. Outre, la liberté prise par les auteurs du test au regard des desiderata de Wechsler, l’approche factorielle explicitement adoptée dans la version IV de l’épreuve se veut plus en phase avec les conceptions théoriques contemporaines de l’intelligence et tout particulièrement avec le modèle C-H-C. Cette nouvelle épreuve apparaît également comme une réponse aux critiques portées aux versions précédentes des épreuves de Wechsler quant à leur construction assez peu théorisée et largement empirique. La version IV de la WISC autorise toujours l’obtention d’un score de QI Total, mais les deux échelles (performance et verbale) empiriquement constituées qui permettaient de le calculer dans les versions antérieures ont disparu, laissant place à quatre indices factoriels : indice de compréhension verbale (ICV), indice de raisonnement perceptif (IRP), indice de mémoire de travail (IMT) et indice de vitesse de traitement (IVT). Pour certains auteurs comme Rozencwajg Aliamer et Ombredanne (2009), l’organisation des indices de la WISC IV peut s’insérer dans le modèle C-H-C puisque pour eux, l’ICV correspond à une évaluation de l’intelligence cristallisée, l’IRP à une évaluation de l’intelligence fluide, l’IMT à une évaluation de la mémoire de travail (verbale) et l’IVT à l’évaluation de la vitesse de traitement (visuo-spatiale). La nouvelle version de l’épreuve vise en outre à être plus informative pour le psychologue praticien en le renseignant sur le fonctionnement cognitif du sujet à travers ces quatre indices factoriels plutôt que sur les « deux domaines distingués par les contenus symboliques sur lesquels portent les traitements verbal et non verbal » (Lautrey, 2001, p.24) qui constituaient les échelles des versions antérieures.

Dans les manuels de tests, les étalonnages font toujours état de la prise en compte dans la population de référence d’une proportion variable de sujets dont les performances s’écartent sensiblement de la moyenne. Si l’on se réfère à la distribution « normale » de la population de l’étalonnage (Wechsler, 2005), environ 13,6 % des individus se situent entre un et deux écarts-types de part et d’autre de la moyenne. Au-delà de deux écarts-types de la moyenne de part et d’autre de celle-ci se trouvent environ 2,3 % des sujets. Au- delà de l’intégration dans l’étalonnage des tests d’une proportion équivalente à la distribution théorique de ces sujets que Carlier et Ayoun (2007) qualifient d’atypiques, on ne trouve pas d’étalonnage qui leur soit spécifiquement dédié. Pour autant, la question de la stabilité de la structure factorielle avec des sujets atypiques mérite d’être posée, tout particulièrement chez des sujets aux faibles performances cognitives. En effet, le fonctionnement cognitif particulier caractérisé notamment par des déficits de la mémoire de travail, de l'attention sélective et des difficultés de transfert et de généralisation, qui a parfois été identifié chez des sujets caractérisés comme ayant une déficience intellectuelle (Paour, 1991 ; Boutet, Rocque, Langevin et Dionne, 2000 ; Guédon et Vom Hofe, 2005 ; Langevin et Rocque, 2007 ; Taylor, Greenberg, Seltzer et Floyd, 2008 ; Guédon, 2010 ; Neidert, Dozier, Iwata et Hafen, 2010), permet d’envisager que certaines épreuves sollicitant tel ou tel processus mental chez des sujets « tout venant » pourraient en solliciter d’autres chez des sujets « atypiques ». Dès lors, l’organisation factorielle des épreuves pourrait en être sensiblement modifiée.

Le concept de déficience est entouré d’un certain flou. Il suffit d’observer les différentes dénominations utilisées au cours du temps et selon les perspectives théoriques adoptées par les psychologues et les chercheurs pour s’en convaincre. Handicap mental, handicap intellectuel, débilité mentale, retard mental, déficience intellectuelle sont quelques-unes des diverses terminologies que l’on peut trouver à travers la littérature. Au-delà de la proximité sémantique des termes utilisés, ce sont des positions conceptuelles qui transparaissent. Ainsi, la littérature anglo-saxonne utilise plus volontiers le « retard mental » alors que les auteurs francophones privilégient la « déficience » (Büchel et Paour, 2005). Le retard renvoie plutôt à une problématique en lien avec le développement alors que la déficience réfère à un manque, une absence de telle ou telle habileté ou disposition.

La déficience intellectuelle est sèchement définie par les institutions officielles françaises en référence au score global obtenu par la personne lors de la passation d’une épreuve standardisée d’évaluation de l’intelligence (consultation le 3 février 2010 du site gouvernemental : http://archives.handicap.gouv.fr/dossiers/handicaps/handicaps_defi3.htm). Le plus souvent, ce score est traduit en termes de quotient intellectuel (QI), bien qu’il s’agisse dans l’immense majorité des épreuves utilisées aujourd’hui, d’un simple classement par rang et non d’un réel quotient entre âge mental et âge chronologique. Ce point mérite d’être souligné, car le classement du sujet testé s’établit au regard de la performance moyenne d’un échantillon de référence constitué principalement par rapport au critère de l’âge chronologique. Avec un QI Total inférieur ou égal à 70 (score correspondant à deux écarts-types en deçà de la moyenne), une personne est considérée comme ayant une déficience intellectuelle légère. Cependant, le même État français, dans une circulaire du 30/10/1989[3], apporte heureusement une nuance : « En tout état de cause, le repérage de la déficience intellectuelle ne saurait s'effectuer uniquement sur des tests psychométriques et encore moins sur l'un d'entre eux ». Bien qu’elle considère maintenant la déficience intellectuelle dans ses aspects environnementaux et non plus seulement individuels, l’Organisation mondiale de la santé l’évalue aussi à partir des scores de QI en définissant des seuils tels que la déficience mentale sévère qui correspond à un QI Total inférieur ou égal à 40, la déficience mentale modérée qui correspond à un QI Total inférieur ou égal à 55 et la déficience mentale légère qui correspond à un QI Total inférieur ou égal à 70. En France, jusqu’à leur disparition lors de la création des commissions des droits et de l’autonomie des personnes handicapées (C.D.A.P.H.), les commissions départementales d’éducation spéciale (C.D.E.S.) et les commissions techniques d’orientation et de reclassement professionnel (CO.T.O.RE.P.) ont largement utilisé les scores de QI pour diagnostiquer une déficience intellectuelle et en déterminer le niveau. Aujourd’hui, les C.D.A.P.H. s’appuient sur différents indicateurs, dont les scores de QI ne sont pas les moindres, pour assurer nombre de leurs missions, dont le diagnostic de déficience. La qualité des éléments informatifs permettant d’établir un tel diagnostic est donc de première importance, puisque celui-ci a un impact direct sur la vie des personnes. De manière cyniquement pragmatique, on remarquera qu’en France, le diagnostic de déficience intellectuelle amène la personne au statut de personne handicapée qui lui ouvre quelques droits et compensations dans les différentes étapes de sa vie. Cela ne peut occulter le fait que cette désignation ne se fait pas sans son lot de stigmatisations pour la personne ayant reçu le diagnostic de déficience, qui parfois rendent dérisoires les droits et compensations obtenus. L’approche de cette question ne saurait donc se priver des éclairages psychologiques.

Il apparaît ainsi peu douteux que les scores de QI, bien que non exclusifs, sont très souvent déterminants dans le diagnostic de déficience et par conséquent, pour l’orientation scolaire ou professionnelle de la personne ayant reçu un diagnostic de déficience.

Les épreuves de Wechsler étant parmi les plus répandues en France (Castro, Meljac et Joubert, 1996) comme dans le monde (Chen, Keith, Weiss, Zhu et Li, 2010) pour les évaluations cognitives, et tout particulièrement pour l’évaluation des personnes présentant de faibles capacités cognitives (Whitaker, 2010), l’objectif de notre étude est de mettre à l’épreuve la structure factorielle prévue par les concepteurs de la WISC IV avec un échantillon d’enfants présentant une déficience au regard de leurs scores de QI Total. En effet, il n’est pas acquis a priori que la structure factorielle obtenue avec les échantillons d’enfants tout-venant lors de la construction du test et de son adaptation française soit exactement transposable aux enfants atypiques. En outre, Hessels (2002) prête à Wechsler des propos indiquant que la WISC ne serait guère appropriée pour des personnes dont le score de QI se situe en dessous de 70. Ces propos ne doivent pas surprendre puisque, par construction, les échantillons initiaux d’étalonnage du test ne comportent que quatre ou cinq sujets (sur environ 200 par catégorie d’âge) s’écartant de plus de deux écarts-types de la moyenne dans chaque catégorie d’âge. Cette faible représentation de la population de personnes ayant une déficience intellectuelle n’est pas sans poser quelques problèmes de fiabilité lorsque l’usage du test vise précisément une population catégorisée comme présentant une déficience. Meredith (1993) indique qu’il est indispensable que les construits évalués avec les personnes  tout venant et avec les personnes ayant une déficience soient les mêmes. Selon cet auteur, il faut pour cela que les saturations des facteurs soient semblables pour les deux populations.

L’étude de la structure factorielle des épreuves de Wechsler a été l’objet de nombreuses recherches. Dès 1959, Cohen mettait à l’épreuve la WISC avec trois échantillons d’enfants de 7, 10 et 13 ans et révélait une structure à trois facteurs dans les trois tranches d’âge. Plus tard, Kaufman (1975), qui a longtemps travaillé avec l’équipe de Wechsler, mettait en évidence, à travers les scores obtenus par 200 enfants composant les échantillons de 11 niveaux d’âge compris entre 6 ans 6 et 16 ans 6, trois facteurs (compréhension verbale, organisation perceptive et résistance à la distraction). Ce dernier facteur a parfois été présenté comme facteur d’attention/concentration (Laveault et Grégoire, 2006, p.190). Travaillant spécifiquement avec des enfants « retardés mentaux », Van Hagen et Kaufman (1975) identifient également ces mêmes trois facteurs à différents niveaux d’âge. En 1994, Parker et Atkinson hiérarchisent l’importance des facteurs mis en évidence dans les études antérieures en rappelant deux facteurs majeurs (compréhension verbale et organisation perceptive) et deux facteurs mineurs (résistance à la distraction et vitesse de traitement). Plus récemment, Lecerf, Rossier, Favez, Reverte et Coleaux (2010) ont procédé à des analyses factorielles confirmatoires à partir des matrices de corrélations du manuel français de la WISC IV. Leurs résultats indiquent que le modèle le mieux ajusté est un modèle à six facteurs référés au modèle de l’intelligence de Cattell-Horn-Caroll (CHC) : intelligence cristallisée, intelligence fluide, mémoire court terme, vitesse de traitement, connaissances quantitatives et traitement visuel. De nombreux travaux ont étudié la structure factorielle des épreuves de Wechsler, pour adultes ou pour enfants, à travers différentes populations de différents pays, mais peu d’études ont été menées sur cette question avec des personnes présentant une déficience (MacLean, McKenzie, Kidd, Murray et Schwannauer, 2011). Jones, Van Schaik et Witts (2006) abordent explicitement ce problème dans une étude portant sur l’épreuve WAIS III (Wechsler Adult Intelligence Scale third edition : Wechsler, 1997) à travers les résultats de 105 personnes adultes présentant un QI Total inférieur à 74. À travers une analyse factorielle, ces auteurs n’ont obtenu qu’une structure à deux facteurs recouvrant la dichotomie verbal-performance, mais pas la structure à quatre facteurs proposée par le test.

Dans cette situation d’incertitude sur la structure factorielle de la WISC IV, il paraît de première importance de vérifier que les informations fournies par le test avec ces enfants réputés cognitivement faibles permettent bien d’analyser les domaines pressentis à savoir la compréhension verbale (ICV), le raisonnement perceptif (IRP), la mémoire de travail (IMT) et la vitesse de traitement (IVT). « La structure factorielle du WISC IV conditionne en effet l’interprétation des scores composites qui peuvent être calculés à partir des notes standard aux sous-tests » Grégoire (2006, p.6).

Méthodologie

105 enfants (37 filles et 68 garçons) scolarisés dans les écoles publiques de différentes zones urbaines françaises proches de Rouen, de Bordeaux et de Nice[4] ont passé les 10 sous-tests obligatoires de la WISC IV. Leur âge moyen est de 9 ans 7 mois (extrêmes : 6 ans 3 mois – 12 ans 0 mois). Leur score moyen de QI Total est 60,6 (avec un écart-type de 9,8).

Résultats et discussion

En premier lieu, en nous plaçant au niveau descriptif, nous présentons les scores moyens obtenus par nos sujets aux différents sous-tests obligatoires de la WISC IV. Ces scores sont rapportés dans le Tableau 1.

Tableau 1

Statistiques descriptives des scores obtenus à chaque sous-test et significativité des différences observées

Statistiques descriptives des scores obtenus à chaque sous-test et significativité des différences observées

Note. NS : différence non significative ; S : différence significative (p < .000)

-> Voir la liste des tableaux

On observe un écart de 2,4 points entre la note moyenne la plus élevée (6,1 pour le sous-test symboles) et la plus faible (3,7 pour le sous-test vocabulaire). Précisons que toutes les mesures répondent aux critères de normalité décrits par Kline (1998) avec une asymétrie pour toutes les mesures, inférieure à 3 et un aplatissement pour toutes les mesures, inférieur à 4. Avec une moyenne des notes standardisées à 4,8 on observe un faible niveau général qui tend à accréditer la thèse d’un déficit global couvrant tous les domaines. Il convient toutefois de nuancer ce propos. En effet, les notes les plus basses concernent les sous-tests vocabulaire et similitudes et les notes les plus élevées concernent les deux sous-tests code et symboles. Ainsi, au strict plan descriptif avec les enfants de notre étude, les sous-tests fortement échoués relèvent massivement des acquisitions scolaires et renvoient à l’intelligence cristallisée pendant que les sous-tests les moins échoués renvoient à la vitesse de traitement des informations. Ces résultats corroborent ceux observés par Rozencwajg et al. (2009) avec des enfants âgés de 7 à 12 ans présentant un retard intellectuel.  Une analyse de variance (manova) et les tests post-hoc associés (tests HSD de Tukey) précisent que sur les 45 écarts de notes relevés entre les sous-tests, 21 sont significatifs (Tableau 1). Ainsi, dans un contexte de faible niveau global, les scores par sous-test présentent-ils une relative hétérogénéité en accord avec le constat de Grégoire (2006) selon lequel l’hétérogénéité est la règle quelle que soit la population testée.

En second lieu, nous présentons les scores moyens obtenus par les sujets de notre étude pour les quatre indices factoriels de la WISC IV ainsi que le score moyen de QI Total. Ces scores sont rapportés dans le Tableau 2.

Tableau 2

Statistiques descriptives : scores factoriels moyens et score moyen de QI Total, indices de dispersion et de forme de la distribution

Statistiques descriptives : scores factoriels moyens et score moyen de QI Total, indices de dispersion et de forme de la distribution

Note. ICV : compréhension verbale ; IRP : raisonnement perceptif ; IMT : mémoire de travail ; IVT : vitesse de traitement ; QI Total : quotient intellectuel total.

-> Voir la liste des tableaux

On remarque que le score de QI Total moyen (60,6) de nos sujets est inférieur à chacun de leurs scores factoriels et parmi ces derniers, c’est l’indice de vitesse de traitement qui leur permet d’obtenir le score moyen le plus élevé (ICV = 65,5; IRP = 69,0; IMT = 67,6; IVT = 78,5). Précisons que toutes les mesures répondent aux critères de normalité décrits par Kline (1998) avec une asymétrie inférieure à 3 pour toutes les mesures et un aplatissement inférieur à 4 pour toutes les mesures. L’indice factoriel moyen est égal à 70,1. Une analyse de la variance (manova) et les tests post-hoc associés (tests HSD de Tukey) révèlent que tous les écarts sont significatifs à l’exception de l’écart entre ICV et IMT et de celui entre IRP et IMT. Les scores observés et leur hiérarchie, ainsi que le fait que les enfants réputés comme ayant une déficience semblent investir particulièrement les tâches impliquant la vitesse de traitement, corroborent les données de la WISC IV (Wechsler, 2005) et sont en conformité avec ce qui a déjà été observé par Rozencwajg et al. (2009). En moyenne, bien que majoritairement significatives, les différences entre les scores obtenus sur les différents indices factoriels sont relativement faibles puisque l’écart le plus important est de 13 points entre l’indice de compréhension verbale et l’indice de vitesse de traitement. Si l’on considère, comme le proposent Grégoire et Wierzbicki (2007), l’écart entre chacun des quatre indices et l’indice moyen, on observe alors une relative homogénéité des scores factoriels. En effet cet écart est maximum avec 8,5 points entre l’indice moyen et l’indice de vitesse de traitement, alors que le seuil de significativité rapporté par Grégoire et Wierzbicki (2007) avec la population de l’échantillonnage français de la WISC IV pour l’écart entre ces mêmes indices est de 12,56 points. Ainsi, dans notre étude, les scores d’indices factoriels présentent-ils une relative homogénéité au regard de l’indice moyen, mais affichent des différences inter-indices significatives dans quatre comparaisons sur six (ICV-IRP, ICV-IVT, IRP-IVT et IMT-IVT). Cette relative homogénéité observée des scores d’indices obtenus par les enfants de notre étude s’oppose au constat de Grégoire (2006, p.244) qui, à propos des scores de sous-tests comme des indices factoriels, relève que « plus le QI Total est faible, plus l’étendue des notes standard est grande et inversement ».

L’objectif de notre recherche étant, au premier chef, de réaliser une analyse factorielle dans le but de mettre à l’épreuve la structure en quatre facteurs du test avec des enfants atypiques, un préalable consiste à calculer les inter-corrélations des scores aux différents sous-tests. Le Tableau 3 rapporte la matrice des corrélations obtenue.

Tableau 3

Matrice de corrélations des scores aux sous-tests

Matrice de corrélations des scores aux sous-tests

*p < .05 **p < .01

-> Voir la liste des tableaux

L’examen de la matrice révèle des niveaux de corrélation faibles à moyens. Toutefois, 23 corrélations bilatérales sur 45 sont statistiquement significatives. La corrélation la plus faible concerne le lien entre le sous-test code et le sous-test identification de concept qui apparaissent donc assez étranger l’un à l’autre. La plus élevée concerne le lien entre le sous-test matrices et le sous-test cubes qui participent tous les deux au calcul de l’indice factoriel de raisonnement perceptif du test.

En grande majorité, les études portant sur l’étude de la structure factorielle des épreuves de Wechsler ont utilisé des analyses en composantes principales avec rotation orthogonale (Blaha et Wallbrown, 1991 ; Laffaiteur et al., 1997). Cette forme d’analyse, également utilisée par Kaufman et Kaufman (1993) et Wechsler (2005) correspond à nos objectifs d’analyse exploratoire et à la nature des données. Une telle analyse (avec rotation varimax) a donc été menée avec le logiciel SPSS. L’indice K.M.O. à 0,740 et la significativité du test de sphéricité de Bartlett à 0,000 attestent de la possibilité de réaliser cette analyse factorielle. En respectant la règle conventionnelle classique de Kaiser-Guttman, recommandée pour des échantillons de taille modérée (Ajar, 1982), qui prévoit que les facteurs extraits doivent présenter une valeur propre supérieure à l’unité, l’analyse factorielle menée ici révèle une structure à trois facteurs (qui explique 56,8 % de la variance totale) et non quatre facteurs comme initialement prévue par le test (Tableau 4).

Tableau 4

Structure factorielle (avec rotation varimax) des sous-tests de la WISC IV dans cette étude et organisation factorielle initialement prévue par le test

Structure factorielle (avec rotation varimax) des sous-tests de la WISC IV dans cette étude et organisation factorielle initialement prévue par le test

Note. Seuls les coefficients supérieurs à .40 sont rapportés

-> Voir la liste des tableaux

Un premier examen de la structure factorielle obtenue montre que le premier facteur sature les trois sous-tests relevant de l’indice de raisonnement perceptif du test et un sous-test relevant de l’indice de compréhension verbale (vocabulaire). Le deuxième facteur sature les trois sous-tests relevant de l’indice factoriel de compréhension verbale et les deux sous-tests relevant de l’indice factoriel de mémoire de travail (mémoire des chiffres et séquence lettres-chiffres). Le troisième facteur sature les deux facteurs relevant de l’indice factoriel de vitesse de traitement et les deux facteurs relevant de l’indice factoriel de mémoire de travail.

L’observation des coefficients révèle que trois sous-tests n’ont pas un statut factoriel parfaitement clair puisqu’ils présentent des coefficients de saturation très proches sur deux facteurs distincts. Deux de ces sous-tests sont réputés investiguer la mémoire de travail (mémoire des chiffres et séquence lettres-chiffres) qui sont saturés par les facteurs 2 et 3 et un sous-test réputé investiguer la compréhension verbale (vocabulaire) qui est saturé par les facteurs 1 et 2.

Ainsi, le facteur numéro 3 (qui explique 13,3 % de la variance totale) sature à un niveau relativement élevé les sous-tests de vitesse de traitement et à un niveau moindre, les sous-tests de mémoire de travail. Ce fait, qui révèle une source de covariation commune aux sous-tests de mémoire et de vitesse de traitement, ne constitue pas une surprise majeure. En effet, on a déjà pu montrer d’une part, le lien qu’entretiennent ces deux aptitudes puisque les sujets présentant une bonne vitesse de traitement améliorent leurs performances en mémoire de travail grâce à leur capacité de traitement rapide des informations qui leur permet de soulager la charge de la mémoire de travail dont les ressources sont limitées (Grégoire, 2004). D’autre part, ces sous-tests sont caractérisés par le fait qu’ils « mesurent des aspects strictement quantitatifs de l’intelligence que l’on peut définir comme des quantités de ressources attentionnelles au sens où il paraît difficile (en tout cas de prime abord) de mettre en oeuvre des processus vicariants dans des tâches de vitesse perceptive (code et symboles) et de mémoire immédiate (mémoire des chiffres et séquence lettres-chiffres). Ces sous-tests ne peuvent en effet pas « profiter» de la présence de processus alternatifs. » (Rozencwajg, 2006). Ce facteur pourra donc être conçu comme un facteur de ressources attentionnelles.

Le facteur numéro 2 (expliquant 13,7 % de la variance totale), qui sature les trois sous-tests de compréhension verbale et les deux sous-tests de mémoire de travail, peut être interprété comme un facteur verbal puisqu’il sature tous les sous-tests pour lesquels la modalité de présentation des items et celle de réponse des sujets est verbale.

Le facteur numéro 1(expliquant 29,9 % de la variance totale) qui sature les trois sous-tests de raisonnement perceptif et le sous-test vocabulaire peut être considéré comme un facteur de raisonnement si l’on admet que le sous-test vocabulaire requiert au moins autant de capacités de réflexion, de conceptualisation et d’abstraction que strictement de connaissances.

Remarquons ici que, dans la logique de Spearman, le facteur principal extrait des analyses factorielles de tests d’intelligence peut être rapproché du facteur G. En outre, relativement à la loi des rendements décroissants de Spearman selon laquelle plus le QI est élevé, plus le poids du facteur G diminue et inversement, certains auteurs suggèrent que le facteur G serait plus représentatif de la déficience que de l’intelligence « normale » (Liratni et Pry, 2011 ; Facon, 2003). Ainsi, la loi des rendements décroissants pourrait éclairer la structure factorielle observée ici, avec un facteur principal expliquant près de 30 % de la variance totale et plus du double de la part d’explication apportée par chacun des deux autres facteurs extraits.

Il apparaît en tout état de cause que la structure factorielle obtenue avec notre échantillon d’enfants ayant une déficience intellectuelle ne recouvre pas l’organisation factorielle prévue par le test. En premier lieu, on observe une structure à trois facteurs et non quatre. Ensuite, les facteurs observés ne recouvrent pas exactement les domaines relevant des indices du test. En effet, si l’on observe bien un facteur de raisonnement, il semble de portée plus générale que celui prévu par le test qui le cantonne à des aspects perceptifs. De même, le facteur verbal observé est plus général que l’indice de compréhension verbale puisque la cause de covariation qui paraît devoir sous-tendre ce facteur est la modalité verbale de présentation et de réponse. Avec le troisième facteur, on observe un regroupement des sous-tests de vitesse de traitement et des sous-tests de mémoire de travail qui suggère que la source commune de covariation est ici l’implication des ressources attentionnelles. Enfin, rappelons que le statut factoriel des deux sous-tests de mémoire de travail et de l’un des sous-tests de compréhension verbale (vocabulaire) n’est pas totalement clarifié. Le sous-test vocabulaire paraît impliqué pour sa modalité de présentation verbale et pour les capacités de raisonnement qu’il requiert. Les sous-tests mémoire des chiffres et séquence lettres-chiffres paraissent impliqués pour leur modalité de présentation verbale et pour les ressources attentionnelles qu’ils mobilisent.

Conclusions

Malgré la réserve que peut constituer la taille modeste de l’échantillon d’enfants inclus dans notre étude, nous pouvons tirer de nos résultats des enseignements à plusieurs niveaux. D’abord, au plan descriptif, notre échantillon d’enfants obtient avec la WISC IV à travers la hiérarchie des scores des indices factoriels, des résultats comparables à ce qui a été observé dans des études antérieures (Grégoire, 2006 ; Rozencwajg et al., 2009) avec une population comparable d’enfants. De même, notre étude révèle une relative hétérogénéité des scores par sous-test en accord avec le constat de Grégoire (2006). En revanche, bien que le score de l’indice de vitesse de traitement qui est le plus élevé et le score de l’indice de compréhension verbale qui est le plus faible soient significativement différents, nous observons une relative homogénéité des scores factoriels qui n’est pas relevée dans les recherches antérieures. Le déficit semble donc atteindre, de manière différenciée, tous les domaines. Dans ce contexte de déficit global, le fait que, comme cela a déjà été relevé (Rozencwajg et al., 2009), les enfants ayant une déficience semblent plus investir les sous-tests impliquant la vitesse de traitement fait écho à la proposition de Guédon et Vom Hofe (2005) qui remarquent que le fait de traiter rapidement ou plus lentement les informations n’a guère d’impact sur la réussite dans la tâche pour ces enfants. Même si la tâche demandée dans l’étude de ces auteurs est une tâche visuo-spatiale (Matching Familiar Figures Test) de relativement faible niveau cognitif, il est permis de faire un parallèle avec nos résultats présents et de suggérer après Duryea et Glover (1982) et Guédon et Vom Hofe (2005) d’orienter prioritairement les actions de remédiation sur les stratégies de résolution de la tâche plutôt que sur son temps de réalisation.

Ensuite, la structure factorielle révélée par notre étude avec des enfants cognitivement faibles s’organise en trois facteurs : un facteur de ressources attentionnelles, un facteur lié à la modalité verbale de présentation et de réponse et un facteur de raisonnement global. Non seulement on ne retrouve pas la structure à quatre facteurs prévue par le test, mais en outre, les facteurs observés diffèrent sensiblement des domaines invoqués par les indices du test. Les différences sont telles que les facteurs extraits de nos données se révèlent plus généraux que les indices du test. Ainsi, l’interprétation des résultats à la WISC IV des enfants atypiques à travers les quatre indices prévus par le test conduit-elle à s’écarter sensiblement de la réalité du fonctionnement cognitif de ces enfants. En considérant que s’ajoute le statut factoriel peu clair des sous-tests de mémoire de travail et dans une moindre mesure, du sous-test de vocabulaire, l’analyse des résultats à la WISC IV de ces enfants paraît devoir se pratiquer sous-test par sous-test plutôt qu’en référence aux indices prévus par le test.

Avec les enfants atypiques, plus encore qu’avec les enfants typiques, la nécessité d’indiquer un score global d’intelligence n’est pas absolue. Certains auteurs comme Lautrey (2005) considèrent que le QIT ne devrait plus être communiqué ni même utilisé. Il apparaît à la lumière de nos résultats qu’en effet, le calcul du QIT pose problème avec des enfants atypiques au regard de l’organisation factorielle des sous-tests et du statut factoriel peu clair de certaines épreuves. Si la nécessité d’un score global apparaît néanmoins, l’utilisation de l’indice d’aptitude général (IAG) plutôt que du QIT peut offrir une alternative intéressante puisqu’il a « l’avantage d’être moins lié à la vitesse de traitement et à la mémoire de travail » (Lecerf, Rossier, Favez, Reverte et Coleaux, 2010). L’indice IAG proposé par Prifitera et Weiss (1998) et pour lequel Lecerf, Reverte et leurs collaborateurs (2010) ont établi les normes francophones vise initialement à offrir une alternative au QIT de la WISC III lorsque les indices factoriels sont significativement différents. Aujourd’hui, cet indice (de moyenne 100 et d’écart-type 15 comme le QIT) présente l’intérêt de prendre en compte les trois sous-tests de compréhension verbale et les trois sous-tests de raisonnement perceptif de la wisc IV. L’IAG porte donc sur les sous-tests relevant de l’intelligence cristallisée et de l’intelligence fluide. Dans notre étude, l’IAG moyen est à 61 (intervalle de confiance à 95 % : 57-72) selon les normes francophones proposées par Lecerf et ses collaborateurs (2010). Cela situe donc notre population d’enfants atypiques à plus de deux écarts-types en deçà du score moyen.

En raison du nombre relativement restreint de sujets impliqués dans notre étude, il importera dans l’avenir d’élargir l’étude de la structure factorielle de la WISC IV avec d’autres sujets atypiques afin d’affiner l’analyse. La prise en compte de sujets plus âgés et l’implication d’un nombre de sujets plus important paraissent les deux pistes de développement d’une telle recherche. Compte tenu de la place prépondérante des tests d’intelligence (en particulier des tests de Wechsler) dans les décisions d’orientation scolaire ou professionnelle, les enjeux liés à une meilleure connaissance du fonctionnement du test avec une population atypique comme la compréhension des éventuelles particularités du fonctionnement cognitif de cette population sont des enjeux majeurs puisqu’ils ont un impact direct sur la vie des intéressés.