Corps de l’article

Introduction

Notre objectif est d’étudier la composition des candidats termes polylexicaux de forme N_Adj en contexte tels qu’ils ont été relevés dans le cadre du projet TermITH (ANR-12-CORD-029 – Contint [Contenus numériques et interactions]) qui a réuni six partenaires : ATILF (coordination) LINA, LIDILEM, INIST, INRIA Grand-Est et INRIA Saclay, <www.atilf.fr/ressources/termith>. Plus précisément, nous cherchons à mettre en évidence des caractéristiques particulières du nom et de l’adjectif qui favorisent la probabilité pour le candidat d’accéder au statut de terme.

Le lexique, et plus particulièrement les mots et les groupes de mots, a occupé une place importante dans les études terminologiques depuis l’essor de la « Théorie générale de la terminologie » (Wüster 1981), et ce, malgré l’orientation onomasiologique de cette approche.

Pour ce qui est des mots étudiés, le nom représente la partie du discours censée accéder au statut de terme car il permet de désigner un concept (Lerat 2009). La présence massive des noms dans les dictionnaires terminologiques est aussi observée par l’Homme (2004a). Toutefois, elle envisage des études terminologiques lexico-sémantiques portant sur les adjectifs, les verbes et les adverbes, qu’ils soient ou non en relation avec un nom. Cabré (1999) affirme que la quantité de termes nominaux dépasse la quantité de termes adjectivaux et de termes verbaux en langue de spécialité.

Pour ce qui est des groupes de mots, la forme N_Adj a retenu l’attention des chercheurs en raison de sa fréquence. Cabré (1999) souligne la productivité de certains patrons syntaxiques dont la forme N_Adj pour la création de polylexicaux. Selon l’Homme (2004a), la forme N_Adj est reconnue comme l’une des plus productives en français et comme un indice non négligeable pour l’extraction terminologique sur corpus. En plus de la fréquence remarquable des termes polylexicaux de forme N_Adj, le rôle que jouent les adjectifs constitue une problématique importante pour analyser la structure interne des termes complexes (L’Homme 2004a et Mendes 2003). Daille (2001), Maniez (2002), Monceaux (1997), entres autres, se sont focalisés sur l’analyse du fonctionnement de l’adjectif de relation dans la construction des polylexicaux. L’Homme (2004b) s’intéresse aux adjectifs déverbaux et aux adjectifs dénominaux qu’elle regroupe dans la classe des adjectifs dérivés sémantiques (ADS) : la structuration terminologique est influencée par les liens que ces adjectifs entretiennent avec les bases nominales et verbales à partir desquelles ils sont construits. L’Homme et Jia (2015) postulent la nécessité d’inclure des combinaisons lexicales spécialisées à bases nominales formées d’un nom et d’un adjectif dans les dictionnaires, notamment pour les collocatifs qui incluent des adjectifs qualificatifs (caractéristiques liées à l’utilisation : logiciel convivial), des adjectifs dénominaux (caractéristiques liées à l’interaction : éditeur intuitif) ou des adjectifs déverbaux (état particulier : site évolutif) et qui complètent un terme relevant d’un domaine de spécialité.

De plus, les campagnes d’annotation manuelle que nous avons menées au cours du projet TermITH ont mis au jour un nouvel aspect justifiant l’étude de ces termes : leurs composants peuvent recevoir différentes interprétations sémantiques qui relèvent de plusieurs lexiques présents dans les écrits scientifiques. Il s’agit des lexiques disciplinaires (Ldisci) propres à chaque domaine de spécialité, du lexique de la langue générale (LG) et du lexique scientifique transdisciplinaire (LST) commun à plusieurs disciplines scientifiques des sciences humaines et sociales.

L’attention que nous portons au lexique disciplinaire se fonde sur les aspects évoqués ci-dessus : le nom mais aussi l’adjectif qui composent le N_Adj peuvent appartenir au domaine de spécialité.

Le lexique de la langue générale nous intéresse dans la mesure où le processus de terminologisation peut conduire à une superposition ou une juxtaposition d’un sens spécialisé dans un domaine de spécialité et d’un sens commun en LG (Kocourek 1991). Ce phénomène peut être illustré par la polysémie du nom cause discutée par L’Homme (2004a). Ce nom signifie ce qui produit un effet en langue générale et affaire pour laquelle une action est intentée en justice et qui fait l’objet d’un procès dans le domaine du droit (les définitions sont extraites du TLFi, <atilf.atilf.fr>).

Le lexique transdisciplinaire retient notre attention car il joue un rôle primordial dans l’écrit scientifique en permettant la description et la présentation des activités scientifiques : il contient des noms comme position, pratique, représentation et des adjectifs comme collectif, direct, général, humain, moyen, propre. Ces unités lexicales sont essentielles à l’expression de la pensée scientifique (Tutin 2007 ; Drouin 2010a et b ; Hatier 2016 ; Hatier, Tutin et al. 2014, Tutin et Grosmann 2014). Le lexique que nous utilisons pour nos travaux a été constitué à partir d’un corpus multidisciplinaire de 5 millions de mots et est composé de 500 textes relevant de dix disciplines de sciences humaines et sociales (50 textes par discipline) : anthropologie, économie, géographie, histoire, linguistique, psychologie, sciences de l’éducation, sciences politiques, sciences de l’information et de la communication, sociologie. Il a été entièrement vérifié par le LIDILEM : Tutin (2007) est à l’origine de la première version de ce lexique en collaboration avec Drouin (2010a et b) de l’OLST. La version que nous utilisons est celle qui a été mise au point par Hatier (2013 et 2016) dans le cadre de sa thèse de doctorat.

Les candidats de forme N_Adj que nous avons étudiés sont, par exemple, langage humain, facteurs personnels, décrochage scolaire, origine sociale, structure syllabique et orientation scolaire. Les occurrences de candidats étudiés, dont quelques exemples sont retranscrits ci-dessous, sont extraites automatiquement à partir des articles scientifiques authentiques utilisés dans le cadre du projet TermITH et donc du corpus utilisé dans les travaux présentés dans cet article. Dans ces exemples, les occurrences en italique sont les seules proposées par la chaîne de traitement appliquée aux articles. Tout autre polylexical qu’un lecteur attentif pourrait envisager comme un candidat terme potentiel n’est pas en italique car il n’a pas été proposé par la chaîne de traitement.

Des travaux récents en phonétique-phonologie et en acquisition du langage montrent que l’étude de la syllabe est devenue un cadre nécessaire et incontournable pour comprendre le fonctionnement du langage et apporter des éléments intéressants de discussion à des questions et des problèmes d’ordre général non encore résolus : la syllabe est-elle l’unité fondamentale du langage humain ? Quels éléments pertinents pourraient appuyer l’existence phonétique, phonologique et psychologique de l’unité syllabique ?

Blaya et Fortin 2011

Cette recherche permet de confirmer, dans la lignée des travaux précédents (Fortin et al. 2004), que c’est la combinaison et le cumul d’un nombre important de facteurs personnels, familiaux et scolaires qui favorisent le décrochage scolaire, qu’il n’y a pas une cause unique aux difficultés rencontrées et que cette combinaison varie entre les individus et les contextes.

Blaya et Fortin 2011

D’autres recherches ont montré l’influence directe des stéréotypes sur le devenir des écoliers. Par exemple, Channouf, Magnard, Baudry et Perney (2005) se sont intéressés aux conséquences des stéréotypes liés à l’origine sociale sur les décisions d’orientation scolaire.

Desombre, Delelis, et al. 2008

La fréquence d’une structure syllabique est donc liée au degré de complexité de l’attaque et/ou de la coda, celui-ci correspond au nombre de segments occupant cette position.

Vallée, Rousset et Böe 2001

Les trois lexiques que nous avons retenus (disci, LST et LG) permettent d’envisager neuf patrons ou combinaisons possibles pour les polylexicaux de forme N_Adj. Nous illustrons ces patrons par des exemples de candidats termes extraits de notre corpus de travail :

  • N_disci+Adj_disci : compétence sociale

  • N_disci+Adj_LG : sépulture primaire

  • N_disci+Adj_LST : restes humains

  • N_LG+Adj_disci : mondes possibles

  • N_LG+Adj_LST : face interne

  • N_LG+Adj_LG : non représenté dans les corpus utilisés

  • N_LST+Adj_disci : analyse textuelle

  • N_LST+Adj_LG : étude détaillée

  • N_LST+Adj_LST : différences significatives

La première observation d’un échantillon de notre corpus d’étude montrait une présence importante du LST dans les candidats termes, que ces derniers soient déjà présents ou non dans les ressources terminologiques. Lors de travaux antérieurs, Kister et Jacquey (2012) ont exploré les interactions entre le LST et les occurrences de termes et ont constaté qu’un élément du LST peut introduire un terme dans le cadre d’une dépendance directe lorsque le N est complément d’un N du LST comme dans conceptLST de la dyslexiedisci ou comme dans la dyslexie est un trouble spécifique de l’acquisitionLST de la lecturedisci. De plus, Jacquey, Tutin, et al. (2013) et Kister, Jacquey, et al. (2015) ont constaté qu’en plus de la délimitation lexico-syntaxique, un élément du LST peut être intégré à un terme, notamment quand cet élément est un nom comme dans évolution paléo-environnementale (domaine de l’archéologie) ou production langagière (domaine de la linguistique).

Aussi, nous souhaitons approfondir le processus de terminologisation, encore peu exploré, pour lequel un élément du LST entre dans la formation d’un terme polylexical. Cela revient à faire l’hypothèse que les N_Adj qui relèvent de la discipline scientifique du texte dont ils sont issus sont majoritairement construits avec un N relevant du LST. Parmi les trois patrons possibles en fonction de l’appartenance lexicale de l’adjectif, nous supposons que ce sont les adjectifs disciplinaires qui sont majoritaires.

Il s’ensuit que la vérification de cette hypothèse ouvrirait la voie à une réflexion sur le processus de terminologisation et sur la nature du LST. De plus, elle aurait un impact sur l’extraction terminologique automatique, notamment sur l’établissement et l’exploitation des ressources terminologiques mises à disposition des extracteurs.

Outre le rôle du LST, notamment en position nominale, nous avons pu vérifier l’influence majeure d’un composant disciplinaire lorsque celui-ci est un adjectif modifiant le nom. Dans ce cas, la présence de l’adjectif disciplinaire favorise l’accès du polylexical dans lequel il apparaît au statut de terme. La question est de savoir si l’influence d’un adjectif disciplinaire est la même quelle que soit l’appartenance lexicale du nom modifié. Nous nous intéressons en particulier à la productivité du patron N_LG+Adj_disci en guise de contre-vérification de l’acquis sur la terminologisation de mots de la LG et de la validité de notre hypothèse de contamination adjectivale (Kister, Jacquey, et al. 2015).

Après une présentation des données utilisées et de la méthodologie mise en oeuvre, nous exposerons les résultats obtenus en termes de productivité des différents patrons de N_Adj. L’étude que nous présentons permet de constater que l’interaction entre LST et Ldisci produit un effet de contamination et favorise l’accès des polylexicaux au statut de terme.

1. Données de l’étude

Les données que nous avons utilisées proviennent de trois disciplines différentes réunies dans un corpus de 70 articles de revues : archéologie (11 articles), linguistique (29 articles) et psychologie (30 articles). Le corpus ainsi constitué contient 575 068 occurrences correspondant à 46 523 mots-formes (sur l’ensemble du corpus d’étude et non discipline par discipline) et 22 900 formes lemmatisées. Le tableau ci-dessous présente le corpus de manière plus détaillée en se concentrant sur sa distribution en termes de noms et d’adjectifs.

Comme le montre le Tableau 1, la taille des sous-corpus varie en fonction des disciplines. Les sous-corpus de la linguistique et de la psychologie sont de taille comparable alors que le sous-corpus de l’archéologie est de taille nettement inférieure. Ceci n’est cependant pas problématique puisque nous mesurons la productivité des différents patrons de candidats termes en fréquence relative, calculée par rapport à la taille du sous-corpus de chaque discipline. Les fréquences relatives des adjectifs et des noms montrent que l’archéologie comporte plus d’éléments de ces deux catégories que la linguistique et la psychologie. Si on s’intéresse aux fréquences relatives des polylexicaux différents de forme N_Adj, l’archéologie et la linguistique sont très proches l’une de l’autre (23,38 ‰ pour la première et 27,8 ‰ pour la seconde) et que l’écart de ces deux disciplines avec la psychologie (22,12 ‰) est moindre par rapport à celui des autres mesures (taille des sous-corpus, nombre de noms et d’adjectifs).

Tableau 1

Taille des corpus pour les 3 disciplines et en fonction des N, des Adj et des N_Adj

Taille des corpus pour les 3 disciplines et en fonction des N, des Adj et des N_Adj

-> Voir la liste des tableaux

Les textes ont subi plusieurs traitements. Ils ont été enrichis en annotations morpho-syntaxiques à l’aide de TreeTagger (Schmid 1994) et en occurrences de candidats termes. Les candidats termes projetés proviennent d’une terminologie extraite par la plateforme d’extraction multilingue TermSuite (Rocheteau et Daille 2011 ; Cram et Daille 2016). La projection de la liste des candidats s’effectue par correspondance entre candidats termes et segments textuels sur la base de leur forme lemmatisée et étiquetée grammaticalement. Les occurrences de candidats termes peuvent être ambiguës car une lecture disciplinaire et une lecture non disciplinaire restent possibles en raison du mode de reconnaissance appliqué. C’est le cas du candidat mono-lexical sujet qui est proposé par TermSuite pour la linguistique. Dans une phrase de la forme le participe passé des verbes se construisant avec l’auxiliaire être doit s’accorder en genre et en nombre avec le sujet de la phrase, le candidat sujet fait l’objet d’un emploi disciplinaire. En revanche, dans un contexte comme le sujet de la communication s’inscrit dans […], l’occurrence de sujet reçoit une interprétation non disciplinaire. Pour lever ce type d’ambiguïté, une évaluation manuelle de l’interprétation effective de chaque occurrence de candidat terme a été réalisée par des linguistes de l’ATILF et des documentalistes de l’INIST experts dans les différentes disciplines du corpus. De cette manière, l’ensemble des occurrences de candidats termes sont filtrées manuellement pour sélectionner les occurrences qui relèvent d’un usage effectivement disciplinaire et celles qui n’en relèvent pas. En traitement automatique de la langue, cette procédure de filtrage s’apparenterait à une classification permettant de distinguer les occurrences disciplinaires et les occurrences non disciplinaires.

À la suite du traitement automatique des textes et du filtrage manuel des occurrences de candidats termes, les enrichissements des données sont stockés au format XML-TEI, complété par la proposition StandOff-Proposal, en cours de validation par le consortium TEI. La StandOff-Proposal permet de dissocier aisément le contenu textuel et l’ensemble des annotations. Ces traitements sont réalisés à l’aide de la plateforme de traitement spécifique au projet TermITH qui a fait l’objet d’un dépôt sur GitHub <https://github.com/simonmeoni/termITH-tool>.

À partir des données enrichies, trois critères ont guidé l’extraction des noms et des adjectifs qui composent les N_Adj examinés :

  • ils sont communs à au moins deux des trois disciplines prises en compte dans l’expérience ;

  • ils apparaissent dans des candidats termes de forme N_Adj ;

  • les occurrences de ces candidats termes ont été jugées disciplinaires lors du filtrage manuel.

Le Tableau 2 donne une vue quantitative des données sur lesquelles l’étude a été menée. Il indique que le filtrage manuel a été mis en oeuvre sur presque cinq fois plus d’occurrences de candidats termes de forme N_Adj en psychologie (5151) qu’en archéologie (1526) et en linguistique (1536). Si on s’intéresse aux occurrences des candidats termes jugées disciplinaires, on s’aperçoit qu’elles sont presque trois fois plus nombreuses en psychologie (3101) qu’en archéologie (1187) et en linguistique (1111).

Tableau 2

Répartition des occurrences de candidats termes N_Adj en emplois disciplinaires et non disciplinaires

Répartition des occurrences de candidats termes N_Adj en emplois disciplinaires et non disciplinaires

-> Voir la liste des tableaux

Le Tableau 3 compare, d’une part, les proportions d’occurrences de candidats termes de forme N_Adj en fonction du nombre total de séquences N_Adj pour chaque discipline, et d’autre part, la proportion d’occurrences jugées disciplinaires parmi celles-ci.

Tableau 3

Proportions des candidats termes de forme N_Adj disciplinaire par discipline

Proportions des candidats termes de forme N_Adj disciplinaire par discipline

-> Voir la liste des tableaux

Le Tableau 3 montre une nette variation dans les proportions de candidats termes de formes N_Adj par rapport au total des candidats termes proposés par l’extracteur terminologique TermSuite. La proportion de candidats termes de forme N_Adj est plus importante en psychologie qu’en archéologie qui est elle-même plus importante qu’en linguistique. Pour détecter les candidats termes, TermSuite utilise des règles linguistiques et des métriques statistiques et, parmi elles, les fréquences relatives calculées dans un corpus de spécialité et dans un corpus de langue générale (corpus de presse, Le Monde, de 82 millions de tokens [Daille 2017]). On peut donc émettre l’hypothèse qu’en linguistique, le nombre de candidats termes identifiés par TermSuite est moins important qu’en psychologie et en archéologie parce qu’il y a moins de polylexicaux de forme N_Adj dont la fréquence relative en linguistique est significativement différente de leur fréquence relative en langue générale. Ainsi, si on observe les polylexicaux en linguistique du point de vue de leur fréquence relative, on peut supposer que leur usage est moins spécifique que celui qu’on a en archéologie et en psychologie. Pour ce qui est de la proportion d’occurrences de candidats termes N_Adj jugées disciplinaires, l’ordre change : environ 78 % des occurrences sont jugées disciplinaires en archéologie, 72 % en linguistique et seulement un peu plus de 41 % en psychologie. Cela montre que les N_Adj en archéologie et en linguistique sont beaucoup plus précis qu’en psychologie. Les N_Adj en psychologie ne renvoient probablement pas à des concepts stables mais représentent des cooccurrences ou des collocations propres au discours de la psychologie, cooccurrences et collocations qui ne sont pas considérées comme disciplinaires par les experts de la psychologie.

Nous avons ensuite procédé à l’extraction des contextes de toutes les occurrences de candidats termes jugées disciplinaires dans chacune des trois disciplines. Le résultat de cette extraction est stocké dans un tableur avec, pour chaque occurrence, le fichier dont l’occurrence a été extraite, les identifiants des tokens qui la composent afin de pouvoir la situer précisément dans le texte, l’annotation manuelle, son contexte gauche et son contexte droit à l’intérieur du paragraphe (balise <p/>) où elle apparaît. Le Tableau 4 présente un exemple des informations extraites pour le candidat allomorphie radicale en linguistique.

Tableau 4

Exemple du candidat allomorphie radicale en linguistique

Exemple du candidat allomorphie radicale en linguistique

-> Voir la liste des tableaux

2. Méthodologie

Pour l’ensemble des occurrences sélectionnées, nous avons ensuite vérifié l’annotation manuelle dans les rares cas où le filtrage manuel ne semblait pas cohérent. Nous avons rencontré de tels cas en archéologie et en psychologie. Pour l’archéologie, cela provient de confusions manifestes avec des usages transdisciplinaires comme pour données nouvelles.

Malgré une vision très partielle, ce site [moyenne vallée de l’Orb] fournit des données nouvelles sur les modes d’occupation des sols et sur les faciès céramiques de la transition entre l’âge du Bronze et l’âge du Fer.

Mazière 2001

Pour la psychologie, les incohérences rencontrées sont dues au recouvrement avec d’autres disciplines comme, par exemple, avec les sciences de l’éducation. C’est le cas du candidat terme sections scientifiques. Ce candidat terme appartient à la terminologie produite par TermSuite, au même titre que milieu scolaire, par exemple. Cependant, milieu scolaire semble faire partie du lexique de la psychologie alors que section scientifique relève d’un usage beaucoup plus ponctuel qu’on retrouve essentiellement dans les plaquettes d’orientation, par exemple, et qui est plus utilisé par les enseignants des classes de 3e ou de terminale que par les psychologues. On peut aussi noter que le candidat terme section scientifique ne fait pas partie du vocabulaire de référence utilisé en psychologie.

Au cours de deux enquêtes, la première conduite en 1994 et la seconde en 2006, nous avons évalué les sentiments d’efficacité personnelle (SEP) relatifs aux différents types d’études et de professions de lycéennes et de lycéens de terminales de sections scientifiques (S) et économiques et sociales (ES). Ces SEP varient à la fois en fonction du sexe et de la section de terminale fréquentée.

Blanchard, Lallemand, et al. 2009

Ensuite, pour déterminer la contribution du lexique scientifique transdisciplinaire et du lexique disciplinaire dans la formation des termes de la forme N_Adj, nous avons confronté les noms et les adjectifs sélectionnés avec les ressources de référence du projet TermITH : le lexique scientifique transdisciplinaire et les ressources terminologiques de chacune des trois disciplines. Les ressources terminologiques de référence pour chaque discipline ont été constituées par l’INIST. Elles proviennent du vocabulaire utilisé pour l’indexation des bases de données bibliographiques Francis et Pascal.

Pour opérer cette confrontation, les noms et les adjectifs sélectionnés sont recherchés par leur forme dans le lexique transdisciplinaire et dans les ressources terminologiques. Lorsqu’ils sont absents de ces lexiques, ils sont considérés comme relevant de la langue générale et reçoivent l’étiquette LG. Lorsqu’ils apparaissent dans le lexique scientifique transdisciplinaire ou dans les ressources terminologiques, leurs sens, tels qu’ils sont décrits explicitement dans le lexique scientifique transdisciplinaire ou tels qu’ils peuvent être inférés dans les ressources terminologiques, sont comparés manuellement au sens qu’ils ont dans l’occurrence N_Adj candidate où ils figurent. Lorsque seul le sens transdisciplinaire est jugé compatible, l’occurrence du nom ou de l’adjectif examiné est comptée comme transdisciplinaire. Le candidat taille moyenne est un exemple de ce type en archéologie. Le nom taille appartient au lexique scientifique transdisciplinaire avec le sens grandeur et apparaît aussi dans la ressource terminologique de l’archéologie comme élément du terme atelier de taille. Dans le candidat taille moyenne, c’est clairement le sens transdisciplinaire qui est sélectionné.

Equus mosbachensis palustris, Bonifay, 1980 : défini à Lunel-Viel (Hérault), dans les ensembles supérieur et inférieur, cet Équidé est représenté par un nombre important de restes. La présence simultanée d’espèces archaïques et évoluées au sein des niveaux archéologiques suggère, pour le gisement, un âge proche de la fin du Pléistocène moyen autour de 350ka (Fosse 1994). Cet Équidé a pour caractéristique un crâne de taille moyenne avec une gouttière nasale visible, ce qui est un caractère ancien.

Langlois 2005

La même décision est prise du côté disciplinaire lorsque seul le sens terminologique est compatible avec celui de l’occurrence examinée. En linguistique, le candidat objet direct est un exemple parlant. Le nom objet apparaît dans le lexique scientifique transdisciplinaire avec le sens objet scientifique et est présent dans la ressource terminologique de la linguistique. Dans ce cas, nous avons opté pour le sens terminologique en raison de la combinaison avec l’adjectif direct qui conduit naturellement à la désignation d’un concept linguistique.

Mais il faut d’abord noter que ces propriétés sont largement indépendantes de la nature des liens sémantiques ou pragmatiques qui unissent les positions en jeu : il peut exister une transformation reliant V à T comme il peut en exister une entre la position d’objet direct et la position initiale dans une interrogative (Quel livre lis-tu [quel livre] ? ) ; leur justification fonctionnelle est clairement différente dans un cas et dans l’autre ; les contraintes formelles qui pèsent sur elles sont identiques.

Bellier 2003

Pour le candidat classes moyennes en psychologie, le sens transdisciplinaire du nom classe avec le sens groupe – partie de, de même que le sens disciplinaire tel qu’il apparaît dans le terme classe sociale dans les ressources terminologiques de la psychologie, sont compatibles avec le sens sélectionné par le candidat classes moyennes. Nous avons, dans ce cas, décidé de suivre le choix fait par l’expert lors du filtrage manuel : le sens disciplinaire.

Deux interrogations majeures peuvent être formulées à l’encontre de ces études consacrées au processus de socialisation de genre. D’une part, elles ont peu examiné les différences de représentations et comportements liés au genre selon les milieux socioculturels, la plupart des recherches portant sur des classes moyennes.

Mieyaa, Rouyer et Le Blanc 2012

Mais lorsqu’il s’agit d’une erreur manifeste de jugement, nous avons opté pour le sens transdisciplinaire comme, par exemple, pour manière dans manière directe en psychologie. On peut noter que le cas de manière directe en psychologie est très similaire à celui de données nouvelles en archéologie, cité ci-dessus.

Concernant la première question, les études sur les processus de traitement des mots écrits ont montré que les adultes illettrés diffèrent qualitativement des enfants de même niveau de lecture. En lecture, ils ont plus de difficultés pour utiliser la voie phonologique de décodage des mots que pour lire les mots de manière directe et globale.

Eme, Nantes et Delliaux 2011

Une vue synthétique des proportions des catégories obtenues pour les noms et les adjectifs à l’issue de cette seconde lecture est fournie dans le Tableau 5.

Tableau 5

Répartition des noms et des adjectifs dans les trois catégories de lexiques par discipline

Répartition des noms et des adjectifs dans les trois catégories de lexiques par discipline

-> Voir la liste des tableaux

On constate une présence notoire du lexique scientifique transdisciplinaire pour les noms comme pour les adjectifs. Ce lexique est présent pour plus de 95 % des noms et des adjectifs partagés par les trois disciplines. L’appartenance d’un nom ou d’un adjectif à l’une des trois disciplines se fonde sur la discipline dont relève le texte dans lequel figure ce nom ou cet adjectif. La discipline d’un texte a été déterminée lors de la constitution du corpus par des experts de chacune des disciplines prises en compte dans le projet TermITH. Parmi les noms figurant dans des candidats termes N_Adj partagés par les trois disciplines examinées, on trouve, par exemple :

  • analyse comme dans analyse fonctionnelle (archéologie), analyse conversationnelle (linguistique), analyses multivariées (psychologie) ;

  • étude comme dans études biométriques (archéologie), étude linguistique (linguistique), études universitaires (psychologie) ;

  • forme comme dans forme ovoïde (archéologie), forme nominale (linguistique), forme identitaire (psychologie) ;

  • niveau comme dans niveau archéologique (archéologie), niveau textuel (linguistique), niveau individuel (psychologie) ;

  • structure comme dans structure archéologique (archéologie), structure syllabique (linguistique), structure identitaire (psychologie).

Pour les adjectifs présents dans des candidats termes N_Adj, on peut remarquer les exemples suivants :

  • humain comme dans restes humains (archéologie), langage humain (linguistique), sujet humain (psychologie) ;

  • général comme dans forme générale (archéologie), linguistique générale (linguistique), facteur général (psychologie) ;

  • moyen comme dans âge moyen (archéologie), moyen français (linguistique), âge moyen (psychologie).

Si on s’intéresse aux noms et aux adjectifs relevant du lexique scientifique transdisciplinaire pour chacune des disciplines considérées indépendamment les uns des autres, on constate qu’entre 81 % et 91 % du nombre total de noms et d’adjectifs différents qui entrent dans la composition des N_Adj relèvent du lexique scientifique transdisciplinaire.

Pour chacune des occurrences de candidats termes où figurent les différents noms et adjectifs sélectionnés, leur qualification selon les catégories LST, disci ou LG permet de déterminer le type de patron auquel ils appartiennent et de mesurer la productivité de chacun des patrons dans la constitution des candidats termes. Dans un premier temps, cette mesure a été établie pour les occurrences de candidats termes qui n’étaient pas encore référencés dans les ressources terminologiques de référence de chacune des disciplines traitées. Dans un second temps, les proportions ont été comparées avec celles obtenues en prenant en compte toutes les occurrences de candidats termes examinées : les occurrences qui correspondent à des termes non encore référencés et celles qui sont déjà référencées dans les ressources terminologiques.

3. Résultats

3.1. Productivité des patrons des candidats termes N_Adj en archéologie

La productivité de chaque patron est mesurée en fréquence absolue et relative (pourcentage). Dans le Tableau 6, la première ligne contient le nombre d’occurrences de chaque patron : sur l’ensemble des occurrences de candidats termes N_Adj examinés pour l’archéologie (229 occurrences), 27 occurrences impliquent simultanément un nom et un adjectif dotés d’un sens disciplinaire (patron N_disci+Adj_disci), 2 occurrences impliquent un nom avec un sens disciplinaire et un adjectif avec un sens de langue générale (patron N_disci+Adj_LG), 7 occurrences impliquent un nom disciplinaire et un adjectif avec un sens transdisciplinaire (patron N_disci+Adj_LST), etc. La deuxième ligne code le nombre d’occurrences N_Adj jugées disciplinaires parmi l’ensemble des occurrences pour les occurrences de chaque patron dont le nombre est indiqué dans la première ligne. La troisième ligne traduit le nombre d’occurrences en pourcentage. La quatrième ligne et la cinquième ligne présentent les mêmes informations pour les occurrences jugées non disciplinaires à la seconde lecture (vérification du filtrage manuel lorsque cela nous semblait nécessaire). Les trois dernières lignes mesurent la productivité d’un patron par rapport au total des occurrences de candidats termes, tous patrons confondus. La même mesure est réalisée lorsque les occurrences du patron sont jugées disciplinaires et non disciplinaires.

Tableau 6

Productivité des neuf patrons de candidats termes possibles de forme N_Adj en archéologie

Productivité des neuf patrons de candidats termes possibles de forme N_Adj en archéologie

-> Voir la liste des tableaux

En archéologie, comme pour l’ensemble du corpus, le patron mettant en jeu un nom et un adjectif avec tous deux un sens relevant de la langue générale est absent (N_LG+Adj_LG). Les huit autres patrons sont représentés même si leur représentation est parfois très faible. Ainsi, nous notons seulement 3 occurrences de N_Adj comportant un nom avec un sens de langue générale et un adjectif avec un sens transdisciplinaire (N_LG+Adj_LST) : 1,31 % des N_Adj examinés en archéologie.

Le Tableau 6 montre la position dominante du patron N_LST+Adj_disci (par exemple, analyse tracéologique) : 55,60 % des occurrences de N_Adj examinées en archéologie relèvent de ce patron et sont disciplinaires.

D’après leur position dans la chaîne opératoire et en tenant compte de paramètres méthodologiques et taphonomiques, le nombre d’éclats préférentiels extraits de leur lieu de débitage se monterait à 67, parmi lesquels on trouve 19 pièces effectivement utilisées d’après l’analyse tracéologique.

Vallin, Masson, Caspar et Depiereux 2006

La productivité du patron N_LST+Adj_disci (55,60 % du total des occurrences de candidats termes N_Adj en archéologie) doit être appréhendée en fonction du maximum possible qui est de 88 % du total initial. Ce maximum de 88 % résulte de la seconde lecture que nous avons effectuée sur le filtrage manuel, au cours duquel nous avons éliminé les occurrences étiquetées disciplinaires dont avons jugé l’évaluation en première lecture erronée. Les corrections effectuées ont conduit au rejet de 25 occurrences jugées disciplinaires lors du filtrage manuel initial, ce qui entraîne un total d’occurrences disciplinaires de 204 sur les 229 (soit 87,93 %) de la sélection initiale dans les données du projet.

Le second patron le plus représenté, ce qui n’est pas surprenant, est le patron N_disci+Adj_disci (par exemple, perforations naturelles) tandis que le patron N_disci+Adj_LST (par exemple, datation relative) occupe la troisième position.

Parmi les objets de parure de l’enfant, nous avons repéré un humérus de lagomorphe et une vertèbre de poisson portant des perforations naturelles (fig. 2G-h). Les traces d’ocre sur ces pièces et l’utilisation d’un autre os de lagomorphe comme objet de parure indiquent que ces deux éléments pourraient également faire partie de la parure de l’enfant. 

Vanhaeren et D’Errico 2001

Le genre Equus est donc de première importance pour la datation relative des sites dans lesquels il est présent.

Langlois 2005

Notre hypothèse initiale évoquée dans l’introduction était que parmi les neuf patrons qu’il est possible de construire à l’aide de noms et d’adjectifs relevant des lexiques disciplinaire, scientifique transdisciplinaire et de langue générale, les polylexicaux de forme N_Adj qui comportent un N appartenant au LST sont majoritaires et parmi ces patrons, ceux qui comportent un Adj relevant du lexique disci sont les plus nombreux. Ainsi les polylexicaux qui accèdent le plus aisément au statut disciplinaire sont les N_LST+Adj_disci suivi des N_Adj de forme N_LST+Adj_LST puis des N_Adj de forme N_LST+Adj_LG.

Les données analysées en archéologie confirment en partie cette hypothèse avec une place prépondérante occupée par le patron N_LST+Adj_disci. La conclusion intermédiaire à laquelle conduisent les données de l’archéologie serait la suivante : le LST joue un rôle déterminant dans la construction des termes de forme N_Adj lorsque la tête nominale admet une interprétation transdisciplinaire. Quand la tête nominale admet une interprétation disciplinaire, c’est l’appartenance de l’adjectif au lexique disciplinaire qui devient alors productive.

Dernier point sur l’archéologie, en complément des observations précédentes centrées sur les N_Adj disciplinaires, les proportions de patrons majoritaires dans la production d’occurrences de candidats N_Adj non disciplinaires ont été calculées sur les occurrences rejetées lors du processus de correction du filtrage manuel (seconde lecture). Ce calcul a été réalisé à titre indicatif à ce stade de l’analyse et sera complété par une analyse ultérieure du même type sur les occurrences jugées non disciplinaires lors du filtrage manuel (première lecture). Pour les N_Adj non disciplinaires, nous constatons la position dominante du patron N_LST+Adj_LST (par exemple, différences significatives). Ce patron est suivi du patron N_LST+Adj_LG.

Bien que les restes de chevaux paraissaient appartenir à un même taxon, il était nécessaire, avant tout regroupement, de montrer qu’ils ne présentaient pas de différences significatives entre les différentes couches.

Langlois 2005

3.2. Productivité des patrons des candidats termes en linguistique

Dans le domaine de la linguistique, les résultats sont plus marqués. On note tout d’abord que le nombre d’occurrences disciplinaires rejetées (deuxième lecture) est très faible, ce qui se traduit par le fait qu’un peu plus de 99 % des occurrences jugées disciplinaires lors du filtrage manuel (première lecture) sont conservées en seconde lecture.

Tableau 7

Productivité des neufs patrons de candidats termes possibles de forme N_Adj en linguistique

Productivité des neufs patrons de candidats termes possibles de forme N_Adj en linguistique

-> Voir la liste des tableaux

L’ordre de représentation des patrons en fonction de leur productivité constatée dans les occurrences disciplinaires est le même que pour l’archéologie : N_LST+Adj_disci, N_disci+Adj_disci, N_disci+Adj_LST. Les candidats analyse conversationnelle (N_LST+Adj_disci), langue parlée (N_disci+Adj_disci) et position initiale (N_disci+Adj_LST) sont des exemples représentatifs des patrons cités ci-dessus.

Ces courants relèvent en France comme ailleurs, de différents domaines – de l’analyse de discours (Roulet et alii.1985, Coulhard 1992, van Dijk 1997), à la pragmatique des interactions verbales (Kerbrat-Orecchioni 1990, 1992, 1994) à la logique interlocutoire (Trognon 1999), à l’analyse conversationnelle (Sacks 1992, Sacks, Schegloff et Jefferson 1974).

Mondada et Traverso 2005

Une banque de données de corpus de langue parlée en interaction : CLAPI. 

Mondada et Traverso 2005

Si on se penche sur la place de ces groupements consonantiques dans la syllabe, nous constatons que la plupart (7 %) occupent la position initiale, contre 33 % en finale de syllabe.

Vallée, Rousset, et al. 2001

En plus du patron N_LG+Adj_LG, deux autres patrons sont totalement absents : N_disci+Adj_LG et N_LG+Adj_LST.

3.3. Productivité des patrons de candidats termes en psychologie

La psychologie présente des résultats similaires à ceux déjà observés du point de vue de la productivité des patrons majoritaires. En plus du patron N_LG+Adj_LG, le patron N_disci+Adj_LG est totalement absent. De plus, même si l’ordre des patrons majoritaires est le même dans la production d’occurrences N_Adj disciplinaires, les écarts sont beaucoup moins importants par rapport aux autres disciplines. Le patron N_LST+Adj_disci (par exemple, contexte scolaire), 48,38 % des occurrences de N_Adj en psychologie, perd environ 20 points par rapport à la linguistique (69,34 %) et environ 7 points par rapport à l’archéologie (55,60 %) ;

L’estime de soi a été abondamment étudiée dans le contexte scolaire. En particulier, un lien a été mis en évidence entre « estime de soi » et « performance scolaire » (une haute estime de soi étant associée à la réussite scolaire et une basse étant associée à l’échec scolaire).

Dozot, Piret et Romainville 2009

Le patron N_disci+Adj_disci (par exemple, école primaire), 28,60 % des occurrences de N_Adj en psychologie, gagne environ 10 points par rapport à la linguistique (19,45 %) et environ 18 par rapport à l’archéologie (11,79 %)

Dès lors, la difficulté scolaire à l’école primaire peut être appréhendée à partie des réponses institutionnelles ou des besoins éducatifs particuliers.

Desombre, Delelis, et al. 2008

Cette perte et ce gain de productivité pour les patrons N_LST+Adj_disci et N_disci+Adj_disci conduisent nécessairement à un resserrement des écarts entre patrons.

Tableau 8

Productivité des neuf patrons de candidats termes possibles de forme N_Adj en psychologie

Productivité des neuf patrons de candidats termes possibles de forme N_Adj en psychologie

-> Voir la liste des tableaux

Ce resserrement des écarts peut sembler surprenant du fait de la grande quantité d’occurrences jugées disciplinaires lors du processus de correction, près de 99 %. Dans le cas de la psychologie, on note une présence importante de candidats pouvant relever d’autres disciplines scientifiques, comme la linguistique (langage écrit), les sciences de l’éducation (enseignement secondaire), la didactique (communication orale) et la sociologie (catégorie sociale), tant dans les ressources terminologiques que dans l’expertise des annotateurs qui ont réalisé le filtrage manuel.

Des études de psychologie du développement ont porté sur les processus de traitement des mots écrits chez les adultes faibles lecteurs en référence aux modèles et aux méthodes décrivant le développement du langage écrit chez l’enfant (Ehri 1987, Frith 1985, Stanovich, Siegel et Gottardo 1997), et ont montré des différences qualitatives entre adultes illettrés et jeunes lecteurs.

Eme, Nantes, et al. 2011

Ainsi, Caille et O’Prey (2005), dans une étude portant sur des jeunes en fin d’enseignement secondaire, ont montré que l’estime de soi des étudiants influence la réussite scolaire ultérieure (au baccalauréat) et l’attrait pour les projets d’études les plus ambitieuses (Bac+5) alors que leur passé scolaire semble avoir peu d’influence sur leur estime de soi.

Dozot, Piret et Romainville 2009

Qu’en est-il dans les activités de communication orale ? Car même si la lecture est un facteur critique de réussite sociale et professionnelle, les capacités à communiquer en tant que telles sont également importantes pour la recherche d’un emploi et les interactions sociales.

Eme, Nantes, et al. 2011

Depuis, l’accès à l’emploi des diplômés scientifiques dans leur ensemble s’est fortement dégradé (« Génération 2001 ») même s’ils semblent conserver globalement des avantages nets en termes de salaires, de statut de l’emploi et de catégorie sociale par rapport aux autres disciplines de l’enseignement supérieur.

(Béwudé et al. 2006) (Béwudé, Fourcade, et al. 2007)

Dans le cadre de notre étude, un certain nombre de noms et d’adjectifs montrent que les ressources terminologiques ne sont pas suffisamment spécialisées lorsqu’on compare des domaines potentiellement connexes. On peut constater une richesse due à la prise en compte des différents domaines avec lesquels la psychologie au sens strict entretient des relations sur le plan scientifique (sciences du langage, sciences de l’éducation, sociologie) ou pratique (orientation scolaire, universitaire et professionnelle, acquisition du langage, pédagogie, échec scolaire), tant sur le plan du corpus en psychologie que des ressources terminologiques de référence qui lui sont associées. Il faut rappeler ici que le corpus TermITH ainsi que tous les traitements qui lui ont été appliqués avaient pour objectif d’identifier les créations terminologiques en cours de stabilisation, objectif secondaire du projet qui visait prioritairement l’indexation automatique des textes. Ainsi, la diversité qu’on constate dans le corpus de psychologie n’est pas surprenante : elle est conforme aux objectifs du projet pour lesquels le corpus a été constitué. La diversité constatée dans les ressources terminologiques de référence en psychologie, quant à elle, pose problème lorsqu’on cherche à mesurer le caractère disciplinaire ou non d’un candidat terme. Pour pallier cette difficulté, une piste possible serait de subdiviser les ressources en sous-domaines en tenant compte de la question des termes migrateurs (Toma 2002) et en limitant le chevauchement entre sous-domaines. Pour cela, il serait nécessaire de faire appel à des experts pour la modélisation de chaque sous-domaine.

3.4. Productivité des patrons des candidats termes N_Adj communs aux trois disciplines

Si on s’intéresse enfin aux occurrences de candidats termes N_Adj dont le nom ou l’adjectif est commun aux trois disciplines et appartient à un candidat terme, l’ordre des patrons prioritaires reste le même. La quantité d’occurrences disciplinaires conservées est tout à fait comparable à celles de la linguistique et de la psychologie. Pour les deux premiers patrons, N_LST+Adj_disci (par exemple, caractéristique morphologique) et N_disci+Adj_disci (par exemple, relations sociales), les écarts constatés se situent dans une position intermédiaire par rapport à ceux qui ont été observés pour la linguistique et la psychologie.

En ce qui concerne les chevaux de Lunel-Viel et de Caune de l’Arago et compte tenu des caractéristiques morphologiques et biométriques des éléments du squelette, nous pensons que ces chevaux font partie du groupe des grands chevaux de type mosbachensis.

Langlois 2005

Ajoutons que Gergen définit aussi un « constructivisme social », celui de Vygotski ou de Bruner par exemple. Il affirme alors que « l’esprit » construit la réalité par sa relation au monde et les relations sociales.

Dumora et Boy 2008

Tableau 9

Productivité des neuf patrons de candidats termes de forme N_Adj avec un N et/ou Adj commun(s) aux trois disciplines

Productivité des neuf patrons de candidats termes de forme N_Adj avec un N et/ou Adj commun(s) aux trois disciplines

-> Voir la liste des tableaux

3.5. Synthèse

Que les résultats soient examinés par discipline ou simultanément pour toutes les disciplines, les candidats termes examinés se répartissent selon huit des neuf patrons possibles (cf. Introduction) car le patron N_LG+Adj_LG n’est pas représenté dans les corpus que nous utilisons. Par rapport à l’hypothèse de départ, nous constatons que deux des patrons censés produire des candidats N_Adj disciplinaires sont représentés et sont en position dominante : N_LST+Adj_disci et N_disci+Adj_LST. Ces résultats mettent en avant le rôle primordial des interactions entre le lexique disciplinaire et le lexique transdisciplinaire ainsi que la contribution importante du lexique transdisciplinaire dans la construction des candidats termes disciplinaires ne figurant pas dans les ressources terminologiques. Les résultats obtenus montrent aussi l’autonomie du lexique disciplinaire par la seconde position en termes de productivité occupée par le patron N_disci+Adj_disci.

Il reste à noter que les résultats présentés jusqu’ici concernent les occurrences de candidats termes après élimination des termes qui figurent déjà dans les ressources terminologiques de référence. Nous avons comparé ces résultats avec ceux que nous aurions obtenus si nous n’avions pas procédé à cette élimination.

Dans les quatre tableaux ci-après (Tableaux 10 à 13), la partie gauche, intitulée hors terminologie, décrit les proportions de patrons de candidats termes après élimination des occurrences des candidats déjà présents dans les ressources terminologiques. Cette partie gauche est identique aux résultats présentés ci-devant (cf. 3.1 à 3.4). La partie droite, intitulée avec terminologie, montre les proportions obtenues sans procéder à cette élimination.

Tableau 10

Comparaison entre les productivités des patrons selon que l’on tient compte de la présence ou non des candidats termes dans l’une des trois terminologies

Comparaison entre les productivités des patrons selon que l’on tient compte de la présence ou non des candidats termes dans l’une des trois terminologies

-> Voir la liste des tableaux

Tableau 11

Comparaison entre les productivités des patrons selon que l’on tient compte de la présence ou non des candidats termes dans la terminologie de l’archéologie

Comparaison entre les productivités des patrons selon que l’on tient compte de la présence ou non des candidats termes dans la terminologie de l’archéologie

-> Voir la liste des tableaux

Tableau 12

Comparaison entre les productivités des patrons selon que l’on tient compte de la présence ou non des candidats termes dans la terminologie de la linguistique

Comparaison entre les productivités des patrons selon que l’on tient compte de la présence ou non des candidats termes dans la terminologie de la linguistique

-> Voir la liste des tableaux

Tableau 13

Comparaison entre les productivités des patrons selon que l’on tient compte de la présence ou non des candidats termes dans la terminologie de la psychologie

Comparaison entre les productivités des patrons selon que l’on tient compte de la présence ou non des candidats termes dans la terminologie de la psychologie

-> Voir la liste des tableaux

La comparaison montre que les proportions varient peu et que les tendances sont identiques. La distribution des patrons classés par proportions décroissantes reste stable, que l’on prenne en compte ou non la présence des termes dans les ressources terminologiques. Ceci invite à supposer que les patrons de termes non encore référencés, et donc uniquement identifiables dans les textes intégraux, suivent des patrons similaires à ceux des candidats termes déjà référencés dans les ressources terminologiques. Nous aurons l’occasion de vérifier cette observation lorsque nous examinerons les résultats d’une évaluation manuelle ultérieure dont l’objectif est d’identifier les candidats termes de toutes formes, simple ou complexe, qu’il serait pertinent d’ajouter aux ressources terminologiques que nous avons utilisées pour ces travaux. L’évaluation manuelle sera réalisée par les experts qui ont participé à l’établissement des ressources terminologiques de référence de chaque discipline.

Conclusion

L’analyse du fonctionnement des candidats termes polylexicaux de forme N_Adj nous a permis de mesurer l’importance des différentes tendances lexicales qui existent dans l’écrit scientifique. Nous nous sommes en particulier focalisés sur le rôle joué par le lexique transdisciplinaire affirmé comme fondamental par de nombreux auteurs qui ont étudié le fonctionnement de l’écrit scientifique. Les différents patrons de candidats termes que nous avons repérés dans ce corpus montrent le rôle primordial du critère d’appartenance aux ressources terminologiques mais aussi la contribution du lexique transdisciplinaire dans la formation des termes de forme N_Adj. Pour l’ensemble des mesures effectuées (avec ou sans prise en compte de la préexistence de candidats termes dans les terminologies de domaines), nous constatons une forte représentation des N_disci+Adj_disci (deuxième rang) et une représentation dominante des N_LST+Adj_disci (premier rang). La productivité de ces deux patrons s’oppose à la productivité beaucoup plus faible du patron N_disci+Adj_LST. Le rôle du lexique scientifique transdisciplinaire dans la construction des candidats termes polylexicaux est confirmé par la position dominante du patron N_LST+Adj_disci, mais l’étude menée montre que la contribution de ce sous-lexique de l’écrit scientifique est majeure lorsque le nom relève d’un usage transdisciplinaire dans le polylexical de forme N_Adj.

Cette première photographie de la répartition des N_Adj en fonction des critères d’appartenance du nom et de l’adjectif au lexique scientifique transdisciplinaire, aux ressources terminologiques et au lexique de la langue générale permet de commencer à repenser le rôle du lexique transdisciplinaire dans le processus de terminologisation et d’extraction automatique des termes. Les conclusions encore partielles de notre étude soulèvent trois pistes.

La première concerne l’analyse des occurrences des candidats termes N_Adj non disciplinaires, jugées comme telles par les experts lors de la première phase d’enrichissement des données (première lecture) ou rejetées lors du processus de correction du filtrage manuel (seconde lecture). Cette analyse permettra de valider ou d’infirmer l’hypothèse d’une série de patrons privilégiés pour la construction de candidats termes, notamment ceux qui sont déjà présents dans les ressources terminologiques.

La deuxième porte sur la couverture d’une ressource terminologique. Celle-ci est toujours fonction de l’objectif de sa constitution. Dans le cas du projet TermITH, les buts sont l’indexation documentaire de domaines assez vastes et l’enrichissement de référentiels également vastes : la couverture doit donc être maximale, ce qui entraîne le croisement inévitable entre domaines. L’étude menée a ainsi montré que certains candidats termes semblent relever de domaines connexes, notamment dans le cas de la psychologie. Cela devrait amener à redéfinir la couverture éventuelle des ressources terminologiques pour décrire ces domaines et, par conséquent, à envisager une redéfinition des limites des domaines en SHS.

La troisième et dernière piste touche des candidats termes qui semblent relever du lexique scientifique transdisciplinaire et qui devraient entraîner un enrichissement de ce lexique, ce qui conduirait naturellement à un élagage des ressources terminologiques.