Corps de l’article

Introduction et contexte

L’usage de la langue naturelle pour les systèmes d’information automatisés dans les entreprises devrait connaître un certain essor. En effet, les membres du personnel sont de plus en plus en situation de mobilité et souhaitent garder le contact, résoudre des problèmes urgents ou bénéficier des mêmes services qu’en situation de proximité : secrétariat, agendas partagés, accès à leurs dossiers, organisation de réunions, etc. Le téléphone mobile devient un vecteur de communication dans leurs déplacements. Dans le contexte du projet PVE[1], l’analyse d’usage que nous avons faite dans des hôpitaux, des services d’administration universitaire, chez des professions libérales et des entreprises montre que les services vocaux sont très utiles dans les situations où l’opportunisme domine. Le dialogue oral dans ces situations s’apparente à un dialogue de résolution de problème en face à face : obtenir un accord, se coordonner pour une action, obtenir une information-clef pour débloquer une situation, etc. C’est à ce type de scénario que nous souhaitons apporter des solutions et des éléments logiciels pour un système de dialogue homme-machine orienté service, et non plus seulement orienté tâche : il s’agirait d’un agent qui devrait avoir des capacités pour mémoriser les problèmes, pour rappeler plusieurs fois tous les interlocuteurs (les informer d’une réunion ou leur demander leurs disponibilités de dates puis leur confirmer la date et le lieu finalement choisis), pour collecter des demandes ou des contraintes, bref pour gérer des tâches multiples et de haut niveau impliquant plusieurs utilisateurs en gérant les conflits de ressources éventuels.

Le dialogue oral homme-machine est une forme d’interaction qui nécessite la résolution de nombreux problèmes allant de la reconnaissance de la parole à la synthèse en passant par des analyses linguistiques et pragmatiques. Nous avons développé un système de dialogue modulaire (Nguyen et Caelen, 2003) de façon à rendre certains composants indépendants de la tâche et donc à terme portables dans d’autres types d’applications. Il comprend notamment un composant de reconnaissance vocale (développé par IBM France), un composant de compréhension sémantique, un composant d’interprétation pragmatique, un contrôleur de dialogue, un gestionnaire de tâche, un générateur d’énoncés et un module de synthèse vocale. Nous nous intéressons dans cet article seulement à un niveau précis d’articulation entre la sémantique et la pragmatique, et plus spécifiquement à l’interprétation pragmatique, problème parmi les plus difficiles dans un système de dialogue homme-machine (DHM en abrégé).

Il existe peu de formalismes pour représenter le dialogue dans son aspect dynamique de construction conjointe de la signification. Parmi les théories les plus fécondes, la SDRT (Segmented Discourse Representation Theory) offre un cadre rigoureux de représentation mais doit encore être étendue et validée pour s’appliquer complètement au cadre du dialogue. Notre apport dans cet article est de (a) fournir une solution pour passer du cadre des actes de langage à la SDRT qui exploite les relations rhétoriques liant des énoncés à l’historique de dialogue et (b) en l’enrichissant. Le travail présenté ci-après prolonge également nos travaux sur la modélisation du dialogue à l’aide des stratégies de dialogue (Caelen, 2003). Ces stratégies de dialogues concernent les directions d’ajustement des buts dialogiques et les manières d’atteindre ces derniers. Une stratégie est une manière de se comporter vis-à-vis de son interlocuteur pour atteindre de manière la plus efficace le but de la tâche. Sans entrer dans les détails de ces travaux antérieurs, nous donnons ci-après quelques définitions utiles pour la suite du propos. Les stratégies de dialogue sont des manières d’atteindre un but à travers le dialogue considéré comme une activité conjointe (Vernant, 1992). Même si, au départ d’un dialogue, le locuteur et l’allocutaire n’ont pas les mêmes objectifs, ils partagent au moins l’intention de maintenir la conversation et visent ainsi un certain but conversationnel. Peut-être dialoguent-ils simplement sur un plan phatique (conversation conviviale), peut-être débattent-ils de leurs convictions profondes ou négocient-ils une transaction ? Dans tous ces cas, le dialogue se déroule dans un cadre qui se définit par les éléments suivants :

  1. le but conversationnel (ou intentionnalité collective), qui donne la finalité de la conversation. On distingue selon Vanderveken (2001) :

    • les conversations autour de l’état des choses du monde (rapport, nouvelles, descriptions narratives, débats, etc.),

    • les discours ou dialogues d’engagement (prise de décision, actions à accomplir en commun, négociation, etc.),

    • les conversations à double direction d’ajustement (théorisation, réflexion verbale, séance de travail, etc.),

    • les discours qui expriment des attitudes mentales (prière, lamentations, etc.) majoritairement expressifs,

  2. le déroulement proprement dit,

  3. le thème de la conversation et,

  4. l’arrière-plan de la conversation (situation, monde de la tâche s’il y en a une, rôles sociaux, etc.).

Il faut distinguer le but du dialogue qui est dans l’arrière-plan, du but conversationnel qui lui, est nécessairement partagé (s’il ne l’est pas il y a malentendu sur le type de dialogue). Le but conversationnel peut-être satisfait sans que le but d’arrière-plan le soit nécessairement.

Dans un cadre donné, c’est-à-dire pour (a), (c) et (d) donnés, le déroulement va dépendre des stratégies utilisées par les interlocuteurs pour arriver à satisfaire le but conversationnel, et de manière réflexive, c’est la structure de déroulement qui va contraindre à son tour la stratégie que les interlocuteurs pourront utiliser. Définissons cela plus précisément : nous supposons qu’il y a deux locuteurs qui dialoguent et qu’au départ chacun vise un certain but dans l’arrière-plan. Nous noterons L pour locuteur et A pour allocutaire (dans le cas du DHM, nous noterons U pour utilisateur et M pour machine). Leurs buts seront notés, bL et bA, l’un des deux pouvant être vide.

On définit :

But initial : l’état du monde ou l’état mental que l’un des deux locuteurs veut atteindre, soit pour lui-même (obtenir un renseignement, acquérir un savoir-faire, etc.), soit pour son partenaire (lui donner une information, lui faire faire quelque chose, lui donner un conseil, etc.).

Échange : une suite de tours de parole pendant laquelle un but est maintenu. Le début d’un échange est marqué par l’apparition d’un nouveau but, ce but se transforme éventuellement au cours de l’échange (il peut s’affiner par exemple ou se décomposer en sous buts) et devient un but final irréductible sur lequel l’échange se termine par un succès ou par un échec. Le succès obéit à la double condition d’être un but atteint et un but satisfait (Searle et Vanderveken, 1985; Vanderveken, 1997). Un échange, quant à lui, se développe sur deux axes : l’axe régissant et l’axe incident (Luzzati, 1989).

But de l’échange : celui qui est maintenu en jeu pendant l’échange.

But final : l’état du monde ou de la situation à la fin d’un échange (cela se termine toujours, au moins par l’accord des deux interlocuteurs sur le fait qu’il y a échec quand il y a échec : « les syndicats et le patronat se sont séparés sur un constat d’échec »). Le but final n’est pas toujours prévisible au départ.

Incidence : un acte de parole qui a pour effet de mettre un but en attente ou en question (par changement de thème, demande de clarification, demande de précision, etc.) mais ne remet pas en cause le but conversationnel de l’échange. Le dialogue se poursuit généralement sur cet axe incident avant de revenir sur l’axe régissant de l’échange. Il peut y avoir plusieurs niveaux d’incidence.

Stratégie de dialogue : la manière de gérer les tours de parole entre interlocuteurs pour conduire un échange ou une incidence. La stratégie vise à choisir la meilleure direction d’ajustement des buts à moment donné.

Direction d’ajustement : il y a 5 directions d’ajustement possibles des buts qui conduisent à 5 types de stratégies :

  • A abandonne son but au profit de celui de L (stratégie réactive), en d’autres termes A ajuste son but sur celui de L (en abrégé bA → bL)

  • A impose son but au détriment de celui de L (stratégie directive), en d’autres termes il force L à adopter son but (en abrégé bA ← bL)

  • A et L gardent chacun leur but (stratégie de négociation), en d’autres termes ils n’essaient pas d’ajuster leurs buts a priori (en abrégé bA ← b’ → bL) même si à l’issue de la négociation un compromis b’ est finalement trouvé

  • A et L tiennent compte du but de l’autre (stratégie de coopération), en d’autres termes ils essaient de les ajuster l’un à l’autre (en abrégé bA ↔ bL)

  • A et L abandonnent leurs buts au profit d’un troisième (stratégie constructive), en d’autres termes ils font un détour constructif (en abrégé bA → b’ ← bL)

Efficacité de la stratégie : une stratégie est efficace si la vitesse de convergence des actes de parole vers le but final est optimale. Le critère d’efficacité qui s’en déduit, est de réduire au maximum à chaque tour de parole, la distance au but final (il peut cependant y avoir des écartements locaux pour éviter de tomber dans des impasses ou provoquer des échecs).

Nous considérons maintenant que le dialogue homme-machine est un « jeu » conversationnel à propos de tâches finalisées. Le jeu n’est pas la tâche à réaliser mais l’ensemble de règles à respecter et de « coups » à jouer pour atteindre le but de la tâche. Il a un donc un versant interlocutoire (les règles à convenir et à contrôler au cours du jeu) et un versant actionnel (les coups du jeu faisant progresser le jeu vers son issue). Pour articuler ces deux versants un troisième plan est nécessaire : celui des connaissances échangées et partagées - c’est-à-dire construites ou échangées au cours du dialogue - par les interlocuteurs. L’action menée par les interlocuteurs est conjointe – il s’agit d’atteindre et de satisfaire ensemble des buts de la tâche posés en début de jeu (puis au cours du jeu) mais aussi de s’accorder sur la manière dont les problèmes sont résolus. L’interaction se déroule donc dans le monde du jeu mais aussi entre les interactants (participants) sur un plan déontique : cela signifie qu’il s’agit également pour eux, pendant le jeu, de s’accorder sur les conditions pour atteindre ces buts (qui fait quoi et comment) en modifiant les règles du jeu si nécessaire de manière coopérative. Notre modèle de dialogue se situe ainsi dans le cadre de la théorie des jeux à connaissances incomplètes et non monotones. Le dialogue se déroule de manière publique, les déclarations et les choix ont une valeur d’engagement dans le respect des règles du jeu de dialogue[2]. Les « coups » sont des actes de langage sur l’axe d’avancée principal du jeu. Les autres actes effectués peuvent avoir ont un rôle subordonné ou de coordination du jeu. Il faut distinguer la notion de stratégie de jeu proprement dite - qui est la manière d’atteindre le but de la tâche à l’aide de plans - de celle de stratégie de dialogue évoquée ci-dessus. Nous faisons l’hypothèse que les locuteurs contribuent au jeu de dialogue avec l’intention conjointe d’atteindre des buts. Ils agissent de manière rationnelle, ce qui implique que leur action conjointe est cohérente – ce qui à son tour signifie qu’ils utilisent des sous-plans compatibles concourant à un plan commun (Bratman, 1999). Ceci nous permet de poser le principe d’engagement comme vrai a priori.

Ainsi, nous examinerons dans le cadre de la SDRT (Asher, 1993) la question des actes de langage et des relations de discours, la SDRT nous semblant d’un côté fructueuse pour modéliser la structure du discours, sur lequel s’appuie la modélisation du dialogue au niveau pragmatique (Xuereb et Caelen, 2004) mais d’un autre côté insuffisante dans la prise en compte de certains aspects des actes de langage, des stratégies et des connaissances partagées.

1. Cadre théorique : pragmatique et SDRT

Récanati (2001) affirme que : « Une thèse centrale, et même fondatrice, de la sémantique contemporaine est que la signification d’une phrase détermine ses conditions de vérité. Cette détermination peut être plus ou moins directe. Elle est relative au contexte lorsque la phrase est indexicale : la signification est alors conçue comme une "fonction", appariant contextes et conditions de vérité. Ainsi la phrase "Je suis français", énoncée par Jean, est vraie si et ssi Jean est français. Dans les autres cas (non indexicaux), la signification de la phrase détermine directement ses conditions de vérité, en vertu de sa seule signification linguistique : la phrase "la neige est blanche" aurait ainsi la propriété d’être vraie si et ssi la neige est blanche. Searle soutient que la signification linguistique sous-détermine radicalement les conditions de vérité, même après que la valeur des expressions indexicales contenues dans la phrase ait été fixée. Étant donné une phrase quelconque (indexicale ou non), il n’est pas possible de spécifier un état de choses E tel que la phrase soit vraie si et ssi E est réalisé. Searle montre cela d’une façon tout à fait convaincante. Ses exemples établissent que l’on peut toujours imaginer un contexte où la phrase en question ne serait pas considérée comme vraie, quand bien même l’état de choses E serait réalisé, ils montrent aussi que la signification linguistique sous-détermine les conditions de vérité, quelle que soit la phrase énoncée. » Par exemple l’énoncé « Le bateau de Jean » n’indique pas le type de relation entre le bateau et Jean : possession, fabrication par Jean, rêve de Jean ? Il n’aura de conditions de vérité déterminées que si une relation particulière entre Jean et le bateau a été spécifiée, mais la spécification en question n’obéit à aucune règle ou procédure, elle apparaît au cours du dialogue de manière explicite ou peut même rester implicite entre les conversants qui en ont une connaissance commune. Ainsi au-delà du contexte et de l’arrière-plan, la situation dialogique participe également de la négociation du sens (ou co-construction du sens). Par exemple, au cours du dialogue, le « bateau de Jean » peut prendre les connotations C1 ou C2 :

A : Le bateau de Jean est finalement resté à quai
B : Tu veux dire qu’il ne l’a jamais utilisé ?
C1 : Oui c’est resté un pur rêve / C2 : Oui, il ne l’a jamais terminé

Pour Récanati, la pragmatique « précède » la sémantique dans le sens où les variables du discours doivent être déterminées avant de pouvoir calculer la signification de l’énoncé. Ces variables se rattachent au monde mais sont aussi dépendantes des contextes d’énonciation et des intentions des locuteurs. Or l’intention du locuteur est codée dans la force illocutoire de l’acte (Searle et Vanderveken, 1985).

De son côté la SDRT utilise la notion de relation rhétorique. Cette notion s’apparente à celle d’acte de langage mais n’en est pas équivalente. Elle se fonde plutôt sur la notion de paire adjacente issue des théories de la conversation (Goffman, 1967) dans laquelle tout acte de langage tente de « fermer » une paire ouverte. Cette vision du dialogue a cependant tendance à enfermer le dialogue dans une sorte de système de résolution des attentes. Cela renvoie à un modèle cognitif de « l’autre » puisqu’il s’agit maintenant, pour l’interlocuteur, d’interpréter ces attentes. Il nous semble cependant que dans la perspective d’un modèle projectif (Vernant, 1997), chaque acte est projeté vers le futur et prend sa signification dans un « interacte » construit de manière émergeante avec les autres acteurs dans le dialogue (Trognon, 1995). Il s’agit donc plutôt de « projeter » le dialogue en avant à chaque instant, chaque acteur prenant sa part dans l’action mais aussi en en déléguant une partie à autrui. La mesure des effets de ces actions devient alors primordiale pour la poursuite du dialogue et la coordination mutuelle. Par exemple, dans la situation suivante où un homme A aborde une jeune fille B dans la rue à minuit,

A : Avez-vous l’heure ?
B : Non

Il est évident que la réponse de B contient plus qu’une simple réponse à la question précédente, il contient aussi le projet « laissez-moi tranquille » de B. Les effets de ce « non » portent non seulement sur la fermeture de la question de A, mais il pose également un nouveau but potentiel (B espère faire partager ce but à A). Ce but sera peut-être repris par A dans le tour suivant, il deviendra alors conjoint et éventuellement but courant du dialogue. Cette potentialité n’est pas modélisée entièrement par la SDRT.

Pour ces raisons nous avons pris le parti de garder la notion d’acte de langage (pour l’aspect projectif des buts qu’il offre et la notion de « coup » bien identifié dans le jeu de dialogue) dans notre modélisation, et celle de relation rhétorique issue de la SDRT qui offre une gestion efficace de l’historique du dialogue en permettant de répercuter les effets des actions sur les attentes de manière réflexive.

Schématiquement tout se passe dans le « mental » d’un locuteur comme (a) s’il jugeait tout d’abord l’état de la situation – état du jeu, but à atteindre, connaissances nécessaires – puis (b) s’il choisissait une solution de jeu – stratégie, acte – en accord avec les effets attendus sur autrui et sur la situation, ensuite (c) s’il produisait un acte dont une partie serait une délégation sous forme d’un « interacte » et qu’enfin (d) il en évaluait les effets par rapport à ses attentes. Ce modèle est proche de celui de Trognon (1996).

Dialogue/Actes

Notre définition du dialogue (homme-machine) est la suivante : c’est une suite d’actes coordonnés selon des règles de jeu (en vue d’atteindre un but présent ou futur, qu’il soit épistémique ou qu’il soit un état dans le monde) avec construction de connaissances mutuelles et autour d’un savoir-faire partagé. Les actes d’un tel dialogue sont langagiers ou non (il peut y avoir manipulation directe des objets du monde par exemple au cours d’un échange verbal).

Cette définition place le dialogue dans un champ plus vaste, celui de l’interaction.

L’interaction procède à l’aide d’actes qui ont la forme générale Fp = force illocutoire + contenu propositionnel (Vanderveken, 1990) : un acte a des prérequis et des effets. Nous retenons notre propre taxonomie des actes : FA, FF, FFS, FS, FD, FP. Certains actes sont à visée actionnelle (FA = faire une action, FF = faire-faire une action) c’est-à-dire à effet attendu dans le monde (événements, faits, accomplissement d’une tâche), d’autres sont à visée épistémique (FFS = faire-faire savoir, FS = faire-savoir) c’est-à-dire à effet dans le discours ou sur les connaissances (mutuelles ou privées), et d’autres enfin sont à visée déontique (FD = faire-devoir, FP = faire-pouvoir) c’est-à-dire créent des obligations (nécessité) ou offrent des choix (possibilités) pour la poursuite du dialogue. Ces derniers actes régulent l’interaction et permettent éventuellement de changer les règles du jeu.

Ainsi, l’interaction se déroule sur deux plans : (a) communicationnel et (b) transactionnel. Le plan communicationnel est composé du plan épistémique et du plan déontique (le quoi faire et le comment faire). Le plan déontique articule les plans épistémique (les connaissances nécessaires et les conditions préparatoires au faire) et transactionnel (le faire ensemble). Il met en place les tactiques locales pour passer d’un plan à un autre ou pour détourner le problème (échappatoire). C’est un niveau de régulation interne du dialogue, par les interactants eux-mêmes. Il y a également un plan de contrôle, externe mais implicite, sur le respect des règles du jeu de dialogue : le jeu s’arrête si quelqu’un en viole les règles. L’effet d’une action est double : d’une part sur le monde sous forme de faits et d’autre part dans les connaissances mutuelles.

Le tableau 1 synthétise ces concepts : les actes, colonne de gauche, engagent les locuteurs A et/ou B lorsqu’ils les font, dans une certaine visée, et prennent leur source dans l’arrière-plan et les connaissances privées (KA désigne les connaissances de A, KB celles de B). Leurs effets portent sur une modification des connaissances mutuelles KAB, des plans et buts (élaboration de plans et élaboration de buts) et du monde.

Dans le cas du dialogue ordinaire (conversation informelle, dialogue finalisé, etc.), le locuteur n’a pas tendance à se parler à soi-même pour se poser des questions ou commenter ses actes – on ne considère pas ici les dialogues de type didactique ou théâtral (faire un raisonnement à voix haute, parler à un public, faire des apartés convenus, etc.)[3]. Nous considérons dorénavant le dialogue homme-machine (DHM) finalisé en étant persuadés que nos modèles peuvent aussi s’appliquer à certains types de dialogues humains.

Tableau 1

Schématisation de la relation

Schématisation de la relation

-> Voir la liste des tableaux

Répliques

Nous appelons répliques la catégorie des actes qui dénient à l’interlocuteur le droit ou la possibilité de faire un acte (ce sont des remises en cause sévères, des remises en question des rôles, etc.). Ils sont de la forme « A n’accepte pas que FBp » ou « A dénie à B l’acte FBp », par exemple « de quel droit me demandes-tu cela ? » ou « pourquoi te répondrais-je ? », « tu n’as pas à m’imposer ça », etc. Une réplique est notée ¬Fp (à distinguer des négations qui sont de la forme F¬p). Dans la suite nous ne distinguons pas les causes de ces dénis qui se situent dans le champ des relations déontiques entre les conversants (par exemple, refus d’autorité, refus de reconnaître la compétence, refus de reconnaître la position, etc.). Les répliques sont des éléments régulateurs du jeu.

Une réplique a pour but de créer une rupture dans la convergence du dialogue. Elle ferme le dialogue en cours et le déplace sur autre terrain (l’agression, la rupture, la fuite, etc.). Il ne devient pas possible à ce moment à l’interlocuteur de ne pas répondre à cette réplique surtout s’il s’agit d’une attaque personnelle avec remise en cause. Du fait que nous ne considérons pas le dialogue intérieur nous n’aurons pas à traiter du cas des répliques adressées à soi-même. Par exemple « je n’ai pas le droit de dire ça ».

Les répliques sont possibles à la suite d’un FFS, FS, FF, FA selon les relations sociales entres interactants mais n’ont pas de sens après FD et FP, car dans le cas de FD il s’agit d’une obligation sociale qui ne peut être discutée et dans le cas de FP d’un libre choix laissé au locuteur, qu’il n’est donc pas naturel de contester.

Figure 1

L’avancée du dialogue se fait sur 6 axes : l’action principale et subordonnée, la connaissance principale et subordonnée, les incidences transactionnelles et épistémiques

L’avancée du dialogue se fait sur 6 axes : l’action principale et subordonnée, la connaissance principale et subordonnée, les incidences transactionnelles et épistémiques

-> Voir la liste des figures

Dialogue projectif

A la suite de Vernant (1997), nous considérons que le dialogue avance sur deux axes principaux, celui de l’action et celui des connaissances eux-mêmes doublés de deux axes secondaires, dits subordonnés, pour réguler la communication et la compréhension. A ces quatre axes il faut ajouter celui des incidences (communicatives et transactionnelles) et celui des répliques. La figure 1 schématise ces six axes du dialogue.

Pourquoi la SDRT pour représenter le dialogue ?

La sémantique formelle, dont le champ d’analyse se limite à la phrase, se heurte à plusieurs problèmes discursifs tels que l’anaphore interphrastique, la portée des quantificateurs, la présupposition. C’est pour pallier ce manque que se sont développées les sémantiques dynamiques. Elles sont basées sur l’idée que l’interprétation du discours est un processus incrémental : l’interprétation de la phrase courante met à jour le contexte courant qui devient le contexte d’interprétation de l’énoncé suivant. Dans ces théories, la SDRT occupe une place importante. C’est une théorie représentationnelle de l’interface sémantique/pragmatique, qui permet de modéliser les interactions entre le contenu sémantique des segments et la structure globale du discours. En SDRT, l’analyse du discours fournit une structure complexe où des segments discursifs sont reliées entre eux par des relations de discours pour former des « Segmented Discourse Representation Structures » ou SDRS. Des SDRS peuvent elles-mêmes être reliées par des relations de discours pour former des structures hiérarchiques. On distingue des relations coordonnantes (simple continuation du discours) et des relations subordonnantes (élaboration, précision : un segment domine l’autre). La SDRS peut se représenter par un graphe, dans lequel les relations subordonnantes sont des arcs verticaux, et les relations coordonnantes des arcs horizontaux.

La structure logique ainsi construite impose des contraintes sur l’attachement d’un nouveau constituant discursif, et sur l’accessibilité des référents du discours. On ne peut accéder qu’aux référents qui dominent le constituant courant, ou au constituant situé immédiatement à gauche. Les relations rhétoriques enrichissent le contenu sémantique.

Sur le plan formel, une SDRS est un couple <U, Cond > où

U est un ensemble de référents discursifs d’actes de langage (étiquettes π de SDRS)

Cond est un ensemble conditions sur les éléments de U

Les conditions sont de la forme :

  • π : K, où K est une SDRS

  • R (π1, π2) où R est une relation de discours (relation rhétorique)

La syntaxe formelle des SDRS est définie ci-dessous (Asher et Lascarides, 2003, section 4.4.1) :

  • soit Ψ un ensemble de formules logiques dynamiques (DRS Discourse Representation Structure) représentant des propositions du langage naturel

  • soit Π un ensemble d’étiquettes (variables propositionnelles π1, π2, etc.)

  • soit ℜ un ensemble de relations binaires (relations de discours R1, R2, etc.)

  • L’ensemble Φ des SDRS bien formées est défini comme suit :

    • ψ ⊆ Φ

    • R(π1, π2) ∈ Φ

    • ∀ ϕ, ϕ‘ ∈ ψ, (ϕ ⋀ ϕ‘)[4], ¬ϕ ∈Φ

Cette définition a pour conséquence la cohabitation de constituants simples et de constituants complexes. Les constituants simples sont des DRS étiquetées, alors que les constituants complexes contiennent eux-mêmes des SDRS reliées par des relations de discours (appelées relations rhétoriques).

Le processus de mise à jour de la structure du discours est un procédé incrémental :

  • construire le constituant logique de la phrase courante (DRS),

  • intégrer ce segment dans le contexte de la SDRS déjà construite :

    • décider quel réfèrent discursif (segment de discours étiquetéπ) peut constituer un site d’attachement,

    • inférer la relation de discours qui relie cette nouvelle DRS à un site d’attachement disponible,

    • mettre à jour la SDRS résultante : résoudre les sous-spécifications sémantiques (anaphores pronominales et associatives, ellipses), introduire de nouveaux segments complexes, intégrer les effets des relations rhétoriques.

En cas d’ambiguïté dans le choix des relations rhétoriques et des sites d’attachement, on privilégie l’augmentation de la cohérence. On maximise la cohérence en maximisant le nombre et la qualité des relations rhétoriques, et en minimisant les sous-spécifications.

En interprétation de dialogue, la construction incrémentale de la SDRS globale (commune aux deux interlocuteurs) modélise efficacement la prise en compte du contexte : rattachement de l’acte courant à l’historique du dialogue, partage des référents, intégration des présuppositions et des données implicites de l’énoncé, construction du savoir commun.

Il n’existe pas de liste définitive des relations rhétoriques. Pour l’analyse des discours narratifs, Asher et Lascarides (2003) proposent les relations suivantes :

  • Narration : relation qui dénote la chronologie sur l’axe spatio-temporel qui relie des événements entre eux (puis, ensuite, etc.). Le topique subsume une narration. « Pierre est venu, puis il est reparti »,

  • Continuation : relation d’énumération (liste, sous-liste, etc.). Le topique oriente et préexiste à une continuation. C’est une description dans un thème (par exemple une description non linéaire d’un tableau « il y a un ange; une madone; le ciel est bleu). Les éléments d’une continuation sont rassemblés sous un même topique,

  • Résultat : relation qui marque l’effet d’une action. « Il pleut; la place est inondée »,

  • Arrière-plan : relation entre états (décor ou monde) et événements (premier plan). Quelque chose existe en fond et un événement se produit en premier plan. Le topique d’arrière plan se lie au topique d’avant plan. « le camion était arrêté; le vélo le percuta ». Ne pas confondre arrière-plan du discours (ici) et arrière-plan des connaissances (pragmatique) ou fonds commun,

  • Parallèle : relation entre deux événements simultanés « Pierre se promène; Paul lit le journal », « Pierre est malade, Marie aussi », thème commun, isomorphisme structurel,

  • Élaboration : relation d’inclusion entre événements ou entre états « la place est carrée; au centre il y a une statue », « le vélo percuta le camion; il arracha le rétroviseur ». Notion de partie/tout. Précision et clarification sont des élaborations,

  • Acquiescement (phatique) : est un maintien du fil de dialogue, ouais, mmh, etc. Ce type d’acquiescement n’est pas une réponse « oui » (ce serait alors une QAP) mais une incitation à continuer le discours, un maintien du canal de communication,

  • Topique : relation qui lie les énoncés se rapportant au même thème. C’est une relation structurelle qui se construit au moment de la mise à jour du discours lors de la formation de constituants complexes (principe de cohérence),

  • Conséquence : une relation qui lie un événement à un état par une relation d’effet « il est tombé; il s’est cassé le bras »,

  • Explication : relation de causalité (voisine parfois avec la précédente mais lie l’événement à un autre événement) « il est tombé; Paul l’a poussé ». Aussi raison de, justification,

  • Contraste : relation qui oppose deux événements ou deux états (souvent marqué par mais) « Pierre est malade; mais pas Marie », isomorphisme structurel,

  • Plan-Élab : des énoncés à valeur actionnelle qui contribuent à faire avancer un plan.

Les relations rhétoriques n’ont pas toutes le même potentiel de cohérence. Une relation Élaboration améliore la cohérence par rapport à Narration; Explication établit un lien qui est plus fort que Arrière-plan. Ces relations peuvent être ordonnées sur une échelle qualitative.

2. Relations rhétoriques (RR)

Un dialogue est constitué d’interventions procédant de différents tours de parole. Il peut y avoir dans ces interventions, des séquences monologiques ou dialogiques. Nous examinons maintenant les relations rhétoriques (RR) à la lumière de ces deux types de séquences. Auparavant nous donnons la liste des relations rhétoriques que nous avons retenue comme pertinente au regard d’une perspective pragmatique en dialogue homme-machine. La définition et la portée de ces relations prendront sens au fur et à mesure de l’exposé, suite aux exemples donnés et à la formalisation complète.

Les familles de RR

Si nous considérons les différents plans du dialogue finalisé nous pouvons considérer les familles de relations suivantes :

  1. L’axe épistémique et son subordonné

    • Les questions-réponses notées QAP : Question Answer Pair, la réponse P est censée fournir une information relativement à la question Q, on distingue aussi dans cette catégorie : PQAP (Partial QAP) et IQAP (Indirect QAP). Ces questions-réponses sont sur l’axe principal (ou régissant) du dialogue et concourent à le faire avancer,

    • Les questions subordonnées Q-Sub : Question Subordination, Ce sont des demandes d’explicitation à propos des connaissances mutuelles. Ces demandes sont dans l’arrière-plan des connaissances des acteurs (et non dans le plan du discours comme les QAP). Les demandes de clarifications, corrections, reformulations, précision, etc. sont dans cette classe. On les notera Q-Sub : clarification, Q-Sub : précision, etc.,

    • Les élaborations de connaissances notées Élab : Élaboration, sont des apports de connaissances mutuelles construites au cours du jeu de dialogue. Ces apports peuvent être faits de multiples façons tant sur l’axe régissant (questions constructives, notées Élabq, assertions par exemple) que sur l’axe subordonné – dans ce dernier cas ce sont les clarifications, corrections, reformulations, précision, etc., nécessaires aux locuteurs pour se comprendre. On les notera Élab : clarification, Élab : correction, etc.,

  2. l’axe actionnel et son subordonné

    • Les délégations d’action notées RAP : Request Answer Pair, est une demande d’action suivie d’action(s) effectives(s) pour tenter de résoudre le but en cours. La notation PRAP indique que la réponse-action est partielle, et IRAP que l’action est indirecte). Ces relations sont dans le plan transactionnel ce que sont les QAP dans le plan épistémique,

    • Les élaborations de plan notées P-Élab : Plan Élaboration, est une contribution à la construction d’un plan conjoint – ce plan devient le cadre d’action qui conduit dans l’esprit des interactants à la résolution du but,

    • Les élaborations de question Q-Élab : Question Élaboration, contribution à la construction d’un plan par une question,

    • Les élaborations de but R-Élab : Action Élaboration, est une contribution à la construction d’un but – ou à la mise en perspective de ce but s’il est déjà posé. Cette transaction sur le but est sur l’axe subordonné,

  3. les axes divergents : incidences et répliques

    • Les incidences notées I : sont des actes qui rompent le topique courant en introduisant un nouveau topique. On distingue les incidences avec retour au topique régissant ou détour et les incidences sans retour, les insultes par exemple. Les détours sont en général des actes constructifs, mais indirectement et non médiatement, pour l’arrière-plan du dialogue,

    • Les répliques notées R : se comportent comme des coordinations fermantes. En effet on ne peut enchaîner que sur une réponse à la réplique ou par un échappatoire (ouverture d’un autre topique). Les répliques permettent cependant de changer les règles du dialogue, de réguler la prise de tour de parole et les échanges, de contester des rôles. Leur effet est de modifier les engagements des interactants. Ce sont des déontiques qui portent sur les règles de la coordination d’actions au niveau du jeu de dialogue (élaboration de tactiques) puisque les règles du jeu sont données comme implicites au départ et ne peuvent être négociées que de cette manière,

  4. Les continuations notées C : sont des actes qui continuent le discours dans le même topique. Les acquiescements (Prévot, 2004) sont des continuations qui ont pour rôle soit de maintenir le fil du dialogue (comme mmh, ouais, etc.) soit de fermer une suite d’énoncés sous un même topique. Les acquiescements ne sont pas des réponses oui/non à des questions.

Les phatiques et méta-discours n’engendrent pas de relations rhétoriques intéressantes pour le DHM. Nous montrerons ci-dessous qu’il est possible de les réduire avant analyse en les plaçant comme des éléments subordonnés pour les conserver simplement comme traces du dialogue.

RR de type dialogique

Ce sont des relations entretenues par deux actes (du locuteur A puis de B) qui sont en relation (attachés au sens de la SDRT) et qui structurent le dialogue.

Définition

Une relation rhétorique dialogique est de la forme Rd=(FAp, FBq). Être en relation ne signifie pas être consécutif (malgré l’apparence donnée par les exemples ci-dessous).

Analyse sur corpus[5]

Nous analysons ci-après la combinatoire des actes de langage : pour chaque couple possible de forces illocutoires, nous caractérisons les relations rhétoriques dialogiques résultantes.

  1. FFSA → FB : FFSA est une demande de renseignement (question) sur l’arrière-plan ou la situation. Le contenu propositionnel de la question est de nature épistémique et non de nature actionnelle. Mais la réponse peut avoir un contenu actionnel (répondre par l’action). La question peut être déniée par B. FFS crée un double engagement de A et de B. On suppose que A pose la question et B fournit une certaine réponse dans la visée de A. Exemples :

    forme: 014498aro003n.png
  2. FFA → FB : FFA est une demande d’action. A propose une action à B et en partage les effets. Cet acte crée un but qui engage A et B. L’acte s’interprète différemment selon la stratégie de A (par exemple en stratégie directive, A veut atteindre son but, en stratégie coopérative ce sera plutôt une invite), mais quoiqu’il en soit cet acte pose un but en arrière-plan. Exemples :

    forme: 014498aro004n.png
  3. FDA → FB : FDA crée une obligation. A impose un but à B sans en assumer les effets. B ne peut donc pas se dérober car ce but devient uniquement le sien, il ne concerne pas A. Le but n’est engageant que pour B. Exemples :

    forme: 014498aro005n.png
  4. FPA → FB : FPA est une invite (conseil, suggestion) ou une offre d’action. Cette offre est formulée sous forme de choix ou de possibilité d’action. Elle ne crée pas de but ni d’engagement pour l’interlocuteur B mais engage A. Exemples :

    forme: 014498aro006n.png
  5. FSA → FB : FSA est une assertion. Le contenu propositionnel de cette assertion est de nature épistémique et non de nature actionnelle. B peut réagir de manière quelconque à cette assertion : soit poursuivre son propre schéma d’action soit poser des questions de précision, de clarification, etc. soit approuver, constater, contester, rectifier, corriger cette assertion, ou asserter d’autres faits. FS n’engage que A qui s’expose donc à toutes les réactions possibles de B. Exemples :

    forme: 014498aro007n.png
  6. FAA → FB : FAA est une action qui a un effet dans la situation. Elle engage bien évidemment son auteur mais non l’interlocuteur qui peut donc la contester, la rectifier, l’annuler, etc. Exemples :

    forme: 014498aro008n.png

Nous synthétisons dans le tableau 2 les relations rhétoriques dialogiques, groupées par couples de forces illocutoires (Acte A, Acte B). L’axe vertical représente la force illocutoire de l’acte A, tandis que l’axe horizontal porte la force illocutoire de l’acte B. Ainsi, la case [2] contient les relations rhétoriques possibles (QAP, PQAP, IQAP, R-Élab) lorsque le locuteur B énonce un Faire faire après un énoncé Faire faire savoir du locuteur A. En grisé, les couples non applicables.

RR de type monologique

Ce sont des relations entretenues par deux actes d’un même locuteur dans un même tour de parole ou non qui sont en relation (énoncés attachés au sens de la SDRT) et qui structurent le discours de ce locuteur dans la situation actuelle de dialogue (ici et maintenant). Elles sont a priori de même nature que dans un texte (Narration, Continuation, Résultat, Arrière-Plan, Parallèle, Élaboration, Précondition, Topique, Commentaire, Conséquence, Contraste, Explication, [Reformulation]) au niveau sémantique.

La reformulation

La reformulation bruite le dialogue en y rajoutant des actes redondants. Nous supposerons que ces actes sont éliminés à l’analyse et n’entrent pas dans la SDRS. Exemple :

A : Est-ce que la salle Lafayette est disponible ? FFSA
B : C’est pour la réserver je suppose ? FFSB
 Oui, elle le sera demain. FSB

Ici (FFSA, FSB) = QAP seulement, on élimine FFSB pour simplifier les traitements ultérieurs. En effet en toute rigueur on aurait :

Tableau 2

Synthèse des relations dialogiques (les relations I ne sont pas incluses)

Synthèse des relations dialogiques (les relations I ne sont pas incluses)

-> Voir la liste des tableaux

Figure 2

La place de la reformulation dans la relation

La place de la reformulation dans la relation

-> Voir la liste des figures

Une répétition est une reformulation stricte. Nous ne traiterons pas non plus des hésitations, reformulations, faux-départs, reprises et auto-corrections propres à l’oral, pour les mêmes raisons. On fera de même avec les acceptations de correction. Par exemple :

A : La salle Lafayette, la bleue
B : Non, vous devez vous tromper, la salle Lafayette est rouge
A : Ah oui, excusez-moi.

Se simplifie en A : « La salle Lafayette, la rouge », sur lequel on attache la suite du dialogue.

Définition

Une relation rhétorique monologique est de la forme Rm = (FAp, FAq). Être en relation ne signifie pas être consécutif (malgré l’apparence donnée par les exemples ci-dessous).

Analyse sur corpus

Nous examinons ci-après la combinatoire des actes de langage, lorsque deux énoncés d’un même locuteur sont en relation. Nous établirons ainsi la typologie des relations monologiques (Rm) dans le cadre du dialogue.

  1. FFSA → FA : FFSA est une question qui crée un double engagement de A et de B (pour B c’est d’y répondre). Le fait que A garde la parole signifie qu’il anticipe sur la réponse ou que il apporte une modification ou une précision. La réponse complète ne peut pas être faite par A (sinon il s’agit d’un dialogue intérieur), FFSA → FSA ne se situe pas dans le cadre QAP. Exemples :

    forme: 014498aro011n.png
  2. FFA → FA : FFA est une demande d’action. A propose une action à B et en partage les effets. Cet acte crée un but qui engage A et B. A peut donc faire un acte qui va dans le sens de cette demande (préciser, expliquer, etc.) ou la faire partiellement ou indiquer le comment la faire (élaboration de plan). Exemples :

    forme: 014498aro012n.png
  3. FDA → FA : FDA crée une obligation, A impose un but à B sans en assumer les effets. B ne peut donc pas se dérober car ce but devient uniquement le sien, il ne concerne pas A. Le but n’est engageant que pour B. Donc A peut s’assurer de cet engagement ou aider B à l’assumer (par des informations complémentaires, des renseignements ou des conseils). Exemples :

    forme: 014498aro013n.png
  4. FPA → FA : FPA est une invite (conseil, suggestion) ou une offre d’action. Cette offre est formulée sous forme de choix ou de possibilité d’action à B. Elle ne crée pas de but ni d’engagement pour l’interlocuteur B mais engage A qui peut donc aider B à faire ce choix. Exemples :

    forme: 014498aro014n.png
  5. FSA → FA : FSA est une assertion. Le contenu propositionnel de cette assertion est de nature épistémique. A peut réagir à sa propre assertion (marquer son engagement, en préciser certains aspects, demander une évaluation à B, poursuivre en affirmant d’autres faits, se corriger, poser des questions de précision, de clarification, etc.). Exemples :

    forme: 014498aro015n.png
  6. FAA → FA : FAA est une action qui a un effet dans la situation. Elle engage bien évidemment son auteur et à ce titre il peut donc la rectifier, l’annuler, marquer son engagement, la prolonger par d’autres actions, demander une réaction évaluative à B, lui demander une collaboration ultérieure, etc. Exemples :

    forme: 014498aro016n.png

Nous synthétisons dans le tableau 3 les relations rhétoriques monologiques groupées selon les couples de force illocutoire. L’axe vertical représente le premier acte énoncé par le locuteur A, tandis que l’axe horizontal porte le second acte du même locuteur.

3. Formalisation des relations rhétoriques

Après avoir fait l’inventaire des types de séquences d’actes possibles, nous classons les relations rhétoriques obtenues.Nous distinguons cinq grands groupes de relations rhétoriques:

  • Les relations du questionnement (a) épistémique : famille des QAP et (b) actionnel : famille des RAP ainsi que (c) dans ces deux plans les questions subordonnées Q-Sub,

  • Les élaborations de connaissances, Élab, et leurs dérivées,

  • Les relations faisant intervenir la planification : élaborations de plan, P-Élab et/ou de but, R-Élab,

  • La continuation, C,

Les répliques R, incidences I, phatiques, méta-discours liés à la gestion proprement dite de la communication ou des rôles.

On peut également classer les relations selon les connaissances mises en jeu pour les inférer :

  • connaissances du domaine, ontologie : QAP, IQAP, PQAP, RAP, IRAP, PRAP, Élabq, Élab, I, C

  • connaissances linguistiques (lexicales, sémantiques) : Élab : explication, Élab : précision, Élab : correction, Élab : clarification, Q-Sub : clarification

  • connaissances de la tâche : Q-Élab, R-Élab, P-Élab

Nous présentons ci-dessous les définitions formelles de chaque relation rhétorique (Kp désigne la formule sémantique associée à p).

Tableau 3

Synthèse des relations monologiques

Synthèse des relations monologiques

-> Voir la liste des tableaux

Sémantique du questionnement

On définit la sémantique des questions en SDRT par[6] :

[[?]]M ([[λx1….λxn P(x1,….xn)]]M) = { [[p]] M :

  1. ∃[[α1]] M ….[[α2]] M tels que [[p]] M = [[α1]] M ….[[α2]] M ([[λx1….λxnP(x1, …xn)]]M) ⋀

  2. [[p]] M

  3. [[ ∃x1, …xn (p ⇒ P(x1, ….xn))]] M

    [[ (p ⇒ ¬∃x1, …xnP(x1, …xn))]] M }

L’opérateur de questionnement ? s’interprète dans le modèle M ([[?]]M) comme une fonction qui à toute paire (monde possible, assignation) associe un ensemble d’extensions de propositions. Ce qui signifie (Asher et Lascarides, 2003, section 7.6.1) qu’une question est représentée par une lambda-abstraction, qui, lorsqu’elle est appliquée sur le segment réponse, fournit une proposition p telle que,

  1. p remplace chaque λ-terme xi par une valeur αi

  2. p est vraie

  3. soitp implique P(x1, …xn) est vraie pour certaines valeurs particulières x1, …xn

    soitp implique qu’il n’existe aucune valeur qui satisfasse P(x1, …xn).

Le prédicat Réponse formalise la notion de réponse résolvante pour une question α : [[Réponse(^Kα, q)]]M) ssi [[q]] ∈ [[(^Kα]][7]

Ce prédicat relie l’intension de la question (ensemble de propositions) avec le terme propositionnel q.

Les relations de question-réponse : QAP, PQAP, IQAP

Pour ces trois relations, le premier acte de la paire est toujours un FFS ; on peut répondre à une question par une assertion ou par une action : FFSA → FSB ou FFSA → FAB

QAP(p, q) : Question Answer Pair (réponse complète)

Réponse(^Kp, ^Kq)

On trouve dans QAP les questions à polarité et les questions à pronoms.

PQAP(p, q) : Partial Question Answer Pair (réponse partielle)

q ⊂ r ⋀ Réponse (^Kp, ^Kr)

IQAP(p, q) : Indirect Question Answer Pair (réponse indirecte)

q ⇒ r ⋀ Réponse (^Kp, ^Kr)

Les questions subordonnées Q-Sub

Ce sont des suites de questions dépendantes, chacune susceptible de recevoir une réponse (la subordination laisse chaque noeud question ouvert). On affine la sémantique de cette relation en distinguant,

  • Q-Sub : clarification (p, q) : question sur partie de p

  • Q-Sub : incidence (p, q) : question ne portant pas sur le contenu de p (ni sur une sous partie de p et n’est pas non plus une élaboration) mais restant dans le même thème. Il s’agit d’un détour dans ce cas et non d’une échappatoire.

Les élaborations de connaissances Élab : clarification, Élab : correction

La relation Élaboration (p, q) met en jeu classiquement une relation partie/tout entre les constituants principaux de Kp et Kq.

On affine ensuite cette relation par les distinctions suivantes :

  • Élabq (p, q) : q est une question élaborant sur le contenu de p (question sur un détail de p)[8]

  • Élab : Explication (p, q) : il existe une relation sémantique d’explication entre p et q. Cette relation sémantique peut être manifestée par des marqueurs lexicaux spécifiques (car, parce que, etc.).

  • Élab : Correction(p, q) : q apporte une correction de la sémantique, par substitution d’une partie de p.

  • Élab : Clarification (p, q) q apporte une clarification ou une précision sur le contenu de p, sans ajouter d’information ou modifier p.

Les délégations d’action RAP, PRAP, IRAP

Ces relations formalisent le questionnement sur le plan actionnel. Le premier acte de la paire est toujours une demande d’action FF ou une offre d’action FP. L’interlocuteur peut y répondre par une action ou par un apport de connaissances servant à préparer cette action : FFA → FAB ou FFA → FSB; FPA → FAB ou FPA → FSB

RAP (p, q) Request Answer Pair

Réponse (^Kp, ^Kq)

PRAP (p, q) Partial Request Answer Pair

q⊂ r ⋀ RAP(p,r)

IRAP (p, q) Indirect Request Answer Pair

q ⇒ r ⋀ RAP(p, r)

Les relations liées à la planification

Les relations Q-Élab, P-Élab, R-Élab sont des relations faisant intervenir un niveau de planification ou de transaction. Leur formalisation fait intervenir

  • le but b associé à l’énonciation p de A,

  • la réponse p’ attendue par A à p,

  • le plan a à mettre en oeuvre pour atteindre le but b,

  • les connaissances mutuelles de A et B, KAB, les connaissances privées de B, KB.

Le locuteur A, cherche à obtenir la connaissance p’ de type « plan » (c’est-à-dire comment faire) à partir de laquelle il pourra atteint une situation où il peut inférer qu’en accomplissant le plan a sous-tendu par p’, il atteindra son but initial b. Ce plan ne peut toutefois être inféré par les connaissances mutuelles de A et B avant la réponse de B (Prévot, 2004 : 225).

Nous utilisons dans la suite le prédicat Exécutable (p) qui dénote une action p exécutable.

On distingue :

Q-Élab (p, q) Question Élaboration

Réponse (^Kq, p’) ⋀ p’ fournit un plan a (ou un sous-plan) qui participe à la résolution du but b associé à p.

R-Élab (p, q) Request Élaboration

b est le but sous-tendu par p, Exécutable(q) ⋀ FAA(q) participe à atteinte (b)

L’exécution de la réponse q fournit à A un but qu’il devra atteindre pour atteindre b.

Plan-Élab (p, q) Plan Élaboration

q constitue un élément du plan a pour atteindre le but b associé à p. q est une assertion.

Pour ces trois relations, Asher et Lascarides (2003) font intervenir le niveau cognitif et la modélisation des buts, plans, croyances et intentions des interlocuteurs. Pour éviter la modélisation des intentions et des croyances nous mettons en instances ces relations à partir du modèle de tâche propre au domaine de l’application, seulement sur les buts et thèmes de l’activité en cours.

La continuation C

C’est une relation coordonnante. Sous sa forme dialogique, lorsqu’elle relie des paires QAP, elle représente l’enchaînement de Q/R coordonnées, c’est-à-dire des séquences Qi/Ri et non des séquences Q1…Qi/R1…Ri. Sous sa forme monologique, elle relie des actes de même type se succédant sur un même thème (énumération par exemple).

Cette relation impose l’introduction d’un topique subsumant les constituants coordonnés.

L’arrière-plan

C’est une relation particulière permettant de « planter le décor » du discours. Nous utilisons la même formalisation qu’Asher et Lascarides (2003). C’est une relation subordonnante.

L’incidence I

Nous ne distinguons pas les différents types d’incidence (incidences ouvertes ou fermées, incidences thématiques, incidences dialogiques, etc.). Dans notre modélisation, les plus intéressantes sont les incidences fermées. Elles sont subordonnantes sous un même topique.

La réplique R

Est considérée comme déni de rôle qui entraîne la fermeture du noeud FA      FB = ¬ FA

Contestation par B de l’acte de A, ou rejet du plan proposé par A (plan-correction en SDRT standard)

Note : Formalisation des effets sémantiques

La SDRT s’intéresse essentiellement aux effets sémantiques des relations c’est à dire l’apport sémantique spécifique porté par la relation. Dans le cadre du dialogue homme–machine finalisé, nous nous focalisons plutôt sur les effets pragmatiques des relations, c’est-à-dire leur impact sur l’avancement de l’action conjointe.

Effets pragmatiques des relations rhétoriques

Chaque relation rhétorique a un effet spécifique sur la structure SDRS, notamment par son influence sur la structure de topique. Le topique est à la fois une relation structurelle, et un constituant discursif qui a pour rôle de rassembler l’information sous-jacente.

  • Pour les relations subordonnantes, le constituant subordonné est le topique de la relation,

  • Les relations coordonnantes (comme C par exemple) introduisent un topique subsumant les constituants reliés : c’est un nouveau constituant composé,

  • Les QAP, RAP introduisent un topique Question. Ce topique recevra le résultat de l’application du segment réponse sur le segment question (Prévot, 2004). Ainsi les ensembles de question/réponse coordonnées relient sous un même topique les topiques Question des paires QAP respectives. En effet, c’est le topique Question qui contient l’information assertée obtenue par application du segment réponse sur le segment question. Dans le cas des réponses enchaînées, le topique Question dominant contiendra l’union des assertions obtenues par application des réponses sur leurs questions respectives,

  • Les Élab (Élabq, Élab : précision, Élab : clarification, Élab:explication …) introduisent un topique subordonné, qui une fois résolu monte dans le topique dominant,

  • Une R ferme le topique

  • Une I reste dans le même topique (avec la restriction sur les types d’incidences signalée plus haut).

Nous illustrons ci-dessous la structure de topique dans trois cas différents d’enchaînements de questions.

Figure 3

SDRS du dialogue 1 : enchaînement de Q/R

SDRS du dialogue 1 : enchaînement de Q/R

-> Voir la liste des figures

Figure 4

SDRS du dialogue 2 : questions subordonnées

SDRS du dialogue 2 : questions subordonnées

-> Voir la liste des figures

Figure 5

SDRS du dialogue 3

SDRS du dialogue 3

-> Voir la liste des figures

Nous utilisons le topique comme élément essentiel de structuration des échanges : lors de la phase de mise à jour de la structure, nous remontons dans le topique l’ensemble des référents et prédicats établis dans la sous-structure sous-jacente (après résolution des anaphores, et prise en compte des présuppositions). Au fil du dialogue, la SDRS globale se constitue ainsi par établissement progressif de topiques de niveau de plus en plus élevé (union des éléments coordonnés, ou remontée des éléments subordonnés), jusqu’au topique dominant, constitué de l’ensemble de l’information établie par les participants.

Exemple de structuration d’un dialogue

Soit le court dialogue téléphonique suivant :

Il se modélise par la structure présentée Figure 6[9] :

Figure 6

Construction de la SDRS du dialogue 4

Construction de la SDRS du dialogue 4

-> Voir la liste des figures

  • Les segments π2, π3 sont liés par IQAP (réponse indirecte) ce qui suppose qu’il faut faire l’inférence que jeudi et vendredi font partie de la semaine prochaine. La mise à jour de IQAP (π2, π3) déclenche alors l’introduction du topique question T1. π3 accédant à π2 permet la résolution de l’anaphore pronominale elle. Le topique T1 contient ainsi l’assertion « La salle Apollinaire est disponible jeudi et vendredi de la semaine prochaine. »,

  • π4 est un acte à potentiel ouvrant (FF) et il pose un nouveau thème (réservation). π4 se lie au topique T1 par Continuation; l’insertion de cette relation déclenche alors l’introduction du topique T2 dominant le constituant complexe π*14 formé par C (T1, π4),

  • π5 se liant à π4 par Élabq (Élaboration par question) déclenche l’introduction d’un topique Question T3 dominant Élabq 4, π5). La résolution de π4 par un segment réponse est « reportée » à celle de π5,

  • π6 se liant à π5 par QAP reste sous le même topique T3. La résolution obtenue par Kπ6 (Kπ5) remonte dans le topique T3,

Dans la structure finale le topique T2 contient la réunion des référents et prédicats établis dans les deux topiques qu’il domine, T1 et T3.

Discussion

Pourquoi conserver les actes de langage et utiliser le formalisme de la SDRT ? Pour les trois raisons suivantes : (a) un acte de langage existe en dehors de tout contexte et hors de toute relation de discours, (b) un acte a une existence en-soi car la pragmatique est première, il peut d’ailleurs être identifié à l’aide des marqueurs pragmatiques et des structures syntaxiques (Colineau, 1997), (c) l’acte a un double effet, résolvant d’une part et projectif de l’autre (Xuereb et Caelen, 2005). Il nous semble ainsi plus légitime de « calculer » les relations rhétoriques à partir d’une paire d’actes de langage que de les calculer à l’issue de considérations sémantiques.

Détaillons quelques arguments pour cette discussion :

  1. Un acte est un « coup » dans le jeu,

  2. La pragmatique est première, l’acte a donc une valeur en-soi,

  3. Une partie de l’acte de langage se rattache à la SDRS l’autre partie est posée comme hypothèse pour conserver l’aspect projectif.

Le moment du dialogue est un facteur spécifique à prendre en compte en plus du contexte et de l’arrière-plan des connaissances. Par exemple :

E1 : (Allô) / Je suis Paul Dupont

Le locuteur E1 se présente dans ce cas spontanément pour se faire identifier. Il a l’intention de demander un service. On est en ouverture de dialogue. Les présupposés sont ici que celui qui parle est bien une personne et celui qui se nomme, les implicatures[10] sont qu’il se présente et qu’il est connu de son interlocuteur et le topos est qu’il est membre de droit d’un certain service qu’il va certainement demander (effet projectif).

E2 : Je suis Paul Dupont / (vous savez bien)

E2 dans ce cas se présente pour affirmer ou confirmer son identité ou lever un doute. On est dans une phase de négociation et non plus dans l’ouverture, l’énoncé prend ici valeur d’argument. Les présupposés sont donc que les droits du locuteur sont peut-être mis en doute par son interlocuteur, les implicatures sont que la personne s’affirme sincère et le topos est un argument pour revendiquer ces droits, l’effet projectif est de conclure la négociation.

Ces deux exemples montrent à l’évidence que FSU (nom(U)) = je suis Paul Dupont prend un sens différent selon le contexte dialogique. De FS(nom(U))/Ouverture on peut déduire que U se présente et de FS(nom(U))/Négociation que U prouve son identité. Cela montre que la représentation du dialogue doit contenir d’autres informations pragmatiques que celles venant strictement des énoncés, mais aussi du contexte dialogique lui-même.

La séparation de l’axe des connaissances de celui de l’action n’est jamais totale, notamment dans le cas des connaissances de sens commun. Dans l’exemple :

A : Peut-on se voir la semaine prochaine ?
B : Es-tu libre mardi ?

On peut considérer que A planifie un rendez-vous et que B se place dans un cadre professionnel pour poser sa question qui va dans le sens du but qu’il présuppose pour A, mais on peut considérer aussi que mardi est tout simplement un jour de la semaine prochaine où B est libre sans présupposer un quelconque plan pour A. Il est évident que selon l’interprétation choisie nous aurons soit Q-Élab soit Élabq comme relations rhétoriques possibles.

On remarquera une certaine symétrie entre les RR sur ces deux axes :

Tableau 4

Synthèse des relations rhétoriques

Synthèse des relations rhétoriques

-> Voir la liste des tableaux

Les paires Questions/Réponse se situent dans le plan des connaissances (QAP) ou dans le plan des actions (RAP). Aux élaborations sur le plan des connaissances (Élab, Élabq) correspondent les élaborations de plan d’action ou de buts (P-Élab, R-Élab).

Simulation

Le système a été expérimenté pour une application de réservation de salle dans laquelle il y a de fréquents conflits de ressources (Nguyen, 2005). La ressource partagée est un agenda de salles de réunion. On a obtenu le type de dialogue suivant :

On remarque dans le déroulement de ce dialogue que la machine n’a pas de vocation à négocier elle-même en se substituant à l’un quelconque des intervenants. Elle choisit une stratégie d’appel des patients puis leur présente le problème qu’ils sont requis de résoudre eux-mêmes. L’exemple donné ici est simplifié dans la mesure où le conflit est résolu assez simplement. Il est facile d’en imaginer de plus complexes. Cependant on notera ici que Dupont a été sollicité en premier parce que son espérance d’acceptation est supérieure à celle de Dupin du fait des relations hiérarchiques qu’il entretient avec Dupont. Il fait une concession telle que le gain de reporter sa réunion devient supérieur à celui de la maintenir. Quant à Dupuis, il ne fait pas vraiment de concession, le gain qu’il a de changer de salle augmente car le gain conjoint avec Dupont augmente.

Ce petit exemple ne montre pas non plus les effets de « ricochet » qui ne manquent pas de se produire souvent, lorsque par exemple Dupuis répond à la machine « n’y a-t-il pas une autre solution ? » ou « pouvez-vous demander à Monsieur Dupin d’abord ? », etc. D’autres effets en chaîne peuvent également se produire lorsque les intervenants répondent par « je suis d’accord à condition que… »; cela nécessite de traiter la condition d’abord avant de revenir dans le dialogue. Le traitement de cette condition peut d’ailleurs être fort complexe et nécessiter à son tour l’intervention de plusieurs participants.

Actuellement le système ne prend pas en compte ces difficultés. La machine recueille les informations et conditions et les présente au demandeur qui prend une décision lui-même puis confie éventuellement un deuxième tour de négociation à la machine.

Le système a été programmé et un démonstrateur est opérationnel. C’est un premier pas vers un système de dialogue à plusieurs partenaires et à initiative partagée car il ne s’agit encore que d’un système qui règle les tours de parole entre plusieurs intervenants et qui contrôle les contacts en cas de conflit. Le système est bien adapté aux portails vocaux dont l’accès aux ressources est concurrent. Il permet de gérer les ressources partagées comme les réservations de salles de réunion, les prises de rendez-vous, etc. Ce modèle de gestion de la négociation des tours de parole est relativement indépendant du modèle de tâche. Il travaille seulement sur l’état du but de dialogue et il permet donc de séparer le gestionnaire de dialogue du gestionnaire de la tâche, c’est-à-dire le quoi et le comment.

Conclusion

Figure 7

Notre position quant à la relation homme-machine

Notre position quant à la relation homme-machine

-> Voir la liste des figures

Ce schéma symbolise le fait qu’un acte Fn-1 produit par un locuteur devient un interacte, dès que l’autre interlocuteur a produit à son tour l’acte Fn en réaction à Fn-1: cet interacte, constitué par ce couple (Fn-1, Fn) comble en totalité ou en partie les attentes de Fn-1 et projette sur le futur un certain but où instaure des connaissances partagées que l’acte suivant Fn+1 devra prendre en compte. Les relations rhétoriques (RR) définies dans la SDRT lient l’acte courant au passé en résolvant les liens ouverts. Les effets, au contraire, ouvrent de nouveaux liens en posant des attentes pour l’acte suivant. De ce point de vue, la SDRT modélise bien ces effets dans lesquels un acte a un double potentiel à la fois résolvant et ouvrant. La composante résolvante se rattache préférentiellement sur des noeuds ouverts de la SDRS en cours, tandis que la composante ouvrante pose une nouvelle attente potentielle éventuellement dans un topique (qu’il reste encore à modéliser plus finement que ne le décrit l’article). Cette double fonction est basée sur la force illocutoire et la sémantique du contenu propositionnel de l’acte — par exemple un FFS attaché par une relation d’élaboration Élabq à une question antérieure portera un potentiel fermant (il participa à la résolution de la question principale) et un potentiel ouvrant (cette résolution ne sera effective qu’après obtention de la réponse à ce FFS). D’un point de vue opératoire c’est dans la structure de topique que se met en instance le processus dynamique de l’interprétation.

Ainsi la SDRT offre un cadre de modélisation riche pour le dialogue homme-machine. La gestion des thèmes (constitutifs la tâche) et des topiques (inférés dans la phase de mise à jour de la SDRS) reste dans nos perspectives prochaines de développement.