1 Représentation syntaxique profonde

Nous avons défini notre schéma d’annotation en syntaxe profonde en partant du schéma d’annotation en dépendances de surface du corpus Sequoia, ce qui a eu une influence certaine sur le résultat. Nous commençons donc par détailler comment le schéma de surface a été lui-même défini, avant de détailler pour la représentation syntaxique profonde, les choix théoriques réalisés, ses caractéristiques formelles, les notations utilisées. Nous terminons cette section par une synthèse des informations explicitées au niveau de la syntaxe profonde.

1.1 Le schéma d'annotation en dépendances de surface

  • le corpus Sequoia a été annoté d’abord en arbres de constituants, en suivant très largement le schéma d’annotation du French Treebank (ci-après FTB) (Abeillé et Barrier, 2004), en utilisant les guides d'annotation disponibles (Abeillé, 2004; Abeillé et al. 2004).
  • Le corpus en constituants a ensuite été converti automatiquement en dépendances de surface, en suivant la procédure décrite dans (Candito et al., 2010). Il s'agit d'une procédure fondée sur la définition pour chaque règle de réécriture syntagmatique XP -> X1 X2 ... Xn d'un élément tête dans la partie droite de la règle. Lors de la conversion en dépendances les têtes lexicales des constituants Xi non têtes sont rattachés à la tête lexicale du constituant tête. Par exemple, pour la règle NP -> DET ADJ N PP, l'élément tête dans la partie droite est le noeud N. Les têtes lexicales du DET, de l'ADJ et du PP sont ajoutées comme dépendant de la tête lexicale du N. Les labels de dépendance utilisés sont
    • repris des arbres en constituants, dans le cas où les fonctions grammaticales sont présentes. En effet le schéma en constituants du FTB prévoit pour les dépendants de verbes conjugués de noter les fonctions. Ainsi on aura une règle de la forme Sint -> NP-SUJ VN NP-OBJ PP-A_OBJ.
    • ou bien prédits par heuristiques dans tous les autres cas
  • Il est important de noter que les arbres de dépendances résultants suivent ainsi très largement les choix linguistiques du FTB (Abeillé et al., 2004; Abeillé, 2004), dans la mesure où la majorité des phénomènes syntaxiques sont mécaniquement traduits en dépendances. Des informations supplémentaires sont cependant prédites par la procédure de conversion, en cas de sous-spécification dans la version en constituants (c’est le cas pour les étiquettes de dépendances pour les dépendants de gouverneurs non verbaux). (cf. le guide Candito, Crabbé et Falco, http://alpage.inria.fr/statgram/frdep/Publications/FTB-GuideDepSurface.pdf)
  • Enfin, les dépendances longue distance ont été corrigées manuellement (Candito et Seddah, 2012a) dans les arbres de dépendance obtenus par conversion automatique, ce qui a introduit quelques arcs non projectifs. Par exemple, à la conversion de l’arbre syntagmatique de « ... le succès que la municipalité était en droit d’attendre », le pronom relatif objet que est mécaniquement rattaché à tort comme dépendant de était, et manuellement corrigé pour dépendre de attendre.

Le schéma d’annotation de surface résultant est notre point de départ. Nous avons cherché, pour des raisons pragmatiques, à minimiser les divergences entre les niveaux surfacique et profond, pour nous concentrer sur les phénomènes non directement représentables dans les arbres de surface. Aussi, par exemple, avons-nous conservé la réprésentation des coordinations avec le premier conjoint comme tête. La distinction entre les dépendants partagés par plusieurs conjoints et les dépendants du seul premier conjoint est faite en dépendances profondes, en "distribuant" (répétant) les arcs de dépendances sur les différents conjoints (voir Section 13).

1.2 Choix théoriques pour les dépendances profondes

L’objectif principal de nos représentations syntaxiques profondes (REPRSYNTPROF dans la suite) est de généraliser sur la variation syntaxique autant que possible sans faire de distinctions ni de généralisations purement sémantiques.

Nous utilisons pour cela la notion de sous-catégorisation canonique et représentons les changements de diathèse comme des redistributions des fonctions grammaticales sous-catégorisées par un lexème. Nous inspirant de la Grammaire Relationnelle (Perlmutter, 1983), nous distinguons fonction grammaticale canonique et fonction grammaticale finale d’une part, et cadre de sous-catégorisation canonique (CS canonique) et cadre de sous-catégorisation final (CS final). [footnote: La grammaire relationnelle utilise les termes de fonction initiale et finale].

1.2.1 Cadre de sous-catégorisation final

Définissons d’abord la notion de cadre de sous-catégorisation final pour un verbe : elle contient

  • d’une part les fonctions observées associées aux arguments exprimés du verbe,
  • et d’autre part, dans le cas d’ellipse et/ou de verbes non conjugués, les fonctions des éléments qui seraient des arguments du verbe si celui-ci était conjugué et utilisé sans ellipse.

Cette formulation permet de faire entrer dans le CS final par exemple le sujet (final) des infinitifs, le sujet (final) des participes épithètes, le sujet de verbes coordonnés ou plus généralement tout argument partagé par plusieurs prédicats. Par exemple, dans « Anna veut dormir, mais devra peut-être veiller », le CS final de dormir est [sujet] rempli par Anna, et le CS final de devra est [sujet, objet], rempli par Anna et veiller.

Entrent également dans le CS final l’élément modifié par un participe épithète : par exemple pour « les personnes nées en 40 », le nom personnes est la tête du sujet final de nées.

1.2.2 Cadre de sous-catégorisation canonique

Passons maintenant à la définition précise de la sous-catégorisation canonique. Afin de neutraliser la variation syntaxique due aux changements de diathèse, nous considérons ceux-ci comme des redistributions des fonctions canoniques associées aux arguments syntaxiques.

Suivant la Grammaire Relationnelle (Perlmutter, 1983), le CS final est vu comme résultant de l’application de 0 à n redistributions sur un CS canonique. Etant donnée une occurrence de verbe, le CS canonique peut donc par définition être obtenu par application inverse des redistributions appropriées. Un exemple simple est le cas d’un verbe au passif dont le CS final est [SUJET, PAR-OBJET] et le CS canonique est [SUJET, OBJET].

Redistributions

Pour définir nos REPRSYNTPROF, nous n’avons considéré que les redistributions qui comportent un marquage morpho-syntaxique (typiquement l’auxiliaire pour le passif, ou le clitique sémantiquement vide se pour les alternances moyennes et neutres). Les alternances syntaxiques sans marquage morpho-syntaxique ne sont pas capturées au sein de nos REPRSYNTPROF, et donnent lieu à des CS canoniques différents. En effet, repérer ces alternances, en l’absence de marquage formel, relève pour nous de l’analyse sémantique. C’est le cas par exemple avec une alternance causative/inchative comme X coule Y / Y coule : on considère la sous-cat canonique [SUJET, OBJET] pour X coule Y, et la sous-cat canonique [SUJET] pour Y coule : l’argument sémantique « l’entité qui coule » est donc tantôt sujet canonique, tantôt objet canonique.

En revanche, pour l’alternance moyenne (par exemple dans « On avale facilement ce médicament / Ce médicament s’avale facilement ») ou bien l’alternance neutre (qui “efface” l’actant agentif ou causal, comme dans « Cela dissout le médicament / Le médicament se dissout (de lui-même) »), qui sont toutes deux marquées par le clitique "se", le lien entre les deux formulations est capturé par redistribution, et pour ces deux alternances, l’objet direct dans la version transitive (médicament) est, dans la version intransitive, le sujet final mais l'objet canonique.

Nous retenons comme redistributions : le passif, l’impersonnel, le moyen, le neutre et le causatif (Section 3), certaines pouvant interagir. Nous renvoyons à (Candito, 1999) pour une étude des interactions entre redistributions pour le français.

Arguments syntaxiques canoniques versus arguments sémantiques

On rajoute la contrainte que les éléments du CS canonique, appelés arguments syntaxiques canoniques, sont obligatoirement sémantiquement pleins. Typiquement le il explétif n’appartient qu’au CS final. Donc dans l’exemple « Trois personnes arrivent », à partir du CS canonique [SUJET], la redistribution de l’impersonnel rétrograde le sujet en objet direct, et un il explétif remplit la fonction sujet final : on considère que dans « Il arrive trois personnes » le verbe a pour CS canonique [SUJET] et pour CS final [SUJET,OBJET].

Mais les arguments syntaxiques canoniques, même s'ils sont sémantiquement pleins, ne sont pas forcément des arguments sémantiques de leur gouverneur, ce qui constitue une différence avec une représentation sémantique.

Ainsi par exemple, on conserve dans nos REPRSYNTPROF les sujets des verbes à montée : dans "Paul semble dormir" on a en représentation profonde la sous-catégorisation [SUJ, OBJ] pour sembler (remplie par Paul et dormir), alors que sémantiquement semble n'a qu'un seul argument. De la même manière, les attributs restent rattachés à leur verbe (même si on explicite le lien prédicatif entre le sujet et l'attribut du sujet / entre l'objet et l'attribut de l'objet). On a également pour les constructions avec adjectifs à "tough movement" une divergence entre syntaxe profonde et sémantique (cf. Section 9.1.2).

1.2.3 Une double distinction : final/canonique versus surface/profond

Nous avons volontairement fait deux distinctions différentes : représentation profonde versus de surface, et fonction grammaticale finale versus canonique : le point ici est que l'on évite de parler de « fonction de surface » versus « fonction profonde », car les changements de diathèse peuvent interférer avec le caractère profond / surfacique d'une dépendance.

Cela nous est utile pour capturer certaines régularités syntaxiques, comme par exemple celle concernant le contrôle des sujets des infinitifs : pour un infinitif, quelle que soit sa diathèse, c'est toujours le sujet final de l'infinitif qui est non réalisé localement à l'infinitif. Ainsi, dans (1) Paul veut embaucher , on veut capturer en dépendances profondes que Paul est sujet de embaucher. Et pour (2) Paul veut être embauché, idem, on a la régularité que Paul est sujet de (être) embauché, pour peu que l'on précise bien qu'il s'agit du sujet final. En interagissant avec le passif, on obtient de manière régulière que dans (2) le sujet final de être embauché est son objet canonique.

Or la relation entre un infinitif et son sujet (final) est l'exemple par excellence d'une dépendance profonde, en ce sens qu'elle ne peut pas être représentée dans un arbre de dépendances de surface (cf. ce sujet a alors 2 gouverneurs). Pour éviter de parler de fonction de surface pour une dépendance uniquement profonde, on utilise donc plutôt le vocabulaire fonction finale versus fonction canonique.

A noter que l'on retrouve la même régularité pour tous les verbes non conjugués. Ainsi pour un participe épithète, le nom modifié par le participe en est systématiquement son sujet final, pour peu que l'on traite les participes passés de transitifs comme des passifs. On a alors les cas :

  • participe présent actif : les enfants demeurant côté pair de la rue sont sectorisés au collège Bellevue => "enfants" est sujet final (et canonique) de "demeurant"

  • participe présent passif : les enfants étant déjà inscrits au CP => "enfants" est sujet final (et objet canonique) de "inscrits"

  • participe passé transitif (considéré comme un passif) : les enfants déjà inscrits au CP => idem "enfants" est sujet final (et objet canonique) de "inscrits"

  • participe passé intransitif (considéré comme un actif) : les personnes nées en 62 ont aujourd'hui ... => "personnes" est sujet final (et canonique) de "nées"

A l'inverse, certaines régularités d'ordre sémantique se trouvent naturellement représentées en utilisant les fonctions canoniques et pas finales. C'est le cas de la propriété lexicale pour un verbe à contrôle de définir quel est le dépendant contrôleur de l'infinitive (quel est le dépendant qui est le sujet final de l'infinitive). Par exemple, avec le verbe contraindre, c'est l'argument sémantique "celui qui est contraint" qui est le sujet final de l'infinitive, cet argument étant l'objet canonique de contraindre. Ainsi, quelle que soit la diathèse de contraindre, c'est son objet canonique qui est le sujet final de l'infinitive.

Paul est contraint à partir

Le vote contraint Paul à partir

1.2.4 Extension aux adjectifs

Outre les verbes, nous traitons dans nos annotations les adjectifs, auxquels la notion de sous-catégorisation peut être étendue, mais sans distinction entre final et canonique (la sous-cat finale est toujours identique à la sous-cat canonique).

Pour un adjectif, on définit son argument syntaxique profond premier comme l'élément modifié par l’adjectif lorsque celui-ci est épithète. On parle alors de « sujet de l’adjectif ». Cette dénomination emprunte au vocabulaire syntaxique, pour faire une analogie avec les prédicats verbaux, bien que ce « sujet » ne soit jamais en surface un dépendant syntaxique de l’adjectif.

Donc par exemple pour l’adjectif content, on considère la sous-cat canonique [SUJET, DE_OBJ], et dans Paul est content de toi, le sujet canonique est "Paul", et le DE_OBJ est "toi".

A ce jour, le travail reste à faire pour les autres catégories de prédicats, en particulier les noms.

1.3 Caractéristiques formelles

Nous définissons une représentation complète comme un graphe de dépendances contenant à la fois la représentation de surface et la représentation profonde.

Les nœuds sont les mots de la phrase (ou des composants de composés réguliers), et sont typés comme sémantiquement vides (en rouge dans la figure) ou pleins (en noir) [footnote : une version avec ajout de nœuds non réalisés pour gérer certaines ellipses de prédicat est envisagée mais pas encore implémentée]

L'ordre linéaire de la phrase est encodé par un identifiant sur les nœuds, de type entier, local à chaque phrase (par convention le premier mot de chaque phrase reçoit l'identifiant 1).

Les arcs orientés entre les noeuds portent :

  • – une information sur leur appartenance à la REPRSYNTSURF ou pas, et leur appartenance à la REPRSYNTPROF ou pas : un arc peut être surfacique mais non profond (arcs rouges), profond mais non surfacique (arcs bleus), et à la fois profond et surfacique (arcs noirs) ;

  • – une étiquette qui est constituée soit d’une seule fonction, à la fois finale et canonique, pour les fonctions n’intervenant jamais dans des changements de diathèse (comme la fonction mod), soit de la fonction finale et de la fonction canonique (dans toute la suite, une étiquette notée “fff:ccc” correspond à la fonction finale fff et la fonction canonique ccc).

La REPRSYNTPROF pour une phrase donnée est formée des nœuds sémantiquement pleins et des arcs profonds, qu'ils soient par ailleurs aussi présents en surface (arcs noirs) ou pas (arcs bleus). En outre dans les étiquettes des dépendances, seules les fonctions canoniques sont conservées en représentation profonde.

Formellement, alors que la représentation en dépendances de surface est un arbre, la REPRSYNTPROF est un graphe orienté, cf. un même élément peut avoir plusieurs gouverneurs.

Le graphe peut contenir des cycles. En outre le graphe peut contenir des arcs multiples (un même couple gouverneur / dépendant peut être relié par plusieurs arcs de même orientation mais d’étiquettes différentes), ce qui apparaît essentiellement dans la gestion du réfléchi (cf. Section 4.2.6).

NB : étant donné le caractère intermédiaire de la représentation, entre syntaxe de surface et représentation sémantique, on obtient des dépendances de statuts assez différents. En particulier, on conserve toutes les dépendances de type modifieur, y compris dans le cas où on explicite la dépendance inverse (donc par exemple pour les longues phrases, on conserve mod(phrases, longues) et on ajoute suj(longues, phrases)). C'est la source principale de cycles dans la REPRSYNTPROF, avec également le court-circuitage des pronoms relatifs dans les relatives épithètes.

NB: Le schéma d'annotation n'impose pas la projectivité, i.e. la projection d'un nœud (l’ensemble formé du nœud lui-même et des nœuds qui en dépendent directement ou indirectement) peut correspondre à un segment discontinu de la phrase.

1.4 Notations et représentation graphique

On utilise dans les exemples soit une représentation graphique soit, plus rarement, une notation en triplet etiquette(gouverneur, dépendant)

Dans le cas des fonctions qui n'entrent jamais dans des changements de diathèse, etiquette correspond à une fonction simple.

Pour les fonctions entrant dans des changements de diathèse (suj, obj, a_obj, de_obj, p_obj.agt), l'étiquette a deux parties séparées par « : » fct_finale:fct_canonique (gouverneur, dépendant).

Le statut dépendance profonde / dépendance de surface est indiqué via une couleur :

  • dépendance uniquement de surface en rouge (à ignorer pour la représentation profonde)

  • dépendance surfacique et profonde en noir

  • dépendance uniquement profonde en bleu

En outre, dans la représentation graphique, les mots sémantiquement vides (n'appartenant pas à la représentation profonde) sont en rouge.
Exemple représentation complète (i.e. surfacique + profonde) :

  1. Paul veut être photographié par le paparazzi
La représentation syntaxique profonde s'obtient en ne conservant que les nœuds noirs, les arcs noirs et les arcs bleus, et en ne conservant que les fonctions canoniques en cas de double étiquette fct_finale:fct_canonique. Cela donne pour l'exemple 1 :

Le présent guide est centré sur la représentation syntaxique profonde, mais celle-ci étant définie en partant d'un schéma de représentation en dépendances de surface (cf. supra), une bonne part des exemples est fournie en donnant à la fois la représentation de surface et la représentation profonde (cf. supra "la représentation complète"). En outre, on fournit en plus des fonctions canoniques les fonctions finales lorsque c'est pertinent (bien que les fonctions finales n'appartiennent pas stricto sensu à la représentation profonde).

1.5 Synthèse des différences par rapport à la représentation syntaxique de surface

La représentation syntaxique profonde est définie par le fait de rendre explicite les informations suivantes :

  • statut sémantique : on explicite le statut sémantique (vide / plein) de chaque forme fléchie de la phrase. Seules les formes sémantiquement pleines sont conservées dans la représentation syntaxique profonde

  • diathèse et sous-catégorisation canonique des verbes et des adjectifs : on explicite les changements de diathèse : les verbes utilisés dans une diathèse non canonique porte un trait diat indiquant le type de redistribution (passif, impersonnel etc...), et les arguments syntaxiques profonds des verbes et des adjectifs sont identifiés et leur fonction canonique est explicitée.

    • Cela inclut l’explicitation du sujet (final) des infinitifs et des participes, lorsqu’il est interprétable au sein de la phrase (qu’il s’agisse de contrôle obligatoire ou arbitraire)
    • le « sujet » canonique d’un adjectif est l’élément que l’adjectif modifie lorsqu’il est épithète
    • on explicite donc la relation prédicative entre le sujet et l’attribut du sujet (respectivement l'objet et l'attribut de l'objet), dans le cas d’un attribut adjectival
    • par extension, on fait la même explicitation dans le cas d’attributs prépositionnels ou adverbiaux (pour les noms ce sera à intégrer lorsque la sous-catégorisation des noms sera traitée)
  • la diathèse, le mode, le temps et la voie verbale sera explicitée sur le verbe final du nucléus verbal (le participe, ou l’infinitif en cas de causatif)

  • les relations anaphoriques syntaxiquement déterminables (pronoms relatifs) sont résolues : pour les relatives épithètes, le pronom relatif est considéré comme sémantiquement vides, et ses dépendances sont reportées sur son antécédent

1.5.1 Court-circuitage des marqueurs grammaticaux sémantiquement vides

Dans la représentation profonde visée, les mots sémantiquement vides ne portent aucune dépendance. En particulier :

  • la dépendances portée au niveau intermédiaire par une préposition régie pointe au niveau profond vers l’objet de la préposition

  • la dépendances portée au niveau intermédiaire par le complémenteur que introduisant une phrase pointe au niveau profond vers la racine de cette phrase (v fini)

  • la dépendances portée au niveau intermédiaire par le complémenteur à ou de introduisant une infinitive pointe au niveau profond vers l'infinitif (attention, ces complémenteurs sont codés comme des prep, ils sont repérés car ils portent une dépendance "obj" vers leur gouverneur, et pas a_obj ou de_obj)

  • la dépendance entre le pronom relatif et le verbe d’une relative adnominale est déplacée au niveau profond sur le nom modifié par la relative

  • dans une clivée, la dépendance portée par le que ou qui introduisant la subordonnée est déplacée au niveau profond vers le foyer de la clivée

  • la dépendance du clitique réfléchi se (en cas de vrai réfléchi ou réciproque) est transférée au niveau profond vers :

    • dans le cas général, l’élément qui est sujet canonique

    • sauf dans le cas d’un clitique réfléchi sur auxiliaire causatif faire, auquel cas la dépendance pointant vers le clitique réfléchi est transférée sur l’argument causateur (par exemple pour Paul fait se coiffer Pierre : la dépendance objet portée par le réfléchi au niveau intermédiaire, est remplacée par une dépendance objet pointant sur Pierre, qui est objet final, mais sujet canonique de coiffer. En revanche pour Paul se fait coiffer par Pierre, la dépendance objet portée par le réfléchi est remplacée par une dépendance objet pointant sur Paul qui est sujet final, mais a pour fonction canonique argc.

On obtient ainsi une représentation relevant en partie de la sémantique, mais où sont absentes toutes les informations de portée, les informations de coréférence non déterminables syntaxiquement et les informations de structure informationnelle. L’intérêt d’une telle représentation est de préparer l’analyse sémantique en donnant accès aux structures argumentales.