0 Introduction

Ce guide décrit le schéma d'annotation en dépendances profondes utilisé pour l'annotation en syntaxe profonde du corpus Sequoia initialement annoté en syntaxe de surface (Candito et Seddah, 2012a). Cette annotation profonde est un projet commun aux équipes INRIA Alpage et Sémagramme. Le corpus résultant est librement disponible, téléchargeable et visualisable en ligne (http://deep-sequoia.inria.fr/fr/).

Contact : sequoia@inria.fr

Les corpus annotés en dépendances syntaxiques présentent un intérêt croissant par rapport aux corpus annotés en syntagmes dans la mesure où ils permettent plus directement d’extraire les relations prédicat-argument constitutives d’une représentation sémantique. Cette extraction reste cependant non triviale, la syntaxe offrant une grande variabilité dans la façon d’exprimer ces relations.

Nous proposons un niveau de représentation syntaxique dit profond, qui puisse être considéré comme une représentation intermédiaire avant une représentation sémantique.

Dans la représentation profonde, nous ne retenons que les mots sémantiquement pleins (faisant ainsi une distinction d'ordre sémantique) mais les dépendances entre ceux-ci restent étiquetées par des fonctions grammaticales (et pas par exemple par des rôles sémantiques ou une simple numérotation des actants sémantiques).

Il s'agit de neutraliser certaines variations syntaxiques. On limite les distinctions de représentation qui ne relèvent que de la sémantique (en particulier, la distribution de dépendances dans le cas de prédicats coordonnés n'est faite que si elle est sémantiquement pertinente).

0.1 Résumé des différences par rapport à la syntaxe de surface

On peut schématiquement distinguer trois explicitations principales par rapport à la syntaxe de surface:

0.1.1 Neutralisation des changements de diathèse

Les changements de diathèse sont neutralisés : les sous-catégorisations verbales observées en surface sont considérées comme le résultat de redistributions à partir de sous-catégorisations considérées comme canoniques et ce sont les fonctions grammaticales canoniques qui sont représentées au niveau profond. Les arguments sous-catégorisés portent ainsi une fonction grammaticale finale et une fonction grammaticale canonique, et les deux peuvent différer (voir Section 1.2).

0.1.2 Suppression des marqueurs grammaticaux sémantiquement vides

On explicite le statut sémantique (vide / plein) de chaque forme fléchie de la phrase. Seules les formes sémantiquement pleines sont conservées dans la représentation syntaxique profonde (voir section 2.1.2 pour la liste exhaustive).

  • si le mot sémantiquement vide n'a pas de dépendants en surface, alors il est simplement ignoré (et la dépendance qui le lie en surface à son gouverneur n'est pas conservé au niveau profond. C'est par exemple le cas pour les auxiliaires de temps.
  • si le mot sémantiquement vide a des dépendants en surface, comme par exemple l'objet d'une préposition régie, on dit alors qu'il est "court-circuité" : ses dépendants en surface sont reportés en profond sur son gouverneur. Par exemple pour une préposition régie à dans "Anna parle à Paul", on a en surface une dépendance entre "parle" et "à", et une dépendance entre "à" et "Paul", alors qu'au niveau profond on ne conserve qu'une dépendance directement entre "parle" et "Paul".

0.1.3 Ajout de dépendances

  • la dépendance entre un verbe non conjugué et son sujet final (non exprimé localement au verbe) est ajoutée
    • par ex. le sujet des infinitifs (cf. Section 9.1.1) : Paul veut être photographié avec le maire. => ajout "Paul" comme sujet final et objet canonique de "photographié"

    • ou le sujet des participes épithètes (section Section 8.1) :

      • les personnes interrogées par la police => ajout de "personnes" comme sujet final et objet canonique de "interrogées"

      • les personnes ayant un badge => ajout de "personnes" comme sujet final et canonique de "ayant"

  • par extension, on considère le sujet d'un adjectif (l'élément que l'adjectif employé comme épithète modifie), et la dépendance entre l'adjectif et son sujet est explicitée
    • en épithète : les longues phrases => ajout de "phrases" comme sujet de "longues"

    • en attribut du sujet ou de l'objet (cf. Section 4.5), on fait le même ajout de dépendance pour

      • ses phrases sont longues

      • Je trouve ses phrases très longues

  • dans le cas de dépendants d'éléments coordonnés, alors que le schéma de surface prévoit une dépendance sur le premier conjoint uniquement, la dépendance est distribuée sur les autres conjoints si cela est sémantiquement justifié
    • par ex. pour le sujet partagé par 2 verbes coordonnés comme dans Anna a conçu le projet et a trouvé des investisseurs, on n'a en surface que le lien entre le premier verbe et son sujet (entre conçu et Anna), on a en outre en profond le lien entre le 2eme verbe (trouvé)
    • par ex. pour l'objet partagé par 2 prépositions coordonnées : pour "avec et sans paracétamol", on a en surface "paracétamol" objet de la préposition "avec", et on ajoute en profond "paracétamol" objet de la préposition "sans"