Versione stampabile

Iris ESHKOL-TARAVELLA, Natalia GRABAR

Nature de la répétition dans les reformulations à l’oral et sur le Web

Iris Eshkol-Taravella
Université d’Orléans – LLL UMR 7270
iris.eshkol@univ-orleans.fr

Natalia Grabar
CNRS, Université de Lille 3 – STL UMR 8163
natalia.grabar@univ-lille3.fr

Résumé

L’article proposé porte sur le phénomène de la reformulation spontanée dans les discussions à l’oral et sur le Web. L’objectif est de montrer dans quelle mesure et à quels niveaux de la langue la répétition intervient lors de la reformulation. L’analyse est fondée sur les résultats de l’annotation manuelle effectuée sur trois corpus : ESLO1, ESLO2 et le blog Doctissimo. Différents niveaux de répétition sont étudiés : répétition de la taille des segments reformulés, répétition syntaxique lorsque les deux segments appartiennent à la même catégorie syntaxique, utilisation des mêmes unités lexicales dans les deux segments, présence des unités ayant la même racine morphologique, égalité sémantique entre les deux segments reformulés. Ces indices nous permettent également d'établir les similarités entre les corpus.

1. Introduction

Dans différentes situations, comme par exemple celles impliquant les interactions directes (dialogues ou discussions à l'oral) ou encore dans la communication médiée par l'ordinateur (discussions sur les forums de discussion ou les chats), les locuteurs ou scripteurs doivent s'assurer que leurs propos sont bien exprimés et par conséquent compris. Très souvent, cela est effectué au moyen de reformulations, comme dans les exemples (1) et (2) ci-dessous. Typiquement, le segment 1, S1 ou segment source, (je suis bien dans l'exemple (1) ou démocratiser l'enseignement dans l'exemple (2)) est reformulé par le segment 2, S2 ou segment cible (je vais bien dans l'exemple (1) ou permettre à tout le monde de rentrer en faculté dans l'exemple (2)) :

(1)
je suis bien c'est-à-dire je vais bien

(2)
eslo 1-121 : ils ont dit démocratiser l'enseignement euh démocratiser l'enseignement c'est-à-dire permettre à tout le monde de rentrer en faculté

De manière générale, les reformulations consistent à redire ce qui a déjà été dit mais d'une manière différente (FUCHS 1982 ; GULICH & KOTSCHI 1983 ; ROULET 1987) augmentant ainsi les chances de compréhension. Pour des raisons similaires, les reformulations sont également importantes dans d'autres situations et domaines de recherche : en didactique elles permettent de contrôler et d'évaluer le niveau de compréhension et de maîtrise d'une langue, par exemple (MARTINOT 1994 ; BERNICOT et al., 2006 ; BESSE 1985 ; BLONDEL 1996 ; CHAROLLES & COLTIER 1986 ; KARA 2007) ; en médecine elles permettent d'évaluer le niveau cognitif des patients (BEZY et al. 2016) ; en Traitement Automatique des Langues leur étude et exploitation permet de détecter le plagiat (FERRERO & SIMAC-LEJEUNE 2015), de produire une version simplifiée d'un document technique (KIM et al. 2016 ; PAVLICK & CALLISON-BURCH 2016), d'acquérir un lexique avec des paraphrases (ESHKOL-TARAVELLA & GRABAR 2014), etc.

De manière inhérente donc, les répétitions impliquent une reprise ou une répétition des propos : comme nous l'avons déjà noté, dans les exemples ci-dessus, le segment 1 est repris sous une forme plus ou moins similaire par le segment 2. L’objectif de l’étude présentée consiste donc à montrer dans quelle mesure et à quels niveaux de la langue la répétition intervient lors de la reformulation. Nous distinguons différents niveaux qui, à notre avis, peuvent fournir des indices variables et complémentaires :

  • répétition de la taille des segments reformulés, qui peut indiquer si la reformulation fournit une quantité d'information supérieure, inférieure ou égale ;

  • répétition de la catégorie syntaxique à laquelle appartiennent les deux segments reformulés, qui peut indiquer si la grammaticalité de la phrase ou de l'énoncé est sauvegardée ou bien si la reformulation effectue également une restructuration syntaxique des propos ;

  • utilisation de mêmes unités lexicales dans le segment 1 et le segment 2, qui indique si le lexique ou une partie du lexique reste stable ;

  • présence dans les deux segments des unités ayant la même racine morphologique, qui indique si les familles morphologiques sont en jeu ;

  • relations sémantiques entre les deux segments, qui indiquent les types de transformations permettant de préserver le sens global de la phrase ou de l'énoncé.

Avant de décrire les corpus traités et notre approche, nous faisons ici quelques remarques préliminaires. Le travail proposé ici est issu et fondé sur d'autres travaux que nous avons effectués en annotation et traitement automatique des reformulations (ESHKOL-TARAVELLA & GRABAR 2014). Ce travail exploite donc une annotation riche en reformulations effectuée selon plusieurs dimensions : morphologie, syntaxe, sémantique, pragmatique. En nous fondant sur les données observées en corpus et sur les travaux existants (GULICH & KOTSCHI 1983 ; HOLKER 1988 ; BEECHING 2007 ; HWANG 1993 ; SAUNIER 2012 ; PETIT 2009 ; TESTON-BONNARD 2008 ; KANAAN 2011), nous proposons de considérer la reformulation au sens large, où elle fournit les moyens pour effectuer plusieurs opérations pragmatiques (explication, précision, correction, dénomination, exemplification, etc.). Comme nous le verrons, lors de la réalisation de ces opérations, certaines relations lexicales, morphologiques ou syntaxiques peuvent apparaître, mais ce fait n'est pas systématique.

Ce travail porte sur les reformulations formées autour de trois marqueurs de reformulation (c'est-à-dire, je veux dire, disons) dans deux types de corpus (corpus oraux ESLO et discussions dans un forum de santé). L’approche utilisée est fondée sur l’analyse de corpus annotés en reformulations.

Dans la première partie de l’article, les deux corpus traités (où la reformulation est présente d’une manière importante) – des entretiens oraux transcrits et le corpus du forum issu du Web – seront présentés et la méthodologie du travail sera explicitée. Ce travail d'annotation et ses bases théoriques sont mis en relation avec les travaux de l'état de l'art. La deuxième partie sera consacrée aux résultats quantitatifs et à leur analyse qualitative. L’article exposera à la fin des conclusions issues des résultats et quelques perspectives du travail envisagé.

2. Corpus et méthodologie

Le travail présenté fait partie du domaine de linguistique de corpus qui interroge des données attestées. Les deux corpus présentés dans la section (2.1.) ont été annotés selon les conventions décrites dans la section (2.2.). Le processus d’annotation repose sur une modélisation multiaxiale du procédé de reformulation et de ses différentes propriétés (sémantiques, lexicales, syntaxiques, etc.) sous forme d’étiquettes, ce qui permet de les mettre en valeur et d’effectuer une analyse à l’aide des outils informatiques.

2.1. Corpus traités

a) Corpus oral

La reformulation fait partie des caractéristiques du discours oral. Le locuteur revient sur ses propos en les corrigeant, explicitant, dénommant, définissant, justifiant, exemplifiant, etc. Certains chercheurs voient dans la reformulation un cas des disfluences de l’oral : une accumulation d’éléments qui « brisent le déroulement syntagmatique » (BLANCHE-BENVENISTE 1990) sans rien ajouter à la sémantique de l’énoncé ou les « marques typiques des énoncés en cours d’élaboration » qui « constituent un piétinement sur l’axe syntagmatique » (DISTER 2007). C’est le cas de l'action COPTE (Corpus Parole/Texte et Évaluation) qui, suite aux recommandations du Linguistic Data Consortium (LDC)1, distingue sept types de disfluences dont l’une affecte les « marques d'édition du locuteur concernant ses propres paroles », comme dans :

(3)
il fait moche, enfin, je veux dire, il y a du vent et de la pluie

qui correspond au cas de reformulation introduite à l’aide de marqueurs spécifiques comme enfin, je veux dire. Dans notre travail, nous dissocions les disfluences et les reformulations.

C’est dans les travaux sur les interactions verbales entamés dans les années 1980 (GÜLICH et KOTSCHI 1983, 1987, ROULET 1987, ROSSARI 1990-1994) que la notion de reformulation est apparue. Les chercheurs lient d’abord la reformulation avec la paraphrase. Et ce n’est que plus tard que Rossari distingue deux types de reformulations : les reformulations paraphrastiques, qui instaurent une équivalence avec la première formulation, et des reformulations non­ paraphrastiques, lesquelles opèrent un changement de perspective énonciative. Ce constat est confirmé par ROULET (1987 : 116) : « La reformulation vise souvent davantage à marquer un changement de perspective énonciative par rapport au discours antérieur qu’à reformuler (au sens étroit du terme) un constituant déterminé de celui-ci. »

En s’appuyant sur ces travaux antérieurs, le premier corpus traité est un corpus oral ESLO (Enquêtes Sociolinguistiques à Orléans) (ESHKOL-TARAVELLA et al. 2012) accessible sur le Web (http://eslo.huma-num.fr/). Le choix s’est arrêté sur les entretiens des chercheurs avec les Orléanais portant sur leur identité, leur mode de vie, leur avis sur la ville d’Orléans, etc.

Le sous-corpus du travail comprend 260 entretiens d’ESLO1 totalisant 2 349 829 occurrences de mots et 308 entretiens d’ESLO2 totalisant 1 412 891 occurrences de mots. La différence entre les deux corpus ESLO1 et ESLO est de nature diachronique. L’enquête ESLO1 a été effectuée dans les années 1970 par les chercheurs britanniques, alors qu’ESLO2 est un corpus actuel constitué par les chercheurs du Laboratoire Ligérien de Linguistique (LLL).

Les données étudiées sont les fichiers de transcriptions prétraités automatiquement : tout d’abord ils ont été segmentés en tours de parole et les énoncés contenant l’un des trois marqueurs c’est-à-dire, je veux dire, disons ont été extraits. Le corpus ainsi obtenu comprend 611 tours de parole dans 219 entretiens d’ESLO1 et 498 tours de parole dans 68 entretiens d’ESLO2 :

(4)
eslo 1-007 : qui de vous ou c'est-à-dire vous ou votre mari écrit habituellement à aux amis communs

(5)
eslo 2_004 : vous avez une vie de quartier ici c'est-à-dire que vous alors faites les courses dans le quartier par exemple oui

Notons que les conventions de transcription n’autorisent pas de signes de ponctuation ni de majuscules au début d’énoncé.

b) Corpus Web

Un deuxième corpus étudié est constitué de discussions provenant du forum Doctissimo (http://www.doctissimo.fr/). 17 443 fils de discussions portant sur les problèmes cardiaques et les douleurs du dos ont été sélectionnés, ce qui correspond à 101 728 messages (7 millions de mots) au total.

Ces discussions ont été prétraitées de la même manière que les transcriptions de l’oral. 422 messages, contenant les trois marqueurs étudiés, ont été extraits, comme dans cet exemple :

(6)
forum-hta : Donc cela demande beaucoup d'investissement, c'est à dire il faut tout gérer, les aides à domicile, le changement des médecins, etc...

Le corpus constitué des discussions de forum est un exemple de l’écrit dialogique car il peut être comparé au moins sur deux points aux transcriptions de l’oral :

- Comme il a été mentionné précédemment, les transcriptions de l’oral ne contiennent pas habituellement de marques typographiques comme le point, la virgule, le point d’exclamation ou encore la majuscule en début d’énoncé pour éviter l’anticipation de l’interprétation (BLANCHE-BENVENISTE et JEANJEAN 1987). L’observation du corpus du Web a permis de constater de nombreux cas où les signes typographiques sont aussi manquants :

(7)
forum-hta : salut tous le monde j'ai 34 ans et depuis 10 ans maintenants je souffre d'extrasystole elle viennent par periode dure quelque jours voir quelques semaine mais a chaque fois c'est la meme chose je vais en cardio et la c'est toujour la meme reponse ce n'est pas grave vous n'avez rien et hop on vous fout dehors

- Comme dans les corpus oraux, les discussions de forum contiennent également des marqueurs discursifs propres de l’oral (bon, quoi, etc.) :

(8)
forum-hta : prendre la parole en public, faire un exposé etc... le trac quoi.

(9)
forum-hta : vous voyez ce que je veux dire ... bon ça c'est fait

L'analyse des reformulations introduites à l'aide des trois marqueurs c'est-à-dire, je veux dire, disons, que nous avons menée dans deux corpus présentant chacun ses spécificités, mais également des propriétés communes, permet de tirer des conclusions plus générales sur ce procédé.

2.2. Annotation de la reformulation

Pour analyser le procédé de reformulation, les deux corpus ont été annotés selon les mêmes conventions. L’objectif de l’annotation était de permettre la détection, l’extraction et l’analyse du procédé. Pour cela, il a été décidé d’indiquer les segments reformulés, le marqueur de reformulation et d’autres propriétés reflétant les différents liens aux niveaux lexical, morphologique, syntaxique et pragmatique.

L’annotation suit le schéma suivant :

eshkol 1

et concerne :

  • la catégorie syntaxique des deux énoncés : groupe nominal, verbal, proposition, etc.

  • la relation lexicale : hyperonymie, synonymie, instance, etc.

  • les modifications lexicales : remplacement, suppression ou ajout

  • les modifications morphologiques : flexion, dérivation, composition

  • les modifications syntaxiques : passif, actif

  • les relations pragmatiques : définition, explication, exemplification, précision, paraphrase, etc.

Voilà trois exemples (10), (11), (12) annotés selon les conventions définies :

(10)
eslo 1_007 : <NP1>qui de vous</NP1> ou <MR>c'est-à-dire</MR> <NP2rel_lex="mero(vous/vous ou votre mari)" rel_pragm="exempl">vous ou votre mari</NP2> écrit habituellement à aux amis communs

(11)
eslo 2_004 : <P1>vous avez une vie de quartier</P1> ici <MR>c'est-à-dire</MR> que <P2 rel_lex="hypero(une vie de quartier/faites les courses dans le quartier)" rel_pragm="exempl">vous alors faites les courses dans le quartier</P2> par exemple oui

(12)
forum-hta : Donc <P1>cela demande beaucoup d'investissement</P1>, <MR>c'est à dire</MR> <P2 rel_lex="syno(cela demande/il faut)" rel_pragm="exempl">il faut tout gérer, les aides à domicile, le changement des médecins, etc...</P2>

Dans les trois cas ci-dessus, le locuteur/scripteur remplace un segment (groupe nominal NP1 dans (10), énoncés P1 dans (11) et (12)) par un autre (groupe nominal NP2 dans (10), énoncés P2 dans (11) et (12)) pour rendre ses propos plus précis en donnant des exemples (rel_pragm="exempl"). En ce qui concerne les relations lexicales, dans le premier cas (10), il s’agit de méronymie entre vous et vous ou votre mari, dans le deuxième (11) de l’hyperonymie entre une vie de quartier et faites les courses dans le quartier et dans le troisième (12) de la synonymie entre cela demande et il faut. Dans certains exemples, comme ceux en (11) et (12), ce type de catégorisation peut être difficile à effectuer car elle porte parfois sur les noms abstraits ou les actions. Cependant, de manière consensuelle, nous considérons par exemple que l'action de faire les courses dans le quartier est subsumée ou fait partie d'un ensemble plus global d'une vie de quartier.

Les informations annotées permettent d’étudier d’une manière quantitative et qualitative la reformulation, mais aussi la répétition qui peut être vue ainsi sous plusieurs angles linguistiques et à des niveaux plus au moins fins :

  • répétition de la taille des segments reformulés : le fait de marquer les frontières de deux segments reformulés (S1 et S2) permet de voir s’ils contiennent le même nombre d'occurrences et le même volume d'information ;

  • répétition syntaxique : l’étiquette marquant la catégorie syntaxique permet de vérifier si les deux segments S1 et S2 appartiennent à la même catégorie ;

  • répétition lexicale : la répétition lexicale peut être observée d’abord par la vérification de l’utilisation de mêmes unités lexicales dans S1 et S2. Elle peut aussi être vue à travers l’étiquette rel_lex qui marque un lien que les unités de chaque segment peuvent avoir entre elles (hyperonymie, méronymie, synonymie, etc.). Ainsi, les unités identiques ou proches de par leur sémantique (synonymes, mots associés) seront annotées par cette étiquette rel_lex="syno" ou rel_lex="mero" ;

  • répétition morphologique : l’attribut rel_moph, qui marque la flexion, la dérivation ou la composition, permet quant à lui de vérifier la présence dans les deux segments des unités ayant la même racine ;

  • répétition sémantique : le fait de marquer une équivalence sémantique entre les deux segments par l’attribut rel_pragm="para" permet de vérifier s’il y a ou non un changement de sens majeur dans S2 par rapport au S1. Si la relation sémantique entre les deux segments correspond à une paraphrase, il s’agit alors de la reformulation paraphrastique, qui marque une répétition sémantique forte.

eshkol tab 1

Dans le Tableau 1, nous indiquons la taille des corpus et de certaines catégories annotées au sein des reformulations.

3. Analyse des données

3.1. Répétition de la taille des segments

Le premier niveau de répétition analysé concerne la taille des segments reformulés. Cette valeur est mesurée par le nombre d’occurrences de mots contenus dans chaque segment. Les mots de phrases sont d'abord segmentés (par exemple, d'échanger devient de et échanger), ce qui permet d'avoir les données pour mesurer la taille des segments. L'objectif principal de cette mesure est de classer les reformulations selon qu'elles comportent le segment 2 plus long, plus court ou équivalent au segment 1, et donc selon qu'elles fournissent un volume d'information supérieur, inférieur ou égal. Comme nous le verrons plus loin, cette mesure a également une implication au niveau de relations pragmatiques.

Il existe très peu de paires de segments S1 et S2 avec la même taille : entre 0,07 % et 0,10 % dans les corpus oraux et entre 0,13 % et 0,14 % dans le corpus de forum. Dans la plupart des cas, (56% à 67 %), le segment cible S2, qui correspond à la reformulation, est plus long que le segment source S1. La différence de taille va de 2 % à 4 %. En effet, la reformulation vise souvent à apporter des précisions et des explications par rapport au segment source. Ceci est une caractéristique inhérente de la reformulation.

Nous voyons donc que la répétition est très peu présente au niveau de la taille des segments reformulés.

3.2. Répétition syntaxique

L’analyse du corpus annoté a permis de constater un parallélisme syntaxique fort entre le segment source et le segment reformulé. En effet, dans la majorité des cas (58 % à 68 %), il existe une équivalence syntaxique entre les éléments en relation de reformulation (comme dans les exemples (13), (14) et (15)). Dans ce cas, les catégories les plus fréquentes sont P (proposition) et NP (groupe nominal), suivis de VP (groupe verbal) et PP (groupe prépositionnel) :

(13)
eslo 1_010 : j'ai toujours trouvé qu'il était nécessaire euh à l'apprentie <PP1>de collaborer directement avec elle</PP1> <MR>c'est-à-dire</MR> <PP2 rel_lex="hypero(collaborer directement avec elle/de couper et d'échanger des idées avec elle)" modif_lex="remp" rel_pragm="explic">de couper et d'échanger des idées avec elle</PP2> pour euh

(14)
eslo 2_ 16 : et puis là c'est en grande restructuration le centre financier de la Source hein y- très grosses modifications parce que maintenant c'est le client avant tout donc on est vraiment banque hein une banque hm hm euh banque qui doit <VP1>faire des profits</VP1> <MR>c'est à dire</MR> <VP2 rel_lex="mero(profits/vendre)" rel_pragm="prec">vendre du n'importe quoi</VP2> et puis puis voilà

Notons que dans le corpus oral ESLO2, les structures PRES (présentateurs comme il y a, voici, voilà, c’est, etc. fréquents à l’oral) devancent les VP et PP :

(15)
eslo 2_12 : comme y a pas que la Cour d'Appel hein euh tout plein de directions régionales l'agriculture et de la forêt se trouvent à Orléans enfin bon Orléans lui peut-être bon pour les caméras euh voilà bon pour ce genre de choses euh elles se partagent assez bien mais <PRES1>c'est un gros problème au au niveau de la fac</PRES1> enfin <MR>je veux dire</MR> là voilà par exemple que <PRES2 rel_pragm="explic">c'est le fait qu'il y ait deux facs voire plus avec euh Bourges qui voulait aussi sa propre fac</PRES2>

En conclusion, au niveau de la syntaxe, les répétitions sont très fréquentes. En effet, la reprise d'un segment et son remplacement par un autre segment d'une catégorie équivalente correspond à l’une des caractéristiques fondamentales de la reformulation. Cette propriété a été déjà mentionnée dans (ESHKOL-TARAVELLA et GRABAR 2014). Elle permet sans doute de garder la même structure grammaticale de la phrase sans nuire à sa grammaticalité.

3.3. Répétition morphologique

Le lien morphologique entre les deux segments est indiqué par l’attribut modifs_morph « modifications morphologiques » et concerne la flexion, la dérivation et la composition. Il s’agit d’indiquer si les unités des deux segments ont la même racine :

(16)
eslo 1_026 : je le connais oui je le connais on a eu oui je le connais on ne peut pas dire euh on n'est pas camarades comme ça mais <P1>je le connais</P1> oui <MR>c'est-à-dire</MR> que <P2 rel_lex="mero(le/sa première femme)" modif_lex="remp(le/sa première femme) remp(connais/connu) ajout(qui était une collègue)" rel_pragm="prec" modif_morph="flex(connais/connu)">j'ai connu euh surtout sa première femme qui était une collègue</P2>

(17)
eslo 2_5 : si elle avait pas fait l'effort de d'apprendre notre langue comme elle l'a apprise et euh et <PRES1>c'est un facteur d'intégration</PRES1> enfin <MR>je veux dire</MR> ça reste hm hm quand même un sujet très à la mode euh on <P2 modif_morph="deriv(intégration/s'intégrer)" rel_pragm="explic">on ne peut pas euh s'intégrer dans une culture si on n'en parle pas la langue</P2>

(18)
forum-hta : Et j'ai rien au coeur, c'est juste <NP1>des "névralgies intercostales"</NP1> <MR>c'est a dire</MR> <P2 modif_morph="deriv(névralgies/nerf) modif_morph="deriv(intercostales/côtes)" rel_pragm="def">un nerf qui se coince entre les côtes</P2>.

(19)
forum-hta : L'infarctus le plus connu est l'infarctus du <N1>myocarde</N1> (IDM), <MR>c'est-à-dire</MR> du <NP2 rel_lex="syno(myocarde/muscle cardiaque)" modif_lex="rempl (myocarde/muscle cardiaque)" modif_morpho="compo (myocarde/muscle cardiaque)" rel_pragm="def">muscle cardiaque</NP2> (coeur).

Dans le corpus oral, les modifications morphologiques ne représentent que 8% dans ESLO1 et 10% dans ESLO2, tandis que dans le corpus de forum il ne s’agit que de 4% de toutes les reformulations annotées. Ces chiffres montrent que le locuteur/scripteur utilise très peu de mots provenant de la même famille morphologique au cours de reformulations. Il semblerait donc qu’il cherche à trouver d’autres moyens lexicaux et essaie de cette manière d’éviter une répétition morphologique, qui est une répétition peut-être plus « visible ». La Figure 1 montre la distribution entre les trois types de modifications annotées : dérivation, flexion et composition. La flexion permet souvent de revenir sur la structure syntaxique de l'énoncé, alors que la dérivation et la composition aident à modifier l'énoncé au niveau lexical. C’est la dérivation qui semble être la plus utilisée dans les trois corpus. La composition n’est présente que dans le corpus de forum certainement à cause de nombreux termes médicaux, ce qui est dû au contenu de ce corpus provenant d’un forum consacré à la santé.

eshkol fig 1

L’analyse de la répétition au niveau morphologique montre que la reprise des mêmes bases ou racines est rare dans les reformulations étudiées. En revanche, lorsque ce type de répétition apparaît, il concerne essentiellement la dérivation.

3.4. Répétition lexicale

Il est possible d'analyser la répétition lexicale de deux manières : la répétition de lexèmes et la répétition des relations lexicales annotées.

Au niveau des lexèmes (exemple (20)), dans 14 % de fils de discussion annotés dans le corpus de forum, on trouve la reprise de mots tels quels dans les deux segments. Ce n’est pas le cas des corpus oraux où les reprises lexicales de mots sont plus abondantes et s’élèvent à 40 %

(20)
eslo 2_5 : […] le mouvement scout de France a décidé de euh diviser les tranches d'âges c'est-à-dire que moi je vous ai dit tout à l'heure nos nos enfants ont entre huit et douze ans et douze à dix-sept ans cette tranche douze dix-sept a été divisée en deux par les scouts U- les scouts de France en douze quinze et quinze dix-sept

Ces chiffres sont obtenus en enlevant les mots grammaticaux (préposition, déterminants, etc.).

En ce qui concerne la répétition des relations lexicales, plusieurs relations ont été annotées dans les corpus : hyperonymie, hyponymie, synonymie, antonymie, méronymie et instance. La Figure 2 montre leur distribution dans les trois corpus.

Dans le corpus oral (exemple (21)), la relation lexicale la plus souvent annotée est la synonymie, ce qui semble aussi logique.

(21)
eslo 2_5 : ah oui je pense que les les moments forts qu'on peut avoir au scoutisme c'est aussi euh les moments où <P1>on va visiter les camps scouts</P1> <MDR>c'est-à-dire</MDR> que euh <P2 rel_lex="mero(les camps scouts/les plus jeunes)syno(visiter/aller passer une journée)" rel_pragm="para">on s'engage euh l'été à aller passer une journée avec les plus jeunes</P2>

La fréquence de liens de méronymie entre les éléments des deux segments augmente dans ESLO2. Cette relation inclut les cas du rapport /partie vs tout/ ainsi que les liens par association (exemple (22)).

(22)
eslo 2_ 12 : internet dès que je me pose une question enfin j'ai aussi beaucoup le réflexe papier enfin <NP1>le réflexe papier</NP1> <MDR>c'est-à-dire</MDR> que euh <P2 rel_lex="mero(papier/bibliothèque)" rel_pragm="prec">je vais aller jusqu'à ma bibliothèque chercher mon dico- pour vérifier un mot plutôt que de taper sur internet</P2>

Dans le corpus de forum, la relation lexicale la plus répandue est la synonymie (35%) :

(23)
forum-hta : J'ai l'impression que mon coeur bat trop fort et trop vite <P1>des que je travaille ou que je suis chez moi</P1>, <MR>c'est a dire</MR> <P2 rel_lex="syno(je travaille/je suis concentrée) syno(je suis chez moi/je suis immobile)" rel_pragm="prec">kan je suis concentrée ou immobile, en tout cas quand j'ai l'esprit assez aéré</P2>.

suivie de l’hyperonymie (27%) :

(24)
forum-hta : Il faut savoir aussi qu'avec les AVC, il y a des déficits hormonaux qui induisent <NP1>des troubles de l'humeur</NP1> (<MRP>je veux dire</MRP> qu'<P2 rel_lex="hypero(humeur/être déprimée, agressive)" rel_pragm="prec">elle risuqe d'être déprimée, agressive etc...</P2>) Il serait bien que vous voyez tous ensemble un neuropsychologue, qui pourra vous expliquer tout cela et prévoir comment prendre en charge ta grand mêre.

de la méronymie (16%) :

(25)
forum-hta : maintenant elle est trés somnolente, seul <NP1>son bras gauche fonctionne</NP1>(<MRP>disons</MRP>plutot<P2 rel_lex="mero(bras/main...avant bras)" rel_pragm="prec">la main et l'avant bras</P2>, l'épaule ne bouge pas)

et de l’instance (14%) :

(26)
forum-hta : Est ce que qu'elqu'un à un parent dans ce cas là. elle s'est fait opéré <PP1>au centre caridologie du nord</PP1>), <MRP>c'est à dire</MRP> <PP2 rel_lex="instance(le centre caridologie du nord/la clinique de saint denis" rel_pragm="denom">à la clinique de saint denis (93)</PP2> qui a très bonne réputation.

eshkol fig 2

Ces chiffres montrent que la répétition observée à travers des relations de synonymie entre les éléments des deux segments est bien présente au cours de la reformulation. Ce fait est vérifié dans les trois corpus où la fréquence relative est quasi constante (entre 33-35%). En outre, comme il a été mentionné ci-dessus, la répétition de mots tels quels apparaît surtout dans le corpus oral.

3.5. Répétition sémantique

Pour décrire une fonction pragmatique, c’est-à-dire la raison pour laquelle le locuteur remplace un segment dans son discours par un autre, l'attribut rel_pragm a été proposé dans l’annotation. Ses valeurs peuvent être nombreuses : définition, explication, exemplification, précision, dénomination, résultat, correction linguistique, correction référentielle et paraphrase. La dernière valeur, paraphrase, marque qu’il n’y a aucune différence sémantique entre les deux segments reformulés, ou plus précisément que le locuteur/scripteur met les deux segments au même niveau sémantique :

(27)
eslo 1-004 : oui enfin vis-à-vis de vous ça <P1>ça marchait</P1> ce n'est que pour <MR>c'est à dire</MR> <P2 rel_pragm="para">y avait pas de rejet</P2>

(28)
eslo 2_004 : <NP1>toujours les mêmes</NP1> <MR>c'est-à-dire</MR> euh<P2 rel_pragm="para">tous ceux qu'on connait</P2> quoi

(29)
forum-hta : Mais en parlant de sport, j'ai fait récemment de l'endurance et <VP1>ça s'est bien passé</VP1>, <MR>je veux dire</MR>, <P2 rel_pragm="para">je n'ai pas eu de problème</P2>.

La paraphrase peut être considérée comme la répétition au niveau sémantique.

La paraphrase a une fréquence quasi similaire dans les trois corpus et varie entre 7% et 10%. Comme nous l'avons montré au sujet des relations morphologiques (§ 3.3), elle est peu présente au cours de la reformulation. On peut en déduire que la reformulation semble apporter souvent des précisions et des explications par rapport à ce qui a été dit/écrit. Ce constat a été également confirmé par la taille de deux segments reformulés, où le deuxième est souvent plus long que le premier.

4. Conclusion

Notre étude est partie de la constatation que la reformulation et la répétition sont liées entre elles. Elles semblent avoir des fonctionnements similaires dans la langue : donner au discours sa cohésion, contribuer à sa dynamique et fournir les informations pour augmenter les chances de compréhension. Par le travail présenté, nous avons essayé de répondre à plusieurs questions, comme par exemple : Est-ce que la reformulation est une des formes de la répétition dans le discours ? Qu’est-ce que ces deux procédés ont en commun ? Comment mesurer et analyser les relations qu’ils entretiennent ?

L’étude a été menée sur les deux corpus : entretiens oraux transcrits et discussions publiées dans un forum Web. La méthodologie choisie est celle de l’annotation. Le procédé de la reformulation a été annoté selon les conventions prédéfinies. L’observation du corpus annoté a permis de faire quelques analyses quantitatives et qualitatives afin de mesurer et d’étudier le lien que les deux procédés – reformulation et répétition – peuvent avoir entre eux.

La répétition a été étudiée à différents niveaux que nous avons motivés : égalité de la taille ou de la catégorie grammaticale de segments reformulés ; répétition de lexèmes, présence dans les deux segments de mots proches par leur sens ou ayant la même racine, ou encore équivalence sémantique entre les deux segments en relation de reformulation.

Il a été constaté que :

  • les catégories syntaxiques les plus répétées sont la proposition P et le groupe nominal NP, suivies du groupe verbal VP et du groupe prépositionnel PP ;
  • la reprise de mêmes lexèmes est fréquente dans les corpus oraux (40%) ;
  • la relation lexicale la plus fréquente est la synonymie (environ 35%).

En revanche, il a été observé :

  • très peu de répétitions et stabilité lors de la comparaison de la taille des segments ;
  • peu de mots provenant de la même famille morphologique dans les deux segments ;
  • une faible présence de segments équivalents sémantiquement par leur fonction pragmatique.

Les chiffres sont stables entre les trois corpus, ce qui montre que nos observations sont valables pour les corpus de nature et de période différentes et peuvent donc être considérées comme étant propres au procédé de la reformulation.

En conclusion, la reformulation semble accepter la répétition « à petites doses ». Le locuteur/scripteur reformule souvent pour apporter certaines précisions ou certains détails sur ce qui a été dit, et essaie ainsi d’éviter de répéter complètement ses propos. La répétition y apparaît le plus souvent d’une manière « non visible » à travers l’emploi de synonymes ou de la même structure syntaxique.

Références bibliographiques

BEECHING, Kate, « La co-variation des marqueurs discursifs "bon", "c'est-à-dire", "enfin", "hein", "quand même", "quoi" et "si vous voulez" : une question d'identité ? », Langue française, n. 154(2), 2007, p. 78-93.

BERNICOT, Josie, HUDELOT, Christian, SALAZAR-ORVIG, Anne (éd.), La reprise et ses fonctions, La Linguistique, n. 42(2), Presses Universitaires de France. 2006.

BESSE, Henri, Méthodes et pratiques des manuels de langue, Paris, Didier, Collection Essais, 1985.

BEZY, Catherine, PARIENTE, Jérémie, RENARD, Antoine, GRÉMOTS, Batterie d'évaluation des troubles du langage dans les maladies neurodégénératives, Lyon, De Boeck Solal, 2016.

BLANCHE-BENVENISTE, Claire, Le français parlé – études grammaticales, Paris, CNRS Editions, 1990.

BLANCHE-BENVENISTE, Claire, JEANJEAN Colette, Le français parlé. Transcription et édition, Institut national de la Langue française, Paris, Didier Érudition, 1987.

BLONDEL, Eliane, « La reformulation paraphrastique. Une activité discursive privilégiée en classe de langue », Carnets du CEDISCOR, n. 4, 1996. Disponible en ligne URL : http://cediscor.revues.org/372.

CHAROLLES, Michel, COLTIER, Danièle. « Le contrôle de la compréhension dans une activité rédactionnelle : éléments pour l’analyse des reformulations paraphrastiques », Pratiques, n. 49, 1986, p. 51-66.

DISTER, Anne, De la transcription à l’étiquetage morphosyntaxique. Le cas de la banque de données textuelle orale VALIBEL, Thèse de doctorat, Université de Louvain, 2007.

ESHKOL-TARAVELLA, Iris, BAUDE, Olivier, MAUREL, Denis, HRIBA, Linda, DUGUA, Céline, TELLIER, Isabelle, « Un grand corpus oral "disponible" : le corpus d’Orléans 1968-2012 », TAL, n. 52(3), 2012, p. 17-46.

ESHKOL-TARAVELLA, Iris, GRABAR, Natalia, « Paraphrastic reformulations in spoken corpora. », in PRZEPIÓRKOWSKI, Adam, OGRODNICZUK, Maciej (eds.), Advances in Natural Language Processing Lecture Notes in Computer Science.Proceedings of 9th International Conference on NLP, PolTAL 2014, Springer, 2014, p. 425-437.

FERRERO, Jérémy, SIMAC-LEJEUNE, Alain, « Détection automatique de reformulations – correspondance de concepts appliquée à la détection de plagiat », EGC 2015 (15ᵉ Conférence Internationale Francophone sur l’Extraction et la Gestion des Connaissances, Luxembourg, France), Revue des Nouvelles Technologies de l'Information, RNTI-E-28. 2015, p. 287-298.

FUCHS, Catherine, La paraphrase, Paris, PUF, 1982.

GÜLICH, Elisabeth, KOTSCHI, Thomas, « Les marqueurs de la reformulation paraphrastique », Cahiers de linguistique française, n. 5, 1983, p. 305-351.

GÜLICH, Elisabeth, KOTSCHI, Thomas, « Les actes de reformulation dans la consultation La dame de Caluire », in BANGE, Pierre, (eds.), L’analyse des interactions verbales. La dame de Caluire : une consultation, Peter Lang, 1987, p. 15–81.

HOLKER, Klaus, Zur Analyse von Markern, Stuttgart, Franz Steiner, 1988.

HWANG, Young-ai, « ‘Eh bien’, ‘alors’, ‘enfin’ et ‘disons’ en français parlé contemporain », L’Information Grammaticale, n. 57, 1993, p. 46-48.

KANNAN, Layal, Reformulations, contacts de langues et compétence de communication : analyse linguistique et interactionnelle dans des discussions entre jeunes Libanais francophones, Université d'Orléans, 2011. Thèse de doctorat.

KARA, Mohamed, « Usages et analyses de la reformulation », Recherches linguistiques n. 29, Metz. 2007.

KIM, Yea-Seul, HULLMAN, Jessica, BURGESS, Matthew, ADAR, Eytan, « SimpleScience : Lexical Simplification of Scientific Terminology », EMNLP 2016 (Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing), Austin, Texas, 2016, p. 1066-1071.

MARTINOT, Claire, La reformulation dans des productions orales de définitions et explications. (Enfants de maternelle), Thèse de Doctorat, Université Paris 8, 1994.

PAVLICK, Ellie, CALLISON-BURCH, Chris, « Simple PPDB : A Paraphrase Database for Simplification », ACL (Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics, Beijing, China, July 26-31, 2015), 2016, p. 1-6.

PETIT, Mélanie, Discrimination prosodique et représentation du lexique : application aux emplois des connecteurs discursifs, Thèse de doctorat, Université d’Orléans, 2009.

ROSSARI, Corinne, « Projet pour une typologie des opérations de reformulation », Cahiers de linguistique française, n. 11, 1990, p. 345-359.

ROSSARI, Corinne, « De l’exploitation de quelques connecteurs reformulatifs dans la gestion des articulations discursives », Pratiques, n. 75, 1992, p. 111-124.

ROSSARI, Corinne, Les opérations de reformulation. Analyse du processus et des marques dans une perspective contrastive français-italien, Berne, Peter Lang, 1994.

ROULET, Eddy, « Complétude interactive et connecteurs reformulatifs », Cahiers de linguistique française, n. 8, 1987, p. 111-140.

SAUNIER, Evelyne, « Disons : un impératif de dire ? Remarques sur les propriétés du marqueur et son comportement dans les reformulations. », L'Information Grammaticale, 132, 2012, p. 25-34.

TESTON-BONNARD, Sandra, « "Je veux dire" est-il toujours une marque de reformulation ? », in LE BOT, Marie-Claude, SCHUWER, Martine, RICHARD, Elisabeth, (éds.), La Reformulation. Marqueurs linguistiques. Stratégies énonciatives, PUR, Rennes, 2008, p. 51-69.

VION, Robert, « Reprise et mode d’implication énonciative ». La linguistique, n. 42, 2006, p. 11-28.

1
https://www.ldc.upenn.edu/

Per citare questo articolo:

Iris ESHKOL-TARAVELLA, Natalia GRABAR, Nature de la répétition dans les reformulations à l’oral et sur le Web, Repères DoRiF n. 13 - La Répétition en langue - coordonné par Ruggero Druetta, DoRiF Università, Roma octobre 2017, http://dorif.it/ezine/ezine_articles.php?id=364

Ritorna alla Barra di Navigazione