Versione stampabile

Yannis HARALAMBOUS

Gestion de la répétition dans les correspondances graphème-phonème et graphème-morphème

Yannis Haralambous
IMT Atlantique et UMR CNRS 6285 Lab-STICC, Technopôle Brest-Iroise, CS 83818, 29238 Brest Cedex 3, France.
yannis.haralambous@imt-atlantique.fr

Résumé
Dans cet article nous abordons le phénomène de répétition dans le contexte de la graphématique et plus particulièrement en ce qui concerne les correspondances graphème-phonème et graphème-morphème. Après une introduction à la graphématique et son positionnement au sein des sciences du langage, nous proposons une typologie des procédés de gestion de la répétition graphémique, illustrée par une liste d'exemples caractéristiques : les triples consonnes allemandes, les consonnes géminées arabes ou indiennes, les signes de répétition japonais, thaï et malais, les sigles, les nombres en représentation décimale, la représentation de la répétition dans la description de certains langages formels à travers les expressions régulières.

1. Introduction : la graphématique

La graphématique est la discipline qui étudie les graphèmes en tant qu’éléments d’un système, le système d’écriture d’une langue. Mais contrairement à la phonologie, dont l’utilité au sein de la linguistique est désormais indiscutable et la méthodologie bien établie, la graphématique reste controversée, voire suspecte, aux yeux des linguistes — et cela ne date pas d’hier…

En effet, c’est Aristote qui, le premier, place l’écriture en position secondaire vis-à-vis de la parole : μὲν οὖν τὰ ἐν τῇ φωνῇ τῶν ἐν τῇ ψυχῇ παθημάτων σύμβολα, καὶ τὰ γραφόμενα τῶν ἐν τῇ φωνῇ (les sons émis par la voix sont les symboles des états de l’âme, et les mots écrits les symboles des mots émis, De l’interprétation, 16a, trad. J. Tricot), la raison d’être de l’écrit se résume donc, selon Aristote, à la représentation de la parole. Vingt-deux siècles plus tard, Saussure renchérit en adoptant une posture radicale : le chapitre 6 du Cours de linguistique générale (SAUSSURE 1959 : 44-54) est un véritable pamphlet contre les méfaits de l’écriture, on y lit (nous soulignons) : « le mot écrit se mêle si intimement au mot parlé dont il est l’image, qu’il finit par usurper le rôle principal », « l’écriture voile la vue de la langue : elle n’est pas un vêtement, mais un travestissement », etc. Sous ces conditions, il n’est pas étonnant que l’évolution de la linguistique au vingtième siècle ait fait de l’écrit une sorte de « cadavre dans le placard », en éludant — au mieux — la question, ou en déclarant ipso facto que l’écriture est un épiphénomène de la parole, ne dépend que d’elle et ne sert qu’à la représenter — tâche dont elle s’acquitte d’ailleurs, toujours selon Saussure, plutôt médiocrement…

Ainsi, l’étude de la forme écrite de la langue (appelée tantôt graphématique, tantôt grammatologie, le terme « graphologie » ayant été accaparé par une pseudo-science) a pris beaucoup de retard vis-à-vis de la phonologie. On peut dégager deux écoles : l’école française représentée par Jacques Anis, Nina Catach et Claude Gruaz, et l’école anglo-germanique, représentée par Ignace Gelb, Manfred Kohrt, Peter T. Daniels, Geoffrey Sampson, Ernst Pulgram, Florian Coulmas, Richard Sproat, et autres (cf. PELLAT (1988) et DAVID (2010) pour la première et KOHRT (1985), KÜSTER (2006) et LOCKWOOD (2009) pour la deuxième).

La principale différence entre les deux écoles réside dans le fait que la première s’intéresse plutôt à la typologie des graphèmes (en se limitant surtout au domaine de la langue française) alors que la deuxième se focalise davantage sur la typologie et l’étude des systèmes d’écriture en général.

Au sein de l’école française, Jacques Anis (ANIS 1988 : chap. 2) identifie trois approches à la relation entre écriture et parole : (1) le phonocentrisme, qui considère que la langue écrite est une représentation (éventuellement déformée) de la langue parlée — il s’agit de l’approche de Saussure, mais aussi de nombreux linguistes de renom qui l’ont suivi (Roman Jakobson, Leonard Bloomfield, André Martinet, etc.) ; (2) le phonographisme, qui considère que la langue écrite est une représentation structurale de la langue parlée, intégrant éventuellement des caractéristiques spécifiques — c’est l’approche de Vladimir G. Gak, Vladimír Hořejšiet, Nina Catach ; (3) l’autonomisme, sa propre approche, qui considère que la langue écrite est un système à part, en interaction relative avec la langue parlée, mais pouvant être étudié de manière indépendante et autonome de celle-ci.

Pour mieux comprendre les différences entre les approches, considérons les manières dont l’unité minimale de la graphématique, le graphème, est définie.

L’approche autonomiste de Jacques Anis applique la méthode des paires minimales pour dégager les graphèmes en tant qu’éléments distinctifs d’une langue écrite, sans faire nullement intervenir la langue parlée correspondante. Il définit ainsi (pour le français) trois types de graphèmes : (1) les alphagrammes, manifestés par une lettre, éventuellement diacritée, (2) les topogrammes, qui incluent la ponctuation et les attributs typographiques, et qui sont organisateurs de la séquentialité ainsi qu’indicateurs syntagmatiques et énonciatifs, et enfin (3) les logogrammes qui sont attachés à une unité significative : chiffres, symboles conventionnels, pictogrammes, etc. En combinant les alphagrammes, et en se basant sur les règles de césure, il obtient des syllabes graphiques, notion qui lui permet de définir l’équivalent des consonnes et des voyelles : les nodes (graphèmes qui peuvent à eux seuls former une syllabe graphique) et les sates (graphèmes-satellites aux nodes). Ainsi1, <a> et <ç> sont des alphagrammes, <,> ou l’attribut de casse sont des topogrammes, <7>, <§> et <☺> sont des logogrammes ; d’autre part, dans le mot français <radio>, <ra> est une syllabe graphique, <a> est un node et <r> un sate. Anis reprend ainsi la double articulation de Martinet en se basant sur les graphèmes : un morphème (unité significative) est composé de graphèmes (unités distinctives), et un énoncé est composé de morphèmes. Notons que, dans ce développement, à aucun moment Jacques Anis ne fait référence à la correspondance entre graphèmes et phonèmes.

Nina Catach (CATACH 1986 : 16) définit, elle aussi, le graphème comme étant « la plus petite unité distinctive et/ou significative de la chaîne écrite » mais en rajoutant : « ayant une référence phonique et/ou sémique dans la chaîne parlée » (nous soulignons), et elle s’intéresse à la fonction des graphèmes vis-à-vis des autres unités linguistiques. Elle définit : (1) les phonogrammes qui correspondent aux phonèmes et qui servent à les transcrire. L’information qu’ils portent est de nature purement phonétique. (2) les morphogrammes qui correspondent aux morphèmes et qui fournissent de l’information morphosyntaxique, par exemple le <e> du féminin ou le <s> du pluriel, (3) les logogrammes, qui correspondent aux lexèmes et dont la graphie vise à désambiguïser des homophones, comme <ancre> vs. <encre>, <à> vs. <a>, etc. Lorsqu’une lettre sert à la désambiguïsation (comme le <e> de <encre>), elle est appelée lettre logogrammique. La théorie de Nina Catach est très complète pour la langue française mais n’a pas encore été adaptée aux autres langues et aux autres écritures.

Au sein de l’école anglo-germanique, Florian Coulmas (COULMAS 2003 : 36) définit le graphème comme le « type abstrait d’une lettre et sa position dans un système d’écriture donné ». Le terme « lettre » est préalablement défini comme « élément de l’inventaire de signes basiques d’un système d’écriture donné ». Ainsi l’importance est portée sur les systèmes d’écriture, dont les graphèmes ne sont que les éléments constitutifs. Par la suite il décrit certains systèmes d’écriture très riches, comme les écritures hiéroglyphique égyptienne et cunéiforme sumérienne/accadienne ainsi que les différents systèmes d’écriture japonais, et conclut qu’on y trouve quelques rares logogrammes (signes qui représentent du sens), et surtout des phonogrammes (signes qui représentent des phonèmes) ou des syllabogrammes (signes qui représentent des syllabes phoniques).

Notons que depuis quelques décennies un nouvel élément est entré en ligne de mire : l’émergence du texte numérique. À première vue, on peut considérer qu’un texte numérique qui a été « matérialisé » visuellement est formé de graphèmes et que le lien entre image et sens se fait à travers une double articulation. Mais en réalité on a ici affaire à une triple articulation. En effet, la mémoire de l’ordinateur est basée sur une unité minimale appelée bit, qui, selon Jacques Anis, « ne fait que radicaliser, pousser à l'extrême le principe sémio-linguistique postulé par Saussure : “dans la langue il n’y a que des différences”, dans le code binaire [cela se résume à] une différence seulement » (ANIS 2000 : 30). Le bit (0 ou 1, allumé ou éteint) est à la base du système et la troisième articulation consiste à grouper les bits pour représenter des nombres. Dans le cadre du texte numérique ces nombres correspondent, de manière arbitraire mais normalisée, à des graphèmes. Un ensemble de telles correspondances est appelée un codage de caractères (HARALAMBOUS 2007 : 27). Un codage repose, implicitement, sur une analyse graphémique de l’écriture — souvent fortement conditionnée par des choix historiques effectués dans des codages antérieurs —, analyse normalisée pour permettre la communication entre machines au niveau planétaire, cette normalisation étant une condition sine qua non pour l’existence d’un réseau global tel que l’Internet. S’il y a vingt ans encore le monde fourmillait de codages différents, de nos jours le codage Unicode (UNICODE 2016), défini par un consortium d’entreprises et en constante progression depuis 1991, est devenu la norme universelle.

À défaut d’une véritable théorie graphématique, Unicode propose une terminologie qui lui est spécifique : ainsi l’unité élémentaire du codage Unicode est un caractère, qui consiste en un caractère abstrait (graphème ou élément de notation, muni d’une sémantique ou d’une appartenance à un système données) et un codet (c’est-à-dire une valeur numérique qui représente la position du caractère dans le codage, et que nous noterons U+xxxx, en notation hexadécimale). Si Unicode refuse le terme de graphème, il s’en sert en tant qu’épithète pour définir des groupes graphémiques (DAVIS, IANCU 2016 : §3) : des « caractères perçus par l’humain, dépendant de la langue et du système d’écriture » — cette définition renvoie plutôt à des conventions orthographiques qu’à un véritable processus d’extraction de paires distinctives. Un groupe graphémique est une chaîne de caractères, contenant éventuellement certains caractères utilitaires dont le but est de séparer ou de réunir des graphèmes. Le rendu visuel d’un caractère est appelé un glyphe (le terme dédié en linguistique est celui d’allographe). La relation entre caractères et glyphes est une relation de plusieurs à plusieurs (un même caractère <A> U+0041 peut être rendu par plusieurs glyphes <A>, <A>, <A>, <𝔄>, … et un glyphe peut représenter plus d’un caractère, par exemple <A> peut représenter un A latin U+0041, un A cyrillique U+0410, un Alpha grec U+0391, etc.). D’autres travaux (BELLA, HARALAMBOUS 2006) ont tenté de réunir les notions de caractère et de glyphe, ainsi que toutes leurs propriétés, dans une unité fondamentale de l’écriture appelée textème.

1.1 La graphématique comparée

Dans cet article nous nous plaçons dans le cadre de la graphématique comparée, telle qu’elle a été définie par WEINGARTEN (2013 : 14) : il s’agit de comparer les correspondances des graphèmes avec d’autres unités linguistiques dans différentes langues et systèmes d’écriture, pour en dégager des principes généraux ainsi qu’un inventaire de cas particuliers et d’exceptions. WEINGARTEN (2013) propose une approche diachronique, mais ici nous nous limiterons à la synchronie.

Les unités linguistiques que nous allons considérer sont le graphème, le phonème et le morphème. Nous nous limiterons ici aux correspondances graphème-phonème et graphème-morphème.

2. Gestion de la répétition

Le phénomène qui nous intéressera dans cet article est celui de la répétition. Nous allons nous poser les questions suivantes :

  1. (γφ) Quels phonèmes sont représentés par des graphèmes répétés ? Et inversement, par quels graphèmes la répétition (dont un cas particulier est la gémination) de phonèmes est-elle représentée ? Les graphèmes en question sont donc des phonogrammes au sens de Catach.

  2. (γμ) Quels morphèmes sont représentés par des graphèmes répétés ? Et inversement, par quels graphèmes la répétition de morphèmes est-elle représentée ? Il s’agit donc de morphogrammes au sens de Catach.

Les deux questions correspondent à des unités linguistiques différentes (phonèmes pour (γφ), morphèmes pour (γμ)) et chacune comporte deux sous-questions que nous pouvons schématiser par : graphèmes→X, et X→graphèmes. WEINGARTEN (2012 : 20) appelle la première direction sémasiologique ou perspective du lecteur (que représente tel groupe de graphèmes au niveau des unités X ?) et la deuxième direction onomasiologique ou perspective de l’écrivant (comment tel phénomène linguistique ayant trait aux unités X est-il représenté par des graphèmes ?). Nous avons réuni les deux perspectives en une seule question parce que nous considérons que dans la plupart des phénomènes à étudier, elles sont coordonnées et il est inutile de les distinguer. Un autre niveau d’analyse du fait graphémique est celui de l’interaction des graphèmes entre eux, sans référence à une quelconque autre unité linguistique. Nous appellerons ce niveau (γγ).

2.1 Gestion ordinaire de la répétition et exemples de cas particuliers

Au niveau (γγ), le cas le plus ordinaire de répétition graphémique est la concaténation linéaire (dans le sens : de gauche à droite, de droite à gauche ou de haut en bas, selon la première direction fondamentale l’écriture) de graphèmes identiques, dans le cadre de la « chaîne graphémique » (par exemple, le graphème <r> dans <terre> ou le graphème <न> dans <ननद>(« belle-sœur » en hindi).

Dans le cadre de la correspondance (γφ) sémasiologique, on aura, le plus souvent, une représentation phonique dépendant du type d’écriture : dans le cas d’une écriture alphabétique ce seront des phonèmes répétés (par exemple, en italien, <nonna> est prononcé /nonna/) ou non (en grec moderne, <μέλλον> est prononcé /ˈmelon/ avec un seul /l/, malgré le double lambda), dans le cas d’une écriture alphasyllabaire (comme le devanagari, écriture utilisée pour le mot hindi <ननद>, prononcé /nanada/) ou syllabique on aura une répétition de syllabes et dans le cas d’une écriture de type abjad (comme l’écriture arabe) on aura une répétition de syllabes identiques ou alors de même consonne mais avec des voyelles courtes différentes (par exemple <سسن>, qui contient un double graphème <س>, « saison » en sindhi, et qui est prononcé /susan/).

Dans le cadre de la correspondance (γφ) onomasiologique, le cas le plus fréquent de représentation de la gémination phonique est de nouveau la concaténation linéaire de graphèmes, du moins pour les écritures alphabétiques. Lorsque le phonème est une consonne, les écritures de type abjad ainsi que les écritures alphasyllabaires possèdent un mécanisme spécial pour indiquer l’absence de voyelle entre les consonnes géminées : pour l’hébreu ce sera la diacritique chwa, pour les écritures indiennes la diacritique virama. L’arabe est un cas à part, puisque la diacritique soukoun, qui est habituellement utilisée pour indiquer l’absence de voyelle entre deux consonnes, n’est pas utilisée pour les consonnes répétées, et un signe diacritique spécifique à la gémination est utilisé à la place (cf. §3.2), le chadda.

Le cas le plus simple de correspondance (γμ) onomasiologique est la répétition des groupes de graphèmes représentant le morphème répété, séparés ou non par des graphèmes génériques (blanc, tiret, etc.), etc. Dans certaines écritures il existe des graphèmes spécifiques pour indiquer la répétition de groupe de morphèmes (cf. §3.2, 3.4, 3.5). Dans les langages formels, des procédés très précis ont été introduits pour représenter par des graphèmes la répétition de morphèmes (cf. §4).

Enfin, la correspondance (γμ) sémasiologique est intéressante puisqu’elle introduit le plus souvent du sens au-delà de la simple production de morphèmes répétés, par le simple fait que l’on se situe dans ce cas en plein axe syntagmatique. Ainsi, par exemple, la répétition <§§> du graphème <§> (qui est un morphogramme dont le sens est « paragraphe ») introduit un attribut de pluralité. Ce phénomène est de même nature que la réduplication de lexèmes (que nous n’allons pas examiner dans cet article) : par exemple, en indonésien, la réduplication est une marque de pluriel (par ex. <putri> « fille », <putri-putri> « filles »), en grec moderne elle peut signifier le superlatif (par ex. <πρωί> « au matin », <πρωὶ-πρωί> « très tôt le matin »), en chinois elle peut être une marque de registre informel (par ex. <坐> « s’asseoir » (formel), <坐坐> « s’asseoir » (informel)), etc. Ce n’est que dans le cas de systèmes totalement désémantisés comme les langages formels (cf. §4), que la répétition du même graphème ne signifie rien de plus que la répétition de même ordre du morphème correspondant.

Notons qu’autant au niveau linguistique la répétition est une opération productive et fertile, autant, au niveau cognitif, elle peut avoir des effets négatifs au niveau du rythme de lecture. En effet, la répétition de graphème déclenche une opération spécifique, la « reconnaissance immédiate de petites quantités » (le terme technique est subitisation), qui a été étudiée en psychologie cognitive expérimentale depuis les années 40 (DEHAENE 2008 : 279-280). Les études montrent que la subitisation ne fonctionne que sous de bonnes conditions, et en particulier lorsque les graphèmes sont suffisamment espacés (CAMOS 2012, ATKINSON et al. 1976), ce qui n’est habituellement pas le cas lorsqu’il s’agit d’un texte, et plus particulièrement, d’un texte imprimé. Pour se convaincre, le lecteur n’a qu’à essayer de compter le nombre de « n » dans le mot allemand Brennnessel ou la quantité de zéros du nombre 10000000 : cela est possible, mais le rythme de lecture s’en trouve perturbé. Pour pallier ce problème, et améliorer la charge cognitive des correspondances (γμ), les différents langues et systèmes sémiotiques basés sur l’écrit ont développé des stratégies de réduction de la subitisation, comme le groupement par lots ou la quantification explicite (cf. §3.7).

2.2 Typologie des procédés de gestion de la répétition graphémique

En nous limitant à des langues et à un système sémiotique basé sur l’écrit (les langages formels) nous allons illustrer sept types de mécanisme de gestion de la répétition graphémique pour les correspondances (γφ) et (γμ), typologie que nous avançons à partir de faits observés :

  1. la concaténation standard,
  2. la contraction, lorsque dans une correspondance (γφ), des phonèmes géminés sont représentés par un seul graphème,

  3. la ligature, lorsque dans une correspondance (γφ), des phonèmes géminés sont représentés par des graphèmes liés formant un seul graphème,

  4. la générisation, lorsque dans une correspondance (γφ) ou (γμ) un graphème générique (et donc indépendant du graphème répété) est utilisé pour indiquer la répétition,

  5. la variation, lorsque dans une correspondance (γμ) un graphème change de forme pour indiquer sa répétition,

  6. la quantification explicite, lorsque dans une correspondance (γφ) ou (γμ) un nombre est affixé au graphème pour indiquer la quantité exacte de répétitions des phonèmes ou morphèmes correspondant,

  7. le groupement par lots, lorsque des groupes de même cardinalité de graphèmes répétés sont séparés par des graphèmes-séparateurs spécifiques.

Nous allons par la suite passer en revue certains exemples caractéristiques des différents types de gestion de la répétition dans les correspondances (γφ) et (γμ).

3. Les langues naturelles

3.1. Réduction des triples consonnes allemandes

Parmi les plus importantes méthodes de création lexicale en langue allemande figure la composition de lexèmes par concaténation, qui peut être une composition classique (un déterminé précédé par un ou plusieurs déterminants, comme dans Universitätsbibliothek, formé du déterminé Bibliothek, et du déterminant Universität avec la marque du génitif), ou une agglutination (où un groupe de mots se soude en une seule unité graphique, comme die Hand voll qui devient die Handvoll : « la main pleine » devient après composition « la poignée ») (KAUFFER 2004 : 10).

Or, il arrive qu’un morphème lexical se terminant par deux consonnes identiques soit concaténé à un morphème lexical commençant par cette même consonne. Des exemples caractéristiques sont Schiff+Fahrt « voyage en bateau », Brenn+Nessel « ortie », Bett+Tuch « drap », etc. Jusqu’à 1998, la règle orthographique était de contracter les triples consonnes en doubles consonnes : <Schiffahrt>, <Brennessel>, <Bettuch> (le troisième exemple étant d’ailleurs ambigu puisqu’il peut se confondre avec le composé Bettuch=Bet+Tuch « drap de prière », homographe mais non homophone, puisque dans ce cas la première syllabe est longue). Dans tous ces exemples, la double consonne du premier morphème lexical est un phonogramme puisqu’il entraîne une modification phonétique de la syllabe : la voyelle se trouve raccourcie (comparer <hassen> /ˈhasn/ et <Hase> /ˈhaːzə/).

On constate donc que pour éviter les triples consonnes, l’orthographe de l’allemand a introduit des homographes hétérophones et hétérosèmes (<Bettuch>, par exemple pouvant être /ˈbɛttuːx/ « drap » ou /ˈbeːttuːx/ « châle de prière »). Notons que cette réduction suprasegmentale du nombre de graphèmes n’avait plus lieu d’être lorsque le mot était coupé en fin de ligne (la césure, par exemple, de <Schiffahrt> donnait <Schiff-fahrt>) et on récupérait ainsi de nouveau les morphèmes intacts. Dans le cas du texte imprimé, la convention était également d’éviter les ligatures suprasegmentales : ainsi, par exemple, dans les cas où le procédé typographique prévoyait une ligature esthétique <ff>, celle-ci était neutralisée dans le cas où les graphèmes appartenaient à des morphèmes lexicaux différents, et les graphèmes <f> étaient donc séparés.

La réduction des triples consonnes a été abolie par la réforme fédérale allemande de 1998 (BVerfG 1998) dont l’article 2c précise : Bei zusammengesetzten Wörtern sollen künftig in der Regel keine Buchstaben mehr entfallen « dans les mots composés on ne supprimera dorénavant plus aucune lettre ». Néanmoins, cette réforme n’a pas été favorablement accueillie par l’ensemble de Länder, des institutions et des éditeurs, et n’est donc pas encore appliquée uniformément en Allemagne.

3.2 Consonnes géminées arabes

L’écriture arabe ne note les voyelles courtes qu’optionnellement, par des graphèmes diacritiques suscrits ou souscrits. Le mécanisme de formation lexicale arabe est basé sur les notions de racine et de schème (RYDING 2005 : 45). Le schème indique les lettres ou groupes de lettres à affixer aux lettres de la racine pour produire une forme donnée.

Dans certains cas, le schème ne prévoit pas de voyelle courte pour une position donnée de la racine. On place alors, dans un texte voyellé, un signe diacritique suscrit de la forme d’un petit cercle qui dénote l’absence de voyelle courte, appelé soukoun (U+0652), comme dans دؘرؘسْتُ (/darastu/, « j’ai étudié », de la racine د - ر - س /d-r-s/ combinée avec le schème /a-a-tu/). Néanmoins il y a un cas où le soukoun n’est pas utilisé, c’est le cas où les deux consonnes qu’il sépare sont identiques et où il s’agit donc d’une gémination (RYDING 2005 : 24). Ainsi, par exemple, le schème de la deuxième forme dérivée, qui indique l’intensité de l’action ou le caractère factitif, comporte une gémination de la deuxième position de la racine. Le graphème correspondant sera marqué par un signe diacritique suscrit spécifique < ّ > appelé chadda « emphase » (U+0651). Ainsi دؘرؘسْتُ (/darastu/, « j’ai étudié ») devient دؘرؘّسْتُ (/darrastu/, « j’ai enseigné »). La forme du signe diacritique < ّ > rappelle celle de la lettre sin <س> dont la forme pointée <ش> est l’initiale du mot <شدّة> (chadda).

On a donc affaire ici à une générisation, puisque la deuxième consonne est remplacée par le graphème générique chadda.

Ce graphème est également utilisé pour indiquer le phénomène d’assimilation (RYDING 2005 : 40) : lorsque un mot commençant par une lettre appelée solaire est précédé de l’article défini <ال> /al/, le phonème /l/ de l’article est remplacé par le phonème initial du mot qui suit. On obtient ainsi une consonne géminée au niveau phonique, mais au niveau de l’écrit le graphème <ل> de l’article défini reste intact. La consonne initiale du mot est marquée, dans une écriture voyellée, d’un chadda.

3.3 Consonnes géminées dans les écritures indiennes

Les écritures indiennes (devanagari, bengali, gujarati, etc.) sont alphasyllabaires, dans le sens où les graphèmes de base représentent, sur le plan phonique, des syllabes de type CV avec une voyelle par défaut (le /a/) et que pour obtenir d’autres voyelles on se sert de graphèmes diacritiques. Parmi ceux-là on trouve le virama (DANIELS, BRIGHT 1996 : 387), diacritique souscrit suprasegmental qui dénote l’absence de voyelle de la syllabe qui précède. Mais souvent, dans un souci d’économie graphique, au lieu d’écrire des paires de graphèmes séparés par des virama, on forme des ligatures. Ainsi, par exemple, la gémination de la consonne de la syllabe <ल> /ka/ est représentée par la ligature <ल्ल> /kka/ (on remarquera que la barre verticale du graphème de gauche a disparu).

3.4 Signes de répétition graphémique en japonais

La langue japonaise utilise quatre systèmes d’écriture : les idéogrammes d’origine chinoise (kanji) qui sont, dans leur écrasante majorité, des morphogrammes, ainsi que deux types de syllabaires (hiragana et katakana) et l’écriture latine diacritée, qui sont des phonogrammes. Pour les trois premiers systèmes il existe des graphèmes génériques de répétition <々> dōnojiten (qui est un morphogramme), <ゝ> hiraganagaeshi, <ヽ> katakanagaeshi (qui sont des phonogrammes) (U+3005, U+309d, U+30fd, resp.) (DAUBet al.  1990 : §4.2, §6.1).

Les graphèmes de répétition <ゝ>, <ヽ> agissent uniquement au niveau phonique. Notons qu’ils opèrent indépendamment de la sonorisation des syllabes (qui est représentée par le diacritique adscrit dakuten<゛>). Ainsi, là où la syllabe <し> /ɕi/ devient par l’effet de la sonorisation <じ>/ʥi/, si on lui applique le graphème de répétition <じゝ> cela donnera phonétiquement non pas /ʥi ʥi/, mais/ʥiɕi/ (comme si c’était <じし>). Pour répéter la syllabe tout en maintenant la sonorisation il aurait fallu diacriter aussi le graphème de répétition : <じゞ>. Il s’agit donc d’une générisation qui reste indépendante de la sonorisation.

Notons qu’en japonais chaque graphème kanji peut avoir plusieurs réalisations phonétiques correspondant à des sèmes différents. Ces réalisations peuvent être très variées pour des raisons historiques : certaines (appelées kun) proviennent de morphèmes japonais, et d’autres (appelées on) proviennent des réalisations phonétiques des mêmes graphèmes en langue chinoise et ont été importées au Japon en même temps que les graphèmes. Le graphème de répétition morphémique <々> est en réalité phonomorphémique puisqu’il répète et le morphème et la réalisation phonétique, et contribue ainsi à la désambiguïsation. Par exemple, le caractère idéographique <日>prononcé /çi/ est un morphème lexical qui signifie « jour », et prononcé /niʨi/ un suffixe grammatical servant à la formation de dates. La chaîne graphémique <日日> peut être prononcée aussi bien /çibi/ (« jour après jour », donc deux fois /çi/, le deuxième ayant muté en /bi/) que/çiniʨi/(« nombre de jours », réalisations phonétiques différentes pour chaque graphème) — en écrivant <日々>, la réalisation /çiniʨi/ est exclue, ce qui restreint le nombre de significations possibles et désambiguïse le texte. Il s’agit donc d’un procédé de répétition de type générisation et plus spécialement, générisation phonomorphographique.

3.5 Signes de répétition de mots-formes ou de syntagmes

Si les graphèmes japonais dōnojiten représentent la répétition du graphème qui précède, il existe dans plusieurs langues des graphèmes qui représentent la répétition de groupe de graphèmes plus étendu, qui peut être un mot-forme (dans les écritures où cette notion a un sens) ou un syntagme.

Ainsi, en japonais il existe le graphème <〱> (U+3031) appelé kunojiten, utilisé uniquement en écriture verticale, et qui va s’étendre en hauteur pour occuper deux, trois ou plus carrés idéographiques. On a donc affaire à une répétition d’un groupe de longueur variable (mais néanmoins assez bornée) de graphèmes, longueur signalée graphiquement par la variation du graphème générique.

En thaï, on trouve le graphème <ๆ> may yamok (U+0e46) (IWASAKI 2005 : 24), dont la forme dérive de celle du chiffre deux <๒>. Il représente la répétition du mot ou du groupe nominal qui le précède, répétition qui est souvent marqueur d’emphase.

En malais (écrit en alphabet latin), le chiffre <2> est utilisé (HAJI OMAR 1989 : §10) pour représenter soit la répétition du radical d’un mot composé soit d’un mot entier. Ainsi on a <rumah> « maison » et <rumah2> en répétition complète, « maisons ». Néanmoins le procédé de générisation entraîne des ambiguïtés quand les deux alternatives existent dans la langue, avec des significations différentes, exemple : <sekali> « une fois » dont le radical est <kali>, <sekali2> peut signifier aussi bien <sekali-kali> « pas du tout », que <sekali-sekali> « jadis ».

À ces graphèmes s’ajoute le graphème universel de répétition appelé ditto (de l’italien detto « dit ») (U+2033) qui peut être représenté par des allographes différents selon la langue et le système d’écriture. En français la convention est d’utiliser un tiret long <—> (CODE 1981 : §101.4). Dans un tableau, une liste ou un index, ce graphème est placé de manière à être centré sous un groupe de graphèmes de la ligne précédente, il signifie alors leur répétition.

3.6 Quantification graphémique explicite dans les sigles

Si la subitisation provoque une charge cognitive significative à partir de trois graphèmes identiques, il existe (hormis les mots composés allemands) une autre famille de chaînes graphémiques présentant de telles répétitions : les sigles. En réaction à cela, les réalisations phonétiques de certains sigles comportent des chiffres pour indiquer le nombre de répétitions d’une lettre initiale (par exemple, <IEEE> est prononcé /itʁwaze/ i-trois-e, <SSII> est prononcé /døzɛsdøzi/ deux-s-deux-i).

Ce procédé de quantification explicite s’est récemment étendu aussi au niveau graphémique et on trouve des sigles comportant des chiffres qui indiquent le nombre de répétitions du graphème qui précède ou qui suit. Ainsi, <D3E> signifie Déchets d’Équipements Électriques et Électroniques, <M3> Mythical Man Month, <P3P> Platform for Privacy Preferences Project, <W3C> World Wide Web Consortium, etc. Plus spécifique à la gastronomie française, notons l’andouillette <5A> (c’est-à-dire portant un label décerné par l’Association Amicale des Amateurs d’Andouillette Authentiques).

Néanmoins, il ne faut pas confondre le procédé de quantification explicite des exemples cités avec le procédé de similarité phonétique du chiffre utilisé, par exemple, dans les sigles anglais <P2P> (Peer-to-Peer, le chiffre <2> se prononçant /tu/ en anglais, comme la préposition to), <B4> (before), <L8r> (later), ainsi que le sigle français <K7> (cassette).

La quantification explicite peut être étendue aux classes de graphèmes, autrement dit, ce qui est répété n’est pas un graphème spécifique mais des graphèmes appartenant à une certaine classe, par exemple des lettres de l’alphabet latin. Cela a donné naissance à une troisième catégorie de sigles comportant des chiffres, où le nombre compris dans le sigle représente le nombre de lettres omises, par exemple <i18n> pour internationalisation, <m17n> pour multilingualization, <m12n> pour modularisation, etc. Il est à noter que dans ce procédé, des confusions visuelles sont évitées par des impératifs de casse : ainsi la lettre <L> doit toujours être capitalisée et la lettre <i> toujours utilisée en bas-de-casse pour éviter la confusion avec le chiffre <1>.

3.7. Les nombres en représentation décimale

Pour gérer la répétition dans l’écriture des nombres deux stratégies sont utilisées : le groupement par lots pour les chiffres de la partie entière d’un nombre et la variation pour l’éventuelle période de la partie décimale.

Considérons d’abord le problème de la partie entière d’un nombre assez grand. Puisque, du moins en Occident, la lecture du nombre se fait en triples puissances de dix (unités, milliers, millions, milliards, etc.) et que ces puissances correspondent à des triplets de chiffres dans la représentation décimale d’un entier, il est naturel de séparer les triplets de chiffres par un séparateur spécifique : en France il s’agit de l’espace fine (le séparateur décimal étant la virgule), en Allemagne et en Grèce le point (resp. la virgule), dans les pays anglosaxons la virgule (resp. le point), etc., tout en sachant que la norme SI/ISO 31-0 de 2003 préconise l’approche française. C’est donc <1 000 000> qui représente un million. Seule exception au groupement par triplets : en Inde, on utilise un triplet pour les milliers mais ensuite des paires : ainsi, un milliard s’écrira <1,00,00,00,000>. À noter que ce procédé ne concerne que les nombres cardinaux.

La situation est bien différente pour les chiffres de la partie décimale où ce qui importe est l’éventuelle période. En effet, tout nombre rationnel, c’est-à-dire le résultat d’une division de nombres entiers, est périodique, et en indiquant la période on se ramène à une représentation finie. Pour indiquer le motif périodique on peut l’écrire au moins deux fois, suivi de points de suspension : <0,333…> pour 1/3, <0,142857142857…> pour 1/7, <0,111…> pour 1/9, etc. Une autre approche, plus savante mais plus économique, consiste à marquer explicitement la période en utilisant des soulignés ou des points suscrits : 0,3, 0,142857, 0,1. Il s’agit, ici, d’une contraction avec variation, puisqu’on contracte la chaîne graphémique en n’écrivant qu’un nombre minimum de chiffres marqués par des diacritiques pour indiquer l’appartenance au motif périodique.

4. Un système sémiotique plus général : les langages formels réguliers

Chomsky a introduit la notion de langage formel de la manière suivante : soit A un ensemble de symboles appelés alphabet, et soit (A, *, ε) le monoïde libre généré par A, dont on appellera la loi concaténation, les éléments mots, et l’élément neutre ε, mot vide. La longueur d’un mot est le nombre de symboles dont il est composé. Un langage formel L sur A est un sous-ensemble (éventuellement infini) de (A, *, ε). Si la définition de langage formel en général est simple, toute la difficulté se trouve dans la description d’un langage formel, c’est-à-dire la donnée d’une procédure qui permette d’affirmer si un mot quelconque appartient, ou non, à un langage donné.

Les langages formels sont le résultat d’un processus de désémantisation (DUTILH NOVAES 2012 : 54), ainsi ni les symboles d’un alphabet, ni les mots d’un langage n’ont aucune signification a priori. Cela étant, rien ne nous empêche de représenter les symboles et les mots de cet objet mathématique abstrait qu’est un langage formel, par des graphèmes et des chaînes graphémiques de systèmes d’écriture existants, en conservant les règles d’interaction des graphèmes (par exemple, les liaisons des lettres arabes, les ligatures indiennes, etc.).

En faisant cela, les mots et les séquences de mots du langage formel se rapprocheront (au niveau des graphèmes) de plus en plus à des blocs de texte écrit dans le système d’écriture qui a servi pour former l’alphabet du langage. Ce rapprochement de chaînes graphémiques d’une langue par des mots de langage formel donne accès à une multitude d’opérations d’analyse et de manipulation de texte. Un exemple très répandu de telle opération est celle de recherche/remplacement que proposent certains éditeurs ou traitements de texte : l’utilisateur indique le ou les mot(s) qu’il cherche, l’ensemble de ces mots est considéré comme un langage formel et le logiciel vérifie pour chaque mot du texte son appartenance ou non à ce langage. Pour permettre un maximum de flexibilité à l’utilisateur au niveau des recherches qu’il peut effectuer, il est nécessaire de disposer d’un moyen de décrire facilement un tel langage, quelle que soit sa complexité.

Dans ce but, et pour un type de langage formel particulier, les langages réguliers, on dispose d’un outil spécifique : les expressions régulières. Introduites par Stephen Kleene en 1956, et implémentées pour la première fois par Ken Thompson en 1968 (FRIEDL 2006 : 85), elles permettent, en attribuant des sémantiques spécifiques à certains caractères, de décrire tout un langage par une simple chaîne de caractères. Un exemple : l’expression régulière <[A-HJ-NP-TV-Z]{2}[0-9]{3}[A-HJ-NP-TV-Z]{3}> décrit, grosso modo, le langage dont les mots sont les numéros des plaques minéralogiques françaises en vigueur depuis 2009 (JORF n° 0035 du 11 février 2009, p. 2393).

Pour gérer la répétition, les expressions régulières2 utilisent aussi bien la quantification explicite que la générisation :

  1. pour indiquer que dans les mots du langage, un caractère <x> doit être répété, par exemple, 7 fois, on peut soit l’écrire sept fois <xxxxxxx>, soit lui appliquer un quantificateur, il s’agit d’un nombre placé entre accolades : <x{7}>. On peut aussi utiliser des valeurs minimales et maximales : <x{3,17}> signifie que dans un mot on peut avoir entre 3 et 17 symboles x concaténés, <x{,17}> entre 0 et 17, <x{5,}> au moins 5. Il existe aussi des notations abrégées : <x+> est l’équivalent de <x{1,}> et <x*> l’équivalent de <x{0,}>. Notons que les parenthèses permettent d’appliquer les quantificateurs à une partie de l’expression régulière : <(taca){3}> décrit le langage dont le seul mot est <tacatacataca> ; de même, les crochets permettent de définir des classes de symboles : ainsi, par exemple, <[aeiou]{3}> est le langage dont les mots sont de longueur 3 et formés par les symboles <a>, <e>, <i>, <o>, <u>. En combinant parenthèses, crochets, et quantificateurs, on obtient une puissance expressive considérable ;

  2. la générisation est poussée plus loin et devient une véritable mémorisation : au lieu de simplement répéter le dernier graphème ou morphème, on peut mémoriser une partie du mot en la plaçant dans un groupe parenthésé et la réutiliser plus loin en indiquant le numéro de groupe (précédé d’une barre oblique inverse). Ainsi, <(taca)1> décrit le langage (peu intéressant) dont le seul mot est <tacataca>. Autre exemple, plus utile : l’expression <([a-z]+)[ ]+1> permet de trouver tous les mots doubles d’un texte, quand le texte est écrit en lettres latines bas-de-casse non-diacritées, et les sont mots séparés par un ou plusieurs blancs.

Les expressions régulières décrivent des langages formels, c’est-à-dire des ensembles de mots. En les insérant dans un texte, on peut considérer qu’elles lui confèrent une série d’alternatives textuelles, à la manière des jeux de parenthèses en usage pour indiquer des choix alternatifs de genre, comme dans <les étudiant(e)s français(es)>. Cette greffe de formalité dans le langage naturel a été exploitée à des fins poétiques. Ainsi le poète américain Dan Waber écrit

I need /t(w?o{1,2}) w?r(i|a|ough)te?/.

qui décrit le langage des énoncés <I need to right>, <I need to write>, <I need two rate>, <I need too wrought>, plus d’autres combinaisons que le lecteur peut explorer mais qui ne font pas forcément sens (WABER 2008 : 149). Le poète a donc la possibilité de doser finement la part de combinatoire présente dans le poème, en allant d’un texte « classique » parfaitement figé jusqu’à un cadavre exquis total, aussi bien au niveau des graphèmes, que des mots, que des phrases.

5. Conclusion

Après une introduction générale à la graphématique et à la graphématique comparée, nous avons présenté différents cas caractéristiques d’application des procédés de gestion de répétition graphémique dans les différentes langues et écritures. Le tableau suivant résume la typologie de chaque exemple donné :

Haralambous tab 1

Grâce à ces exemples on ne peut que constater la richesse et l’inventivité des utilisateurs des différentes langues et écritures devant les problèmes posés par la répétition de phonèmes, graphèmes ou morphèmes. Ce qui transparaît également est la complexité des correspondances graphèmes / phonèmes / morphèmes, qui mérite à juste titre — et surtout à l’ère actuelle du texte numérique — de faire partie intégrante du champ de recherche de la linguistique.

Références bibliographiques

ANIS, Jacques et al., L’Écriture. Théories et descriptions, Bruxelles, De Boeck Université, 1988.

ANIS, Jacques, « Vers une sémiolinguistique de l’écrit », Linx, 43, 2000, p. 29-44,http://linx.revues.org/1046.

ATKINSON, Janette, CAMPBELL, Fergus W., FRANCIS, Marcus R., « The magic number 4 +/– 0 : a new look at visual numerosity judgements », Perception, 5, 1976, p. 327–334.

BELLA, Gábor, HARALAMBOUS, Yannis, « Fontes intelligentes, textèmes et typographie dynamique », Document électronique, 9, 2006, p. 167-216, http://www.cairn.info/revue-document-numerique-2006-3-page-167.htm.

BVerfG, Bundesverfassungsgericht, Urteil des ersten Senats vom 14. Juli 1998- 1 BvR 1640/97 (Tribunal constitutionnel fédéral de la RFA, Jugement du premier sénat, 14/7/1998), 1998.

CATACH, Nina, L’orthographe française, traité théorique et pratique, Paris, Nathan, 1986.

CHOMSKY, Noam, « On Certain Formal Properties of Grammars », Information and Control, 2, 1959, p. 137-167.

(CODE) Fédération nationale du personnel d'encadrement des industries polygraphiques et de la communication, Code typographique – choix de règles à l'usage des auteurs et des professionnels du livre, 13ᵉ édition, Paris, 1981.

COULMAS, Florian, Writing Systems, an Introduction to their Linguistic Analysis, Cambridge, Cambridge University Press, 2003.

DANIELS, Peter T., BRIGHT, William, The World’s Writing Systems, New York, Oxford University Press, 1996.

DAUB, Edward E., BIRD, R. Byron, INOUE, Nobuo, Basic Technical Japanese, The University of Wisconsin Press / University of Tokyo Press, 1990.

DAVID, Jacques, « Pour une sémiologie de l’écrit, entre oralité et scripturalité », Le français aujourd’hui, vol. 170, n° 3, 2010, p. 31-49.

DAVIS, Mark, IANCU, Laurențiu, Unicode Standard Annex #29, Unicode Text Segmentation, Mountain View, Unicode Consortium, 2016.

DEHAENE, Stanislas, « Psychologie cognitive expérimentale », Annuaire du Collège de France 2007–2008 (2008), p. 277–301.

DEHORNOY, Patrick, Mathématiques de l’informatique, Paris, Dunod, 2000.

DUTILH NOVAES, Catarina, Formal Languages in Logic, Cambridge, Cambridge University Press, 2012.

FRIEDL, Jeffrey E. F., Mastering Regular Expressions, Sebastopol (US), O’Reilly, 2006³.

GELB, Ignace, A Study of Writing, Chicago, The University of Chicago Press, 1963².

HAJI OMAR, Asmah, « The Malay Spelling Reform », Journal of the Simplified Spelling Society, vol. 2, 1989, p. 9-13.

HARALAMBOUS, Yannis, Fonts & Encodings, Sebastopol, O’Reilly, 2007.

HARRISON, Michael A., Introduction to Formal Language Theory, Reading, Addison-Wesley, 1978.

KAUFFER, Maurice, Les mots composés allemands en texte. Essai de synthèse méthodologique et critique, Bern / Berlin, Peter Lang, 2005.

KOHRT, Manfred, Problemgeschichte des Graphembegriffs und des frühen Phonembegriffs, Tübingen, Niemeyer, 1985.

KÜSTER, Marc Wilhelm, Geordnetes Weltbild. Die Tradition des alphabetischen Sortierens von der Keilschrift bis zur EDV, Tübingen, Niemeyer, 2006.

LOCKWOOD, David G., « Phoneme and grapheme : how parallel can they be ? », Lacus Forum27 (2009), 307–316.

PELLAT, Jean-Christophe, « Indépendance ou interaction de l’écrit et de l’oral ? Recensement critique des définitions du graphème », in CATACH, Nina (éd.) Pour une théorie de la langue écrite, Paris, Éditions du CNRS, 1988, p. 133-146.

RYDING, Karin C., A Reference Grammar of Modern Standard Arabic, Cambridge, Cambridge University Press, 2005.

SAUSSURE, Ferdinand de, Cours de linguistique générale, Paris, Payot & Rivages, 1995 (facsimilé de l’édition de 1959).

UNICODE, The Unicode Standard Version 9.0 – Core Specification, Mountain View, Unicode Consortium, 2016.

WABER, Dan, « Regular Expressions as a System of Poetic Notation », P-Queue, 5 (2008), p. 143–156.

WEINGARTEN, Rüdiger, « Comparative graphematics » in BORGWALDT, Susanne R., JOYCE, Terry (eds.), Typology of Writing Systems, Benjamins Current Topics, 51, Amsterdam/Philadelphia, John Benjamins Publishing Company, 2013.

1
Dans cet article nous noterons par des chevrons < > les graphèmes et chaînes graphémiques, par des barres obliques / / les phonèmes (en alphabet phonétique international), par des italiques les mots étrangers et par des guillemets « » les exemples de mots français ou les sens de mots étrangers.

2
Les exemples donnés utilisent la syntaxe des expressions régulières POSIX.2 (1992).

Per citare questo articolo:

Yannis HARALAMBOUS, Gestion de la répétition dans les correspondances graphème-phonème et graphème-morphème, Repères DoRiF n. 13 - La Répétition en langue - coordonné par Ruggero Druetta, DoRiF Università, Roma octobre 2017, http://dorif.it/ezine/ezine_articles.php?id=346

Ritorna alla Barra di Navigazione