Versione stampabile

Roberto PATERNOSTRO

« Ça paraît agressif, mais ça l’est pas quand tu viens de banlieue » : ce que le corpus MPF nous apprend sur l’intonation des jeunes en région parisienne

Roberto Paternostro
Université de Genève - ELCF
Roberto.Paternostro@unige.ch

Résumé

Cet article se penche sur la perception de l’« accent » des jeunes de la région parisienne, en lien notamment avec le plurilinguisme et le multiculturalisme caractérisant le paysage sonore de la capitale française. Les résultats issus d’un test de perception montreront que l’« accent de banlieue » n'est pas aussi marginal que les préjugés communs le supposent : il serait davantage question de modèles déjà repérés et courants mais recyclés dans des cadres inattendus.

Abstract

This paper deals with the perception of young Paris speakers’ accent, in connection with the multicultural and plurilingual environment of the Paris region. Results from a perception test will show that a “banlieue” accent is not as marginal as common prejudice assumes. It has more to do with current and recorded models recycled in unexpected frameworks.

Introduction

Le modèle du « français parisien » (BORRELL & BILLIERES, 1989) suppose un monolinguisme diffusé et une homogénéité des formes et des usages qui ne tiennent pas compte du plurilinguisme propre aux grandes villes ni de la force d’attraction que Paris exerce depuis l’ère industrielle sur les migrants de différentes origines (CALVET, 1993). La configuration géo-sociale de la capitale française, idéalement distribuée autour d’un centre, ne peut pas en effet négliger l’existence d’une périphérie qui, loin d’être statique et marginale, s’avère plus dynamique qu’elle ne l’apparaît. C’est de ce dynamisme que témoignent les parlers jeunes, qui constituent une facette particulièrement créative du français « populaire » (CONEIN & GADET, 1998).
Parmi d’autres aspects linguistiques, l’intonation constitue un indice majeur pour l’identification des parlers jeunes en région parisienne. Plusieurs études suggèrent qu’un patron mélodique montant-descendant, se caractérisant par une montée et une chute abruptes de la fréquence fondamentale (F0) serait l’un des principaux responsables de la perception d’un accent de banlieue (entre autres : FAGYAL, 2010). De plus, un tel « accent » est souvent associé dans la perception courante à des jeunes issus de quartiers populaires, notamment d’origine africaine (FAGYAL, 2005 ; BOULA DE MAREÜIL & LEKHA-LEMARCHAND, 2011).
Dans Paternostro (2012), nous avons cependant montré que l’hypothèse ethnique est à écarter et que la dynamique de la variation est à rechercher dans l’appréhension partagée d’une « proximité communicationnelle » (KOCH & ŒSTERREICHER, 2001). Une caractérisation d’ordre pragmatique du français standard montre ses accointances avec la « distance ». Cette forme est en effet sélectionnée lorsque les locuteurs interagissent sans appui partagé sur un ensemble de savoirs et d’expériences. Les formes non standard apparaissent en contraste, étant avant tout une expression de proximité. Ainsi conçus, les parlers jeunes ne seraient plus question d’opposition entre standard et non-standard mais une forme « actualisée » dans la proximité communicationnelle (GUERIN & PATERNOSTRO, 2014).

Stewart & Fagyal (2005) ont par ailleurs suggéré que les contours intonatifs banlieue véhiculent de l’agressivité, même lorsqu’ils apparaissent en contexte neutre. Le lien entre contours emphatiques et accent de banlieue n’est donc pas fortuit. Les interactions qui se tissent en banlieue semblent favoriser l’émergence d’un « style de parole emphatique » (SELTING, 1994), caractérisé par des traits exprimant la connivence et l’implication des locuteurs.

La comparaison d’environ 600 contours intonatifs connotés banlieue avec le patron mélodique, lui aussi montant-descendant, de contours emphatiques (DELATTRE, 1966 ; DI CRISTO, 1998), connus du français standard, a montré qu’il est difficile d’affirmer l’existence de deux contours « différents », se caractérisant par des traits acoustiques spécifiques et suffisamment éloignés pour que les deux contours soient considérés comme différents (PATERNOSTRO & GOLDMAN, 2014).

Notre hypothèse est que, même à un niveau perceptif, les locuteurs sont difficilement capables d’opérer une distinction entre des contours emphatiques, qui ne sont pas habituellement associés à l’accent d’une population spécifique, et des contours liés plutôt à la perception d’un accent de banlieue. Ainsi, dans cet article, nous nous focaliserons sur ces aspects perceptifs par le biais de deux tests de perception administrés auprès d’étudiants parisiens. Nous nous appuierons sur des données authentiques recueillies dans le cadre du projet « Multicultural Paris French » (MPF)1, de façon à comprendre ce qui se joue au niveau phonétique, lorsque des locuteurs interagissent de façon spontanée dans un cadre de « proximité » communicationnelle.

1. La perception des « accents »

Il est bien connu à quel point le terme accent est ambigu (BOULA DE MAREÜIL, 2010), car il désigne à la fois une proéminence accentuelle et une prononciation particulière associée à un groupe social, géographique ou à un style de parole spécifique. Nous l’utiliserons ici dans son sens courant de « façon de parler ». Plus particulièrement, la perception des accents repose sur ce que Léon (1993 : 21-22) appelle « fonction identificatrice », à savoir le fait que lorsqu’un locuteur parle, ceux qui l’écoutent observent son comportement linguistique et font des inférences sur son identité sociale au sens large (âge, sexe, origine géographique, état psychologique, classe sociale, etc.).

Les traits phonétiques ne peuvent pas être associés de façon exclusive et automatique à une seule variété de langue. Ils fonctionnent plutôt par effet de cumul et se situent sur un continuum parfois difficile à préciser. Lorsque les locuteurs ne parviennent pas à prendre appui sur un nombre suffisant d’indices, ils ont l’impression d’être perdus et essaient donc de s’appuyer sur les quelques traits qu’ils identifient pour juger un accent. Cette interprétation est alors susceptible de mobiliser les représentations des locuteurs et ne correspond que rarement à la réalité linguistique (HOUDEBINE, 1982 : 50).

Le rapprochement entre prosodie et perception de l’emphase n’est pas banal. L’anecdote ci-dessous montre que certains indices mélodiques sont susceptibles de véhiculer de l’emphase dans un contexte de parole qui est neutre, en tous cas du point de vue des apparentes intentions de l'énonciateur :

« The incident took place in London on a bus driven by a West Indian driver/conductor. The bus was standing at a stop and passengers were filling in. The driver announced periodically, “Exact change, please”. The second time around, he said “please” with extra loudness, high pitch, and falling intonation, and he seemed to pause before “please”. One passenger so addressed, as well as several following him, walked down the bus aisle exchanging angry looks and obviously annoyed, muttering, “Why do these people have to be so rude and threatening about it ? » (GUMPERZ, 1977 : 199).

La répétition machinale d’une consigne technique, prononcée à voix haute, sur un ton élevé et avec une intonation descendante, est perçue comme « impolie » et « menaçante » de la part d’usagers qui ont du coup même renoncé à monter dans le bus. Il faut souligner que le chauffeur d'autobus n'est pas un Londonien natif. Gumperz avait en effet été embauché par les autorités locales, afin d'aider la compagnie des autobus à comprendre pourquoi il y avait tant de plaintes concernant la supposée grossièreté de chauffeurs d'origine pakistanaise.

Ce qui s’est passé à Londres est probablement comparable à ce qui peut se passer à Paris lorsqu’un francophone affirme se sentir agressé quand il entend parler un jeune ayant un accent de banlieue. Le lien entre accent de banlieue et parole emphatique pourrait constituer l’un des facteurs responsables de la perception d’un langage « dur » et « impoli ».

Nous reprenons ici la définition de l’emphase donnée par Selting (1994) en tant qu’implication et engagement des locuteurs en interaction ainsi que l’étude de Bagou (2001) et les observations de Vaissière (2006), qui décrivent les corrélats acoustiques de l’implication emphatique en français, caractérisée surtout par des mouvements amples de la F0. Ces indices d’ordre phonétique, en association avec d’autres indices d’ordre linguistique et/ou extra-linguistique, tels qu’un usage fréquent de mots phatiques (tu vois ? ah bon ? alors, voilà, quoi, etc.), mais aussi toute une attitude physique passant par les regards, les mimique ou les gestes (voir : LEPOUTRE 1997 ; LABOV 1972), contribuent grandement à la mise en place et à l’expression d’une certaine connivence des locuteurs dans les interactions quotidiennes, caractérisées par un haut degré de proximité communicationnelle. Ils favorisent le recours à l’implicite et la création de raccourcis qui ne peuvent être interprétés qu’à partir d’un ensemble de savoirs et d’expériences partagés.

2. Présentation du test de perception

Notre test de perception se compose de deux volets, un premier qui porte sur la reconnaissance en parole filtrée2 d’extraits de parole neutre et emphatique, sur la seule base d’indices mélodiques ; et un deuxième qui porte sur la capacité à opérer une distinction entre des contours intonatifs montants-descendants plutôt emphatiques ou plutôt banlieue.

Notre hypothèse est, d’abord, que les locuteurs sont en mesure de reconnaître, sur la base d’indices mélodiques, un style de parole emphatique et que par conséquent l’intonation se situe parmi les principaux responsables de la perception d’emphase en français. Enfin, comme nous l’avons dit plus haut, les contours montants-descendants connotés « banlieue » possèdent des caractéristiques similaires aux contours emphatiques, notamment en ce qui concerne les mouvements mélodiques. De ce fait, ils contribuent à la perception d’une parole marquée par l’emphase. C’est la raison pour laquelle il ne nous semble pas certain que les locuteurs soient toujours capables d’opérer une distinction entre des contours emphatiques, qui ne sont pas habituellement associés à l’accent d’une population spécifique, et des contours liés plutôt à la perception d’un accent de banlieue. Si cette hypothèse se confirme, cela pourrait vouloir dire que l’accent de banlieue n'est pas aussi marginal que les préjugés communs le supposent : il serait davantage question de modèles déjà repérés, attestés et courants mais recyclés dans des cadres inattendus.

2.1 Présentation des juges

Le choix des juges dans un test de perception n’est jamais une démarche anodine et est soumis à plusieurs contraintes : temporelles, budgétaires, mais surtout scientifiques. L’objet de notre test ayant trait à un accent considéré comme spécifique des jeunes de la banlieue parisienne, nous avons jugé indispensable de le proposer à un public constitué de jeunes Parisiens ou du moins qui sont en contact avec la région parisienne. C’est la raison pour laquelle nous avons eu recours à des étudiants de l’Université Paris Ouest (Nanterre) et de l’Université Paris Descartes, plus précisément du pôle situé à Boulogne Billancourt, pour cette dernière.

Le fait d’avoir choisi des étudiants de facultés parisiennes situées en banlieue, nous a permis d’une part d’avoir affaire au genre de public que nous cherchions. Cela a aussi répondu à des exigences purement pratiques : la possibilité de regrouper un nombre important et assez homogène de juges, facilement, rapidement et gratuitement. Le seul défi à relever était d’essayer de les motiver, de façon à ce qu’ils participent de façon active et coopérative.

Notre échantillon de juges se compose au total de 72 individus3, dont 9 hommes et 63 femmes, âgés de 23 ans en moyenne.

Nos juges sont tous étudiants, de niveau compris entre bac + 2 et bac + 4. 58% de la population interrogée est originaire de la région parisienne, 24% des autres départements de la France. Seuls 18% sont d’origine étrangère. Néanmoins, 98% des juges déclarent habiter en région parisienne et 78% affirment avoir des contacts avec des jeunes ayant un accent dit de banlieue. 64% des juges déclarent habiter en banlieue parisienne alors que seuls 28% déclarent habiter dans Paris intra-muros.

2.2 Conditions de passation du test de perception

La passation du test s’est déroulée dans des salles de cours, de façon collective. Les pistes audio, préparées au préalable, ont été diffusées via un ordinateur central, relié à des enceintes. Les salles étaient suffisamment silencieuses et le volume des extraits sonores suffisamment puissant pour que les conditions d’écoute soient relativement bonnes. Une fois installés, les juges ont reçu un questionnaire individuel, sous format papier. Nous avons annoncé les consignes nous-même et nous avons dirigé l’expérience tout au long de son déroulement. La durée prévue d’une séance complète, sans calculer le temps pour les consignes et de la préparation, était de 30 minutes environ.

3. Description de la première partie du test

Le premier volet du test porte sur la perception en parole filtrée d’extraits sonores comportant des énoncés « neutres » (NE) et des énoncés « emphatiques » (EM). Le but est de voir si des usagers de la langue (les juges) sont capables de percevoir un style de parole emphatique à partir des seuls indices mélodiques et donc de faire la différence entre des extraits plutôt neutres, qui présentent majoritairement des contours continuatifs et/ou conclusifs, et des énoncés plutôt emphatiques, qui se caractérisent par un certain nombre de contours montants-descendants, y compris des contours « banlieue »4.

Nous avons choisi d’avoir recours au filtrage des énoncés qui - éliminant la couche segmentale et donc sémantique de la parole - fait en sorte que la perception de l’emphase soit due uniquement à la dimension mélodique. Ce genre de filtrage rend la parole plutôt incompréhensible tout en gardant un effet de « naturel ».

Tous les extraits, tirés de notre corpus de travail5, ont été choisis en fonction de la présence de contours continuatifs et/ou conclusifs, pour les extraits NE, et de contours emphatiques et/ou banlieue, pour les extraits EM. Au total, nous avons sélectionné 50 extraits, dont 15 NE et 35 EM (dont 16 emphatiques et 19 banlieue), durant une douzaine de secondes environ. Nous avons fait écouter chaque extrait deux fois, avec un intervalle de 3 secondes. Nous avons laissé 10 secondes aux juges pour remplir le questionnaire. L’expérience a donc duré environ 10 minutes.

Dans le cadre de cette partie du test, les juges n’avaient pas à se prononcer de façon explicite sur la nature des stimuli proposés, à savoir décider si ceux-ci étaient NE ou EM. Ils devaient, au contraire, évaluer les différents extraits de façon indirecte, à partir d’un questionnaire comportant une liste d’adjectifs bipolaires et une échelle évaluant le degré d’emphase perçu. L’intérêt de cette partie du test est, en effet, non seulement de savoir si les juges sont capables d’opérer une distinction entre une parole neutre et une parole emphatique, mais surtout de déterminer le rôle qu’y jouent les indices mélodiques.

Le questionnaire se compose d’une grille de 12 adjectifs bipolaires, soit 6 adjectifs et leurs contraires, que les juges peuvent cocher au choix, suivant la sensation véhiculée par la mélodie des extraits concernés. Les adjectifs ont été choisis en nous inspirant des représentations qui ont émergé au cours des entretiens du corpus MPF6. Cette grille s’accompagne d’une échelle à quatre degrés (de 0 à 3), visant à l’évaluation du degré d’emphase perçu lors de l’écoute de chaque stimulus. Nous avons expliqué aux juges ce que nous entendons par emphase, à savoir l’implication et l’engagement des locuteurs en interaction et leur avons fait écouter un exemple de parole neutre, plutôt plat, ne véhiculant pas d’emphase, et un exemple de parole emphatique, plutôt mouvementé, correspondant à davantage d’implication des interactants. Le degré 0 correspond à « aucune emphase perçue », le degré 1 à « peu d’emphase perçue », le degré 2 à « pas mal d’emphase perçue », le degré 3, enfin, à « beaucoup d’emphase perçue » (fig. 1).

paternostro fig 1

La première partie se termine par la question ouverte : « Avez-vous reconnu un quelconque accent régional ou social ? ». Lors de la passation de cette partie, jamais nous n’avons mentionné un accent de banlieue ou un accent parisien. Les juges, donc, s’attendaient à un accent français, régional ou social, de n’importe quelle région de la francophonie dans le monde. Comme nous le verrons dans la présentation des résultats, certains juges ont même cru reconnaître des accents étrangers. Nous avons délibérément choisi de ne fournir aucune pré-catégorisation à cette étape du test, pour permettre aux juges de créer eux-mêmes leurs propres catégorisations à partir de stimuli, il faut bien le reconnaître, complexes et demandant un effort cognitif important.

3.1 Résultats de la première partie du test

Pour le dépouillement des résultats, nous avons, tout d’abord, comptabilisé, par groupe, le nombre de fois qu’un adjectif a été coché par stimulus. Puis, nous avons calculé le degré de significativité statistique par paire d’adjectifs bipolaires, à l’aide du test binomial, exécuté sous R7. Nous avons alors extrait uniquement les adjectifs statistiquement significatifs et avons comparé les résultats entre le groupe de stimuli NE et le groupe de stimuli EM (fig. 2 et 3).

paternostro fig 2
paternostro fig 3

Les extraits NE ont été perçus comme tels de façon significative. Ils ont aussi été jugés calmes et plats. Les extraits emphatiques ont été significativement évalués comme emphatiques et en colère ainsi que directs, désagréables, durs et chantants. En revanche, les deux types d’extraits ont été jugés à égalité comme étant détachés. Les extraits EM, en outre, ont été perçus comme étant à la fois durs et doux, chantants et plats. Cependant, ils semblent être significativement plus durs et chantants que doux et plats. Il est parfois difficile de comprendre les raisons de tels jugements contradictoires. Néanmoins, nous soulignons d’abord que la contradiction relevée concerne des adjectifs de moindre importance pour la caractérisation d’un style de parole emphatique par rapport, par exemple, à des adjectifs tels que neutre/emphatique ou calme/en colère. Enfin, l’effort cognitif important que requiert un test de perception en parole filtrée ne doit pas être sous-estimé.

paternostro fig 4

Pour ce qui concerne le degré d’emphase perçu, la fig. 4 montre que les extraits NE véhiculent en moyenne très peu d’emphase (0,84 sur une échelle de 3) alors que les extraits EM en véhiculent davantage (1,40). Les résultats sont statistiquement significatifs (p = 0,002).

À la question « avez-vous reconnu un quelconque accent régional ou social ? », les juges ont répondu de façon surprenante : 44 sur 72 (soit 61%) ont reconnu un accent de banlieue, à partir des seuls indices mélodiques ; 16 sur 72 ont dit ne pas savoir ; et 7 sur 72 ont cru entendre des sonorités provenant de langues d’héritage (fig. 5). Aucune catégorisation n’a été suggérée aux juges pour cette réponse. Les items affichés sont donc une synthèse des réponses qui ont été données. Sous l’étiquette banlieue, par exemple, nous avons regroupé les catégorisations suivantes : langue des jeunes, accent populaire, accent populaire des jeunes, accent de la rue, etc8.

paternostro fig 5

Ces catégorisations spontanées ne sont pas sans importance. Nous reviendrons plus loin sur l’intérêt que représente le fait que les mêmes indices mélodiques aient été jugés comme relevant à la fois de parlers jeunes, du français populaire et de langues de l’immigration.

3.2 Discussion des résultats

Malgré la complexité d’une expérience perceptive en parole filtrée, les juges ont globalement été en mesure de faire la distinction entre des extraits de parole neutre et des extraits de parole emphatique, à partir seulement d’indices mélodiques. Les contours intonatifs montants-descendants, dont relèvent les contours EM (y compris « banlieue ») sont donc responsables de la perception d’une parole emphatique. Bien entendu, même si le filtrage a neutralisé la couche segmentale des énoncés, il reste d’autres indices qui ont pu être exploités en association avec les indices mélodiques. Nous pensons notamment aux aspects rythmiques, à la durée, aux accents d’insistance, aux pauses. Bref, des éléments que l’opération de filtrage ne neutralise pas et qui peuvent contribuer à une caractérisation plutôt neutre ou emphatique des extraits.

Quant aux adjectifs choisis pour qualifier la perception des extraits, certains s’avèrent particulièrement significatifs. Ces adjectifs n’ont pas été sélectionnés à partir de propos recueillis auprès des informateurs MPF lors de la collecte du corpus. Ils relèvent donc de l’imaginaire linguistique des informateurs et des opérations de catégorisation spontanée de leur parler.

Le fait que la parole emphatique soit perçue comme dure et directe, nous renvoie, par exemple, à Aline, une jeune femme d’origine antillaise, née en Seine-Saint-Denis (93), et qui habite actuellement à Suresnes, dans les Hauts-de-Seine (92). Elle incarne l’idéal de la jeune fille qui a réussi, qui a fait des études et qui cherche à oublier son enfance et son adolescence vécues dans une cité défavorisée et multiculturelle. Elle fait état d’une relation très particulière avec le langage : elle dit comprendre le créole guadeloupéen, puisque c’est la langue qu’utilise sa mère dans les interactions avec ses enfants, mais elle affirme ne pas le parler. Elle ne souhaite pas non plus apprendre le créole à sa fille, car selon elle le créole est une langue « dure », « directe ». Par ailleurs, elle tient des propos similaires à propos des parlers jeunes : « les jeunes n’ont pas de barrières. Ils s’adressent à leur patron comme s’ils s’adressaient à leurs potes. Ils utilisent un langage déplacé ». Son discours trahit, en fait, ses sentiments vis-à-vis des formes de langue de « proximité », c’est-à-dire favorisant la mise en place d’une connivence forte entre les interlocuteurs et réduisant de fait la distance communicationnelle. Les parlers jeunes, en ce sens-là, seraient « déplacés », parce qu’inappropriés au contexte professionnel, dans la relation hiérarchique d’un employé envers son patron. Sa dureté relèverait, en revanche, des représentations associées aux formes de langue qui ne jouissent pas d’un prestige social et qui sont considérées comme « impolies »9 ou agressives. Ce qui pourrait expliquer également le choix de l’adjectif désagréable par rapport à la parole emphatique. L’impression de dureté pourrait, quant à elle, être liée à la rupture de conventions sociales et donc renvoyer à une certaine forme d’agressivité symbolique (voir : BOURDIEU, 1982). Il n’est pas exclu que la dureté puisse aussi avoir un lien avec le caractère direct associé à un style de parole emphatique.

Pour terminer, nous voudrions revenir sur les catégorisations produites par les juges lorsqu’il leur a été demandé s’ils étaient en mesure de reconnaître un quelconque accent régional ou social dans les extraits en parole filtrée. Les mêmes indices mélodiques ont, en effet, été jugés comme relevant des parlers jeunes, du français populaire et des langues de l’immigration. D’une part, cela confirme le rôle important que jouent les contours intonatifs dans l’identification d’un accent de banlieue. D’autre part, le fait que ceux-ci soient associés en même temps au français populaire et aux langues de l’immigration, nous permet de nous interroger sur le caractère héréditaire et/ou novateur de l’accent de banlieue. Ce qui est nouveau relèverait donc moins des traits de prononciation eux-mêmes que de leur emploi dans des contextes inhabituels.

4. Deuxième partie du test

Comme nous l’avons mis en évidence plus haut, il existe – d’un point de vue acoustique – une ressemblance entre des contours montants-descendants typiquement associés à l’accent des jeunes de la banlieue parisienne et des contours emphatiques du français standard (PATERNOSTRO & GOLDMAN, 2014). La deuxième partie de notre test de perception vise donc à établir si les juges (les mêmes que pour la première partie) sont capables d’opérer une distinction (perceptive) entre des contours montants-descendants plutôt emphatiques et des contours montants-descendants plutôt banlieue. Tout phénomène linguistique, en effet, devient pertinent du moment qu’il est perçu et fait l’objet d’un jugement social. Comme nous l’évoquions plus haut, un accent se situe toujours sur un continuum et sa perception relève moins de traits isolés que d’un effet de cumul. Les contours intonatifs montants-descendants ne pourraient donc constituer que l’un des indices (nécessaire mais pas suffisant), dont le cumul avec d’autres traits participe à la production d’un « effet banlieue ».

Pour ce faire, nous avons sélectionné 100 extraits, à partir de notre corpus de travail (voir plus haut), longs de 5 secondes environ chacun et comportant une centaine de contours montants-descendants (au minimum un par extrait)10.

L’expérience a duré environ 15 minutes. Tout comme pour la première partie du test, chaque extrait a été écouté deux fois, avec un intervalle de 3 secondes. Les juges avaient ensuite 10 secondes de temps pour remplir le questionnaire.

Cette fois-ci, nous avons ouvertement déclaré le but de notre expérience. À l’aide de deux exemples, que nous leur avons d’abord fait écouter, nous avons expliqué la difficulté à distinguer un contour emphatique (EM), « que n’importe quel Français pourrait produire »11, d’un contour banlieue (BA), typiquement associé aux jeunes de la banlieue parisienne. Après leur avoir fait écouter les exemples, nous leur avons demandé s’ils étaient en mesure de dire lequel des deux extraits était plutôt EM et lequel plutôt BA. Nous avons alors recueilli leur avis à main levée, ce qui nous a permis de constater que la majorité avait effectivement réussi à les reconnaître. À la question : « Pourquoi pensez-vous que les extraits sont différents et sur quels indices vous êtes-vous appuyés pour opérer la distinction » ? la réponse a été unanime. « Le contour BA est “plus fort” ». Nous reviendrons sur ce point lors de la discussion des résultats.

Le questionnaire proposé pour cette partie comporte deux grilles, où figurent des étiquettes cette fois-ci explicites (fig. 6).

paternostro fig 6

La partie gauche du questionnaire envisage la question : « Pensez-vous que l’extrait sonore que vous venez d’écouter comporte un contour intonatif qui pourrait être caractérisé comme plutôt emphatique ou plutôt banlieue » ? « Si vous ne savez pas ou si vous hésitez, cochez “je ne sais pas” ». La grille demandant d’évaluer le degré d’emphase véhiculé par les stimuli a de nouveau été proposée. La perception d’emphase n’était pas nécessairement liée au type de contour en question, et ceci pour deux raisons : un contour emphatique pouvait véhiculer peu d’emphase, alors qu’un contour banlieue pouvait en véhiculer beaucoup.

4.1 Résultats de la deuxième partie du test

Pour le dépouillement des résultats de cette partie, nous avons d’abord calculé le score qu’ont obtenu les entrées « plutôt EM », « plutôt BA », ou « je ne sais pas » pour chaque extrait. Nous avons aussi calculé le pourcentage pour avoir une idée du degré de consensus manifesté par les juges dans leur perception des stimuli. Puis, nous avons mesuré la significativité statistique des résultats obtenus par l’exécution d’un test chi-deux12, pour vérifier la « fiabilité »13 du consensus manifesté par la majorité des juges. Enfin, nous avons calculé la moyenne des réponses par stimulus concernant le degré d’emphase perçu.

Sur une base de 100 stimuli, 59 ont produit des résultats statistiquement significatifs. C’est-à-dire que pour 59 stimuli sur 100, le consensus manifesté par la majorité des juges est significatif. Sur la base de ces résultats-là, 17 extraits ont été évalués comme étant plutôt EM, avec un degré d’emphase perçu de 1,48 sur une échelle de 3 (p = 0,0001), et 42 extraits ont été évalués plutôt BA, avec un degré d’emphase perçu de 1,67 (p = 0,0001) (fig. 7 et 8). Bien que les résultats soient statistiquement significatifs en ce qui concerne le degré d’emphase perçu, l’interaction entre les deux distributions n’atteint pas le seuil de significativité statistique (p = 0,10). Les deux types d’extraits véhiculent donc bien de l’emphase, mais on n’est pas en mesure d’affirmer que les contours BA en véhiculent significativement davantage que les contours EM (et vice-versa).

paternostro fig 7

Vu le taux moyen de résultats statistiquement significatifs (59 stimuli sur 100), nous avons essayé de prendre en compte tous les résultats obtenus, même ceux qui n’ont pas reçu un jugement statistiquement significatif, pour voir si une même tendance se dégage. Tous résultats confondus, 37 extraits ont été évalués comme étant plutôt EM, avec un degré d’emphase perçu de 1,4 sur une échelle de 3 (p = 0,0001), et 63 ont été évalués comme étant plutôt BA, avec un degré d’emphase perçu de 1,57 (p = 0,0001). Encore une fois, l’interaction entre les deux distributions n’atteint pas le seuil de significativité statistique (p = 0,14).

paternostro fig 8

Pour terminer, la comparaison des résultats obtenus à partir des réponses statistiquement significatives avec ceux obtenus à partir des réponses statistiquement non significatives (fig. 9) donne à voir une tendance absolument cohérente et convergente.

4.2 Discussion des résultats de la deuxième partie du test

Les résultats de cette partie ont montré que les juges ne sont que partiellement capables d’opérer une distinction entre des contours intonatifs ME et des contours intonatifs BA (seulement pour 59%). Ce qui pourrait suggérer qu’un contour BA n’est perçu comme significativement différent d’un contour EM que sous certaines conditions, à savoir le cumul de traits produisant un « effet banlieue » évoqué plus haut.

Si on essaie de nuancer les résultats et de comprendre plus en détail la façon dont se manifeste le degré de consensus des juges (fig. 10), on s’aperçoit que la majorité des stimuli ont été évalués avec un degré de consensus manifesté qui se concentre autour des 50-60% (43 stimuli sur 100) et que seulement 13 stimuli ont, en revanche, été évalués avec un degré de consensus manifesté de 90-100%.

Les 6 stimuli qui ont fait l’objet d’une évaluation unanime de la part des juges, avec un degré de consensus manifesté de 100%, ont tous été perçus comme étant des contours BA. Les stimuli évalués avec un degré de consensus de 90% ont en grande partie été perçus comme des BA (5 sur 7). Les stimuli évalués avec un degré de consensus manifesté de 50% ont été, en revanche, perçus comme étant en partie des BA (12 sur 22) et en partie des contours EM (10 sur 22).

paternostro fig 9

Les 2 stimuli évalués avec un degré de consensus de 30%, enfin, ont tous été perçus comme des EM. La tendance qui se dessine semble alors être sans équivoque : plus le consensus manifesté des juges est élevé, plus les contours intonatifs sont perçus comme des BA. Et inversement, moins le consensus manifesté par les juges est élevé, plus les contours sont évalués comme des EM (fig. 11).

paternostro fig 10

L’écoute et la comparaison des extraits évalués par nos juges selon le degré de consensus manifesté nous a permis, non sans surprise, de constater qu’au fur et à mesure que le degré de consensus augmente, les contours intonatifs se caractérisent par un accent de plus en plus marqué (« fort »), à savoir le taux de montée et de descente de F0 est plus important et l’intensité est accrue. À l’inverse, au fur et à mesure que le degré de consensus diminue, l’accent est plus « faible », dans le sens où les contours intonatifs montants-descendants donnent à voir une montée et une descente mélodiques moins importantes et l’intensité s’avère diminuée. Plus l’accent est « fort », donc, plus il est associé à des contours intonatifs BA et plus le jugement est unanime. Plus l’accent est « faible », plus il est associé à des contours EM et moins le jugement est unanime. Un accent « moyen », enfin, est associé en partie à des contours BA et en partie à des contours EM, avec un degré de consensus qui est lui aussi moyen.

La perception des juges semble alors non seulement reconstituer, par le degré de consensus manifesté, un continuum qui va de contours plutôt EM vers des contours plutôt BA, mais elle semble aussi clairement associer l’accent le moins « fort » avec des contours EM et l’accent le plus « fort » avec des contours BA. Aussi la perception de contours BA s’accompagne-t-elle d’un degré d’emphase perçu plus important (1,67 pour les BA contre 1,48 pour les EM).

5. Conclusion

Une vue d’ensemble sur l’intégralité du test de perception montre que les résultats des deux parties s’avèrent concordants. Malgré une évaluation plutôt prudente de la part des juges, les stimuli BA sont perçus comme véhiculant de l’emphase au même titre que les stimuli EM, voire davantage. De plus, les juges ne se sont révélés que partiellement capables d’identifier et donc de « reconnaître » un contour intonatif connoté « banlieue » par rapport à un contour emphatique du français standard, sur la base des seuls indices prosodiques.

Les contours EM et BA ne seraient donc plus à voir comme deux phénomènes différents et distincts dans la perception des locuteurs, mais comme un seul et même phénomène se situant sur un continuum, compte non tenu des évaluations sociales associées, bien entendu. Leurs différences relèvent moins de traits spécifiques et identifiables que d’un effet de cumul de traits obéissant à des paramètres communicationnels et interactionnels tels que la proximité ou l’implication des locuteurs en interaction.

Les propos de Cédric, un informateur MPF, confortent nos résultats et nous donnent une perspective émique14 sur la question :

Cédric15: Donc là m- la banlieue j'ai quand même pris de grandes distances depuis ces depuis ces années-là (.) donc j'ai essayé de changer ma (.) ma façon de parler aussi parce que j'avais pris de mauvaises habitudes. Commentaire : (Cédric réalise la liaison facultative entre mauvaises et habitudes).
Roberto : C'est vrai ? <lesquelles> ?
Cédric : <Oui> (.) bah de parler comme un banlieusard quoi (.) après c'est peut-être mon père qui nous a (.) qui nous a tout le temps dit attention ne parlez pas comme des banlieusards alors qu'en fait on est banlieusards hein.
Roberto : <Et qu'est-ce que tu as gommé> par exemple ?
Cédric : L'intonation(.) là tu vois je te parle je sais que c'est pas naturel (.) ça le devient mais ça n- ça c'est pas naturel si je te si je te parlais comme quand je parle à des gars du foot.
Roberto : Hum hum.
Cédric : Ça va être plus (.) mais j'en sais rien moi tu as vu euh (.) employer pas faire des phrases super bien construites (.) avoir ce ton là (.) tu vois ? plus direct (.) plus euh (.) en fronçant les sourcils tu vois il y a il y a aussi la les mi- toutes les mimiques qui vont avec les mains. [
Roberto: Hum hum.
Cédric : Tu vois quand tu veux appuyer une idée bah tu y vas quoi (.) c'est presque avec le corps.
Roberto : D'a<ccord>.
Cédric : <Et> euh (.) et le fait de moins parler comme ça (.) mon retour en Australie de d'Australie quand j'ai revu mes am- certains certaines connaissances on va dire (.) putain ça m'a choqué là j'ai vu le.
Cédric : La différence ah ouais (claque des doigts) avant putain je parlais comme ça quoi.
Roberto : (Rire).
Cédric : Et tu vois j'étais beaucoup plus agressif en fait (.) ça paraît agressif mais ça l'est pas quand tu viens de banlieue (.) quand tu viens de banlieue tu sais qu'il est en train de s'exprimer sur un truc (.) il est pas content mais il est pas (.) ultra-énervé´ ton interlocuteur tu sais tu t- (.) tu sens ça tu t'énerves pas quoi en fait (.) tandis que moi je sais (..) que si je te présente un ami (..) qui parle déjà assez agressif tu tu vas te dire ouais mais il est pas qu'est-ce qui se passe là ? (.) il va t'expliquer des trucs il va te faire (en imitant) je sais pas moi.
Roberto : (Rire).
Cédric : C'est-à-dire qu'ils ont du mal à contrôler leurs émotions internes tu vois ils ont une certaine haine (.) et euh (.) s'ils te parlent d'un sujet euh (.) qui les touche un peu ils vont ils vont gueuler quoi ils vont (en riant) wouah.
Roberto : (Rire).
Cédric : Voilà (.) voilà donc parler euh là je te parle j'essaie d'être plus mesuré de faire en sorte d'être compris de tout le monde et pas (.) inspirer une (.) tu vois une espèce de peur pas une peur mais une wouah (.) il est énervé lui tu vois ? parce que moi c'est ça que je ressentais c'est ça x parfois.
Roberto : (Rire).
Cédric : Tu vois des gens qui s'expriment et qui sont en train de brailler dessus quoi wouah calme toi (en riant) (.) tu vois ?
Roberto : (Rire) D'accord.

Ainsi est-il possible de porter un regard nouveau sur l’accent de banlieue. Il serait moins l’expression d’une exclusion sociale ou d'un besoin de définition identitaire, comme le supposent la majorité des commentaires sur la langue des jeunes, qu’un recours à des modèles attestés et courants mais employés dans des cadres inattendus.

Dès lors, le rapprochement entre le contour intonatif montant-descendant, qui a pu être interprété comme une forme d’agressivité voire de violence, et les contours emphatiques, nullement perçus comme agressifs, ne serait pas fortuit et ne tiendrait pas uniquement à des caractéristiques acoustiques similaires. Ces derniers partagent tous les paramètres acoustiques d’un contour intonatif « banlieue », si ce n’est qu’ils jouent plutôt le rôle d’une mise en valeur pragmatique, soulignant à la fois le caractère implicite de l’interaction et le degré de connivence des interactants.

Ce que semblent alors partager les contours « banlieue » et « emphatique », au-delà des paramètres acoustiques, est à rechercher à un niveau discursif et interactionnel et répond à des exigences de nature communicationnelle. Ces observations rejoignent la position de Hambye (2012) selon laquelle le contour intonatif faisant l’objet de notre étude n’est pas forcément compris de la meilleure façon en fonction de pratiques de type identitaire et qu’il peut, en revanche, remplir la fonction de marqueur emphatique, activé en discours en fonction du degré d’interactivité des locuteurs et de leur implication. L’étude des parlers jeunes de la région parisienne ne peut pas se passer de la prise en compte de différents axes de variation (diastratique, certes, mais aussi diaphasique), dont l’articulation peut suggérer des pistes interprétatives originales.

Bibliographie 

BAGOU, Odile, « Validation perceptive et réalisations acoustiques de l’implication emphatique dans la narration orale spontanée », Cahiers de linguistique française, n. 23, 2001, p. 39-59.

BORRELL, André et BILLIERES, Michel, « L’évolution de la norme phonétique en français contemporain », La Linguistique, n. 2/25, 1989, p. 45-62.

BOULA DE MAREÜIL, Philippe, D’où viennent les accents régionaux ?, Paris, Le Pommier, 2010.

BOULA DE MAREÜIL, Philippe & LEHKA-LEMARCHAND, Iryna, Can a prosodic pattern induce/reduce the perception of a lower-class suburban accent in French ?, Hong Kong, 17th International Congress of Phonetic Sciences, 2011, p. 348-351.

BOURDIEU, Pierre, Ce que parler veut dire, Paris, Fayard, 1982.

CALVET, Louis-Jean, « The migrant language of Paris » in SANDERS, Carol (éd.) French Today. Language in its social context, Cambridge, Cambridge University Press, 1993, p. 105-119.

CONEIN, Bernard et GADET, Françoise, « Le “Français populaire” des jeunes de la banlieue parisienne entre permanence et innovation » in ANDROUTSOPOULOS, Jannis et SCHOLZ, Arno (éds.), Actes du colloque de Heidelberg. Jugendsprache / Langue des jeunes / Youth language, Frankfurt, Peter Lang, 1998, p. 105-123.

DELATTRE, Pierre, « Les dix intonations de base du français », The French Review, n. 40, 1, 1966, p. 1-14. En ligne : http://mathilde.dargnat.free.fr/INTONALE/article-Delattre1966.pdf (consulté le 13.05.2011) in Fagyal, Z. (2005) Prosodic consequences of being a Beur. French in Contact with Immigrant Languages in Paris. Selected papers from NWAV 32, Working Papers Linguistics, n. 10, 2, 1966, p. 91-104.

DI CRISTO, Albert, « Intonation in French » in DI CRISTO, Albert & HIRST, Daniel J. (éds.), Intonation systems : a survey of twenty languages, Cambridge, Cambridge University Press, 1998, p. 88-103.

FAGYAL, Zsuzasnna, « Prosodic consequences of being a Beur. French in Contact with Immigrant Languages in Paris »,Selected papers from NWAV 32. Working Papers in Linguistics, n. 10, 2, 2005, p. 91-104.

FAGYAL, Zsuzasnna, Accents de banlieue. Aspects prosodiques du français populaire en contact avec les langues de l’immigration, Paris, L’Harmattan, 2010.

GADET, Françoise & GUERIN, Emmanuelle, « Les données pour étudier la variation : petits gestes méthodologiques, effets majeurs », Cahiers de Linguistique, n. 38, 1, 2012, p. 41-65.

GUERIN, Emmanuelle & PATERNOSTRO, Roberto, « What is langue des jeunes and who speaks it ? »in TYNE, Henry, VIRGINIE, André, BENZITOUN, Christophe, BOULTON, Alex & Yan, Greub (dir.), French Through Corpora. Ecological and Data-Driven Perspectives in French Language Studies, Cambridge, Cambridge Scholars Publishing, 2014, p. 139-166.

GUMPERZ, John Joseph, “Sociocultural knowledge in conversational inference”, in SAVILLE-TROIKE, Muriel, (dir.) Georgetown Round Table on Languages and Linguistics,Washington, D.C., Georgetown University Press, 1977, p. 191-212.

HAMBYE, Philippe, « Linguistique sociale ou science sociale du langage ? Les enjeux de l’autonomisation de l’objet langagier », Cahiers de Linguistique, n. 38/1, 2012, p. 67-85.

HOUDEBINE, Anne-Marie, « Norme, imaginaire linguistique et phonologie du français contemporain », Le français moderne, n. 1, 1982, p. 42-51.

KOCH, Peter, OESTERREICHER, Wulf, « Langage parlé et langage écrit », Lexikon der Romanistischen Linguistik, tome 1, Tübingen, Max Niemeyer Verlag, 2001, p. 584-627.

LABOV, William, Language in the Inner City: Studies in the Black English Vernacular, Philadelphia, University of Pennsylvania Press, 1972.

LEPOUTRE, David, Cœur de banlieue. Codes, rites et langages, Paris, Odile Jacob, 1997.

LÉON, Pierre, Précis de phonostylistique. Parole et expressivité, Paris, Nathan, 1993.

PATERNOSTRO, Roberto, « Aspects phonétiques de l’« accent parisien multiculturel » : innovation, créativité, métissage(s) », Cahiers de l’AFLS, n. 17/2, 2012, p. 32-54.

PATERNOSTRO, Roberto, GOLDMAN, Jean-Philippe, « Vers une modélisation acoustique de l’intonation des jeunes en région parisienne : une question de “proximité” ? », Nouveaux cahiers de linguistique française, n. 31, 2014, p. 257-271.

SELTING, Margaret, « Emphatic speech style : with special focus on the prosodic signalling of heightened emotive involvement in conversation », Journal of Pragmatics, n. 22, 1994, p. 375-408.

STEWART, Christopher, FAGYAL, Zsuzasnna, « Engueulade ou énumération ? Attitudes envers quelques énoncés enregistrés dans les “banlieues” », in BERTUCCI, Marie-Madelaine, HOUDART-MEROT, Violaine, (dir.), Situations de banlieues : enseignement, langues, cultures, Paris: Institut National de Recherche, 2005, p. 241-252.

VAISSIÈRE, Jacqueline, « Les universaux de substance prosodique », in WAUQUIER, Sophie, (dir.) Les universaux sonores, Rennes, Presses Universitaires de Rennes, 2006.

1
Le projet MPF vise à comprendre la dynamique du français dans un cadre de mondialisation, à travers l’analyse des pratiques linguistiques de jeunes locuteurs de la région parisienne, compte tenu des influences qui peuvent être exercées par les langues en contact dans le contexte urbain de cette grande métropole occidentale. Ce projet, soutenu par l’Agence Nationale de la Recherche (ANR-09-FRBR-037-01), est dirigé par Françoise Gadet (Université Paris Ouest Nanterre La Défense, UMR 7114 - MoDyCo). Site internet : http://mpfvitrine.modyco.fr. Voir : Gadet & Guerin (2012) pour plus de détails.

2
La parole filtrée permet de cacher la couche segmentale (et donc sémantique) des stimuli faisant en sorte que la perception se fonde uniquement sur la dimension mélodique.

3
Pour des raisons pratiques, les étudiants ont été divisés en trois groupes : les étudiants nanterrois, en deuxième année de Master en Didactique du Français Langue Etrangère et deux groupes d’étudiants en deuxième année de Licence en Sciences du Langage, de l’Université Paris Descartes.

4
Le but de cette partie étant de tester la corrélation entre présence de contours montants-descendants (emphatique et banlieue confondus) et perception d’un style de parole emphatique, nous avons préféré ne pas faire de distinction entre les contours emphatiques et les contours banlieue. Les deux ont donc été regroupés sous l’étiquette « emphatique ».

5
Notre corpus de travail comporte trois enquêtes tirées du corpus MPF, pour un total de 3h23m d’interactions authentiques entre 6 adolescents, quatre garçons et deux filles originaires de la région parisienne.

6
Voir aussi les nombreux témoignages dans Lepoutre (1997).

7
Le test binomial permet de montrer la significativité statistique d’une distribution en fréquence. Il permet ainsi d’écarter l’hypothèse nulle. Le seuil de significativité pour les Sciences Humaines est fixé à p ≤ 0,05 (voir : GROJEAN & DOMMERGUES, 2011).

8
Pour des raisons de dépouillement du corpus, nous avons délibérément choisi de réunir ces catégorisations sous l’étiquette « banlieue ».

9
L’emploi de l’adjectif impoli, qui revient très souvent dans les catégorisations que les jeunes font eux-mêmes de leurs parlers, n’est pas non plus anodin. Le caractère impoli n’a rien à voir ici avec la langue vulgaire ou les gros mots. Il désigne une forme de langue inappropriée, non légitime d’un point de vue social.

10
Nous avons sélectionné majoritairement des contours isolés tout en essayant d’extraire des énoncés syntaxiquement et sémantiquement « complets » et de respecter une durée minimale. Cependant, les contours montants-descendants sont parfois produits en série (par groupes de deux ou trois). Dans ces cas-là, nous avons préféré extraire et proposer l’intégralité de la série, par souci de naturel et de respect de l’écologie du phénomène.

11
Cette formulation délibérément naïve et le recours à des étiquettes parfois impressionnistes sont motivés par un souci de vulgarisation et de clarté.

12
Le test du chi-deux permet de montrer la significativité statistique d’une distribution en fréquence et d’écarter l’hypothèse nulle. Par rapport au test binomial, utilisé pour la première partie, le chi-deux peut s’appliquer à plus de deux variables.

13
Cela ne veut pas dire que les autres données sont à exclure. Le seuil de significativité sert à écarter le fait qu’une distribution donnée soit le produit du hasard. C’est la raison pour laquelle, par exemple, nous avons décidé de comptabiliser, parmi les résultats statistiquement significatifs, les quelques réponses qui ont obtenu une évaluation à 100% concorde de la part des juges. Bien que celles-ci n’aient pas toujours dépassé le seuil de significativité statistique, elles font état d’une perception unanime.

14
Une perspective émique relève, selon Pike (1967), des significations culturelles autochtones, liées au point de vue des acteurs. Il s’oppose à étique, qui repose sur des observations externes indépendantes des significations portées par les acteurs et relève des observations des chercheurs.

15
(.) et (..) marquent respectivement une pause brève et longue ; le point indique une frontière majeure d’énoncé ; le tiret marque les amorces de mots ou les répétitions ; les chevrons indiquent les chevauchements.

Per citare questo articolo:

Roberto PATERNOSTRO, « Ça paraît agressif, mais ça l’est pas quand tu viens de banlieue » : ce que le corpus MPF nous apprend sur l’intonation des jeunes en région parisienne, Repères DoRiF n.11 - Francophonies européennes : regards historiques et perspectives contemporaines - Coordonné par C. Brancaglion et C. Molinari, DoRiF Università, Roma novembre 2016, http://dorif.it/ezine/ezine_articles.php?id=327

Ritorna alla Barra di Navigazione