Versione stampabile

Federica DIÉMOZ, Mathieu AVANZI

Le « Corpus oral de français de Suisse romande » (OFROM) et les variétés du français en Suisse

Federica Diémoz
Université de Neuchâtel
Federica.Diemoz@unine.ch

Mathieu Avanzi
DTAL, University of Cambridge

Résumé

Cet article est une présentation du corpus Corpus oral de français de Suisse romande – OFROM, créé à l’Université de Neuchâtel depuis 2012 et géré par l’Observatoire du français en Suisse romande (http://www2.unine.ch/observatoirefrancaissr). Premier corpus consacré uniquement au français parlé en Suisse romande, OFROM est ici décrit dans sa globalité en examinant la méthodologie de récolte des données et leur traitement informatique, les conventions de transcription adoptées ainsi que le codage des catégories morphosyntaxiques. Deux exemples d’études syntaxiques montreront l’apport que pourra fournir OFROM dans les recherches sur la morphosyntaxe variationnelle de l’oral.

1. Introduction

En Suisse, le français – parlé par environ 20% de la population – est l’une des quatre langues nationales avec l’allemand, l’italien et le romanche. La Suisse francophone, appelée Suisse romande, est composée de sept cantons, dont quatre sont unilingues francophones (Genève, Vaud, Neuchâtel, Jura) et trois bilingues français-allemand (Fribourg et Valais, à majorité francophone ; Berne, à majorité germanophone).

La variété de français utilisée en Suisse romande n’est pas homogène, en effet : « de rares mais solides études ont montré qu’il n’existe pas de traits linguistiques communs à tous les régiolectes romands» (SINGY, 2004). Cette variété se caractérise par de nombreux phénomènes de variation régionale interne et par des spécificités locales. Parmi les particularités lexicales, phonétiques, prosodiques et morphosyntaxiques qui caractérisent les variétés du français en Suisse, c’est surtout le niveau lexical qui a été le plus étudié par le Glossaire des Patois de la Suisse romande, le Dictionnaire historique du parler neuchâtelois et suisse romand, le Dictionnaire suisse romand et la Base de données lexicographiques panfrancophones1.

La prononciation du français de Suisse romande n’étant également pas uniforme (KNECHT et RUBATTEL, 1984), c’est surtout au niveau de la production phonique que les différentes variétés cantonales sont identifiées (AVANZI, SCHWAB, DUBOSSON et GOLDMAN, 2012). Une enquête sur les représentations que les Vaudois ont de leur langue (SINGY, 2004), relève en effet que c’est en premier lieu l’accent qui permet de reconnaître la variation linguistique interne à la Suisse romande. Sur la prétendue lenteur de parole des Suisses romands, une étude récente (SCHWAB, DUBOSSON et AVANZI, 2012) a montré que les locuteurs suisses romands ont d’une part une tendance plus importante à accentuer les pénultièmes et d’autre part qu’ils articulent plus lentement que les Français. Cette recherche a toutefois mis en évidence une variation géolinguistique importante : les locuteurs de Martigny (en Valais) articuleraient aussi vite que les Parisiens en se distinguant ainsi des autres romands. Par ailleurs, ce travail a le mérite de tenir compte des différentes situations de parole (lecture ou conversation) ainsi que des facteurs sociolinguistiques (âge, sexe) qui jouent des rôles importants.

S’il n’existe pas, à l’heure actuelle, une étude sociolinguistique recouvrant toute la Suisse romande, on dispose d’études ciblées axées sur les attitudes des locuteurs envers le français en usage en Suisse romande (SINGY 1996, 2004) et sur les dynamiques normatives concernant la variation lexicale (MANNO 1994, 2004 ; PRIKHODKINE, 2011, 2012). Les Suisses romands semblent avoir un comportement double : si d’une part ils ont un sentiment d’insécurité linguistique face à la norme hexagonale, d’autre part ils ont une propension à valoriser leur variété de français. Ces tendances générales varient toutefois selon les catégories socio-professionnelles : les hommes appartenant aux professions dites « intermédiaires » valorisent les formes endogènes dépréciées au contraire des femmes qui emploient les variantes légitimes.

Pour ce qui est des spécificités grammaticales, qui n’ont fait l’objet que de rares études jusqu’à présent, elles pourraient se développer notamment grâce au Corpus oral de français de Suisse romande – OFROM. En effet, créé à l’Université de Neuchâtel depuis 2012 et géré par l’Observatoire du français en Suisse romande (http://www2.unine.ch/observatoirefrancaissr), OFROM est le premier corpus abritant uniquement du français parlé en Suisse romande. Les données sont accessibles librement en ligne (www.unine.ch/ofrom) et permettent d’étudier la variation linguistique interne à l’espace romand, non seulement au niveau lexical mais notamment au niveau de la production phonique ainsi qu’au niveau morphosyntaxique (AVANZI, BÉGUELIN et DIÉMOZ, sous presse).

Dans cet article, nous allons présenter le corpus OFROM dans sa globalité en examinant la méthodologie de récolte des données et leur traitement informatique, les conventions de transcription adoptées ainsi que le codage des catégories morphosyntaxiques qui a été mis au point récemment. Deux exemples d’études syntaxiques montreront l’apport que pourra fournir OFROM dans les recherches sur la morphosyntaxe variationnelle de l’oral.

2. État actuel de la base de données OFROM

2.1. Enregistrements

Les enregistrements que la base OFROM contient actuellement sont pour les uns extraits d’entretiens guidés à dominante monologique, dans lesquels l’interviewé (un locuteur né en Suisse, et vivant en Suisse romande) était sollicité pour répondre à des questions nécessitant des réponses plus ou moins longues posées par l’intervieweur (le responsable de l’enquête) ; pour les autres, il s’agit d’interactions, impliquant généralement deux personnes (nées en Suisse, et vivant en Suisse romande) qui parlent à bâtons rompus. Les thèmes abordés concernent aussi bien le rapport à la langue, aux métiers, aux voyages, aux passe-temps des locuteurs, leurs relations de voisinage, leurs projets ou les situations incongrues auxquelles ils ont été confrontés dans leur vie. Elles peuvent également être en rapport avec le système politique ou la situation linguistique de la Suisse, voire porter sur les us et coutumes de la région où les locuteurs ont passé la plus grande partie de leur vie, etc. En moyenne, les entretiens enregistrés durent entre 30 et 40 minutes, mais seules une vingtaine de minutes sont transcrites pour chacun des locuteurs de la base (en moyenne, 10 minutes par conversation guidée, 10 minutes par discussion libre).

2.2. Locuteurs

Tous les locuteurs enregistrés sont originaires de Suisse. Ils sont en général enregistrés à l’endroit où ils ont passé la plus grande partie de leur vie. En plus de l’information géographique, cruciale dans OFROM (lieu de naissance, localité dans laquelle le locuteur a passé la plus grande partie de sa vie, localité d’habitation actuelle, nombre d’années passées dans la localité actuelle), nous récoltons pour chaque locuteur enregistré des informations sociodémographiques classiques, telles que l’âge du locuteur au moment de l’enquête, son sexe, sa langue maternelle, son métier et son niveau socioéducatif2.

2.3. Transcription des enregistrements

2.3.1. Support de transcription

À l’origine, les enregistrements ont été réalisés en vue d’études sur la prosodie, qui impliquent un alignement fin en phonèmes et syllabes, puis un codage des proéminences et des groupes accentuels de différents rangs (AVANZI, 2013). Dans ce contexte, nous avions décidé que les enregistrements seraient transcrits directement dans le logiciel Praat (BOERSMA et WEENINCK, 2012).

diemoz fig 1

Fig. 1. Copie d’écran Praat, avec dans la partie supérieure l’oscillogramme, dans la partie intermédiaire la courbe de F0, d’intensité et le spectre, et dans la partie inférieure, la transcription orthographique synchronisée sur le signal. Les pauses sont notées « _ » (cf. infra § 2.3.3.7. Pauses vides et pauses « pleines »).

Comme on peut le voir sur la Fig. 1, le logiciel Praat permet en effet d’avoir accès à la transcription de façon alignée directement avec le son, et de visualiser de façon dynamique le spectre, la ligne d’intensité, les variations de F0 et les pauses de façon précise au cours du temps.

2.3.2. Identification des locuteurs

Les paroles d’un locuteur sont reproduites orthographiquement dans une « tire », c’est-à-dire dans une « couche de transcription » qui lui est propre, et qui porte son nom. Les locuteurs reçoivent chacun un nom de code, qui est unique dans la base de données. Ce code est composé de cinq lettres, suivies de deux chiffres, d’un trait d’union et de trois lettres. Les cinq premières lettres indiquent l’université dans laquelle l’étudiant était inscrit quand il a réalisé son enregistrement et sa transcription (UNINE pour Neuchâtel, UNIFR pour Fribourg), les chiffres qui suivent l’année universitaire pendant laquelle l’enregistrement a été réalisé (08 pour 2008, 09 pour 2009, etc.). Un trait d’union sépare ce premier code de trois autres lettres, dont les deux premières sont mises pour les initiales du prénom et du nom du locuteur ou du transcripteur (première lettre du prénom, même si c’est un prénom composé), la dernière pour différencier les locuteurs enregistrés une même année (« a » pour le premier locuteur, « b » pour le second, etc.). Ainsi, la locutrice dont la Fig. 1 ci-dessus donne un extrait, a été enregistrée par un étudiant de l’université de Neuchâtel en 2011, a un prénom qui commence par « y » et un nom par « v », elle est la première locutrice ayant de telles initiales dans la volée d’enregistrements réalisés en 2011. D’autres informations ont été codées pour chacun des locuteurs de notre base de données. Elles peuvent être affichées dans des fenêtres spécifiques lors de la recherche sur le concordancier.

2.3.3. Conventions de transcription

2.3.3.1. Unités de transcription

Les empans ou intervalles de transcription dans les TextGrids Praat ne correspondent pas à des séquences linguistiques dont on serait en mesure de donner une définition scientifique stable. Les aligneurs automatiques nécessitant des empans de transcription relativement restreints (GOLDMAN, 2011 ; BIGI et al., 2012), nous avons pris le parti de sélectionner pour la transcription des fenêtres temporelles courtes, de 1 à 5 secondes au maximum. Au plan linguistique, ces séquences sont relativement sous-spécifiées : elles correspondent à des groupes assortis d’une frontière intonosyntaxique mineure ou majeure (l’idée est que l’on ne coupe pas au milieu d’un mot ou d’un syntagme de bas rang).

2.3.3.2. Choix d’une orthographe standard

Les enregistrements sont transcrits en orthographe standard, sans « trucages » ni ponctuation : nos conventions suivent en cela les recommandations du GARS (BLANCHE-BENVENISTE et JEANJEAN, 1986 ; BLANCHE-BENVENISTE, 1997), reprises dans la plupart des corpus de français parlé transcrits existants (DELIC, 2004 ; DISTER et SIMON, 2008). Ces trucages orthographiques, qui sont largement illustrés dans les publications de référence (GIOVANNI et SAVELLI, 1990), sont d’autant moins nécessaires que les aligneurs contiennent des dictionnaires qui incluent plusieurs variantes de prononciation pour un même mot (ADDA-DECKER et SNOEREN, 2011). Cela dit, pour que les aligneurs fournissent des résultats optimaux, il faut que la transcription du texte « colle » au plus près à ce qui est prononcé. Par conséquent, nous avons dû prendre quelques distances quant aux autres conventions de transcription généralement suivies par nos collègues.

2.3.3.3. Règles typographiques

Compte tenu de la non-pertinence de la ponctuation orthographique pour transcrire l’oral, l’usage des majuscules est réservé aux noms propres, aux titres d’ouvrages (1), aux acronymes (2)-(3)3 et aux lettres prononcées de façon isolées (4)-(5) :

(1) vous avez gagné un voyage à Abidjan _ et puis _ c'est la seule fois où je suis allée en avion nous sommes allés en Côte d'Ivoire _ et nous avons vécu des heures extraordinaires avec l'orchestre de Lille _ dirigé par Casadesus _ ils ont et puis ils ont joué _ l'air de Nabucco [unine11-yva]
(2) j’ai un CFC de commerce [unine08-rza]
(3) j'habitais près d'une stat- euh une base aérienne de l'OTAN tenue par des américains [unine11-rpa]
(4) un nom qui commence avec un W [unine11-sma]
(5) tous les films qu'ils voient c'est des films euh de série B avec toujours des femmes blanches euh prêtes à coucher avec n'importe qui [unine09-lba]

Les mots prononcés de façon abrégée sont transcrits comme tels, sans apostrophe finale :

(6) et le prof était pas mal en plus [unine08-ema]
(7) l'uni en sport prend pas mal de temps [unine08-oca]
(8) j'ai été à l'école de com [unine11-rpa]

Les mots prononcés de façon non abrégée sont transcrits dans leur forme pleine :

(9) voilà donc ça c'est pour euh les soirées et cætera on peut encore parler des journées [unine08-aha]

Les chiffres sont transcrits en toutes lettres, y compris les âges, les dates, les quantités, etc. :

(10) ben j'ai commencé à prendre des cours de chant quand j'avais quinze ans [unine11-vpa]
(11) et puis euh il est de dix-neuf cent-vingt-cinq [unine11-eja]
(12) tu me la vendrais pas quatre mille francs [unine11-tpa]

Les mots étrangers sont transcrits dans leur orthographe d’origine, s’ils ne sont pas connus, ils ne sont pas transcrits (cf. infra, § 2.3.3.6. Segments non transcrits) :

(13) après une petite semaine euh de galère quand même euh en couch surfing [unine08-ema]
(14) on a passé euh ben avec mon copain on a passé le le dive euh l'open water en fait [unine11-nfa]
(15) mais après y a eu l'évolution dans l'entreprise où on nous a fait des ordersatz [unine11-jea]

2.3.3.4. Morphologie

La consigne donnée aux transcripteurs est que l’on transcrit ce que l’on entend, et que l’on ne transcrit pas ce que l’on n’entend pas. Ainsi, nous ne notons pas systématiquement tous les pronoms dans les tournures impersonnelles, cf. (16), ni les « ne » si ceux-ci ne sont pas clairement audibles, cf. (17) et (18), respectivement :

(16) comme il y a un temps pour tout même en politique _ y a un temps pour tout donc moi à Berne je vois plutôt des gens [unine11-eza]
(17) et avec ce jeune brass band qui n'a que quatre ans [unine11-gpa]
(18) euh des des gens qui sont pas forcément expérimentés là-dedans [unine08-sea]

Nous retranscrivons l’élision quand elle est réalisée, nous ne la transcrivons pas lorsqu’elle ne l’est pas :

(19) elle s'éloigne un peu de la | _ | de la voiture et pis lui en mettant le contact en s'approchant de | _ | d'elle et ben la voiture elle explose [unine11-jva]
(20) ou même ce qui se passe autour de elle [unine11-sca]

Nous ne changeons pas non plus la forme morphologique du mot si une règle d’accord en genre ou en nombre n’est pas respectée (21)-(22), ou si le pronom ou le mode du verbe enfreint la norme, cf. respectivement (23)-(24) :

(21) là euh je sais pas la Sagrada Familia c'est une énorme église que Gaudi a fait [unine11-tpa]
(22) ça devient une euh une mécanisme de groupe [unine11-sma]
(23) je vais beaucoup moins parce que j'y dis faut aussi un peu te calmer maintenant [unine11-jsa]
(24) et puis euh chaque aide-soignante s'asseye à côté d'une personne pour l'aider à prendre son repas [unine09-tba]

Enfin, nous ne signalons pas les écarts de prononciation dans la transcription, que ces écarts soient courants ou non. Par exemple, « parce que » est toujours écrit tel quel, qu’il soit prononcé [paske] ou [parsk], de même que des morphèmes comme « enfin » prononcé [fɛ̃].

2.3.3.5. Amorces

Les amorces de mots sont signalées par des traits d’union, qui suivent les premières lettres du morphème inachevé :

(25) y a d'excellentes boulan- boucheries aussi tout au long du vallon [unine11-rpa]
(26) y a un grand juré euh qui habit- qui qui au b- aux États-Unis ils ont euh [unine11-jva]

2.3.3.6. Segments non transcrits

Nous codons « % » certaines portions de signal que nous ne transcrivons pas. Certains éléments ne sont pas transcrits car le ou les mots prononcés sont incompréhensibles (en raison d’une mauvaise articulation, d’un changement de qualité vocale, d’un chevauchement de parole) ou à des fins d’anonymisation (cf. infra, § 2.3.3.8. Anonymisation). Nous isolons et codons également « % » les événements paralinguistiques (raclements de voix, les rires, toux, bruits de bouche, etc.) et les événements extralinguistiques (claquement de porte, sonnerie de téléphone, intervention d’un tiers lors de l’enregistrement, etc.).

2.3.3.7. Pauses vides et pauses « pleines »

Les informations relatives à l’habillage suprasegmental sont directement lisibles dans Praat. Nous ne les indiquons donc pas dans nos transcriptions. Nous notons cependant de façon systématique les pauses silencieuses, et ce peu importe leur durée. Les pauses silencieuses sont ainsi isolées dans des intervalles, dédiées et transcrites à l’aide du symbole « _ ». Nous avons été moins précis pour les pauses remplies (allongements et euh associés à des hésitations), qui ne sont pas forcément cantonnées dans des intervalles dédiés, mais comprises dans les mêmes intervalles que les mots auxquels elles s’accolent.

2.3.3.8. Anonymisation

La parole est une propriété (BAUDE, 2006). Les locuteurs enregistrés dans notre corpus ont signé des autorisations stipulant qu’ils donnaient leur accord pour l’enregistrement, la diffusion et l’analyse, à des fins linguistiques, de leur parole, à condition que les données soient anonymisées. Nous n’avons pas procédé à une anonymisation du signal à proprement parler. Pour éviter de rendre publiques certaines informations prononcées pouvant servir à l’identification des locuteurs, nous avons simplement fait correspondre aux séquences sonores pouvant aider à l’identification du locuteur des intervalles dédiés à l’intérieur de la couche de transcription. Ces intervalles contiennent un symbole spécial (« # »), qui permet, lors de la recherche à l’aide du concordancier, que le contenu sonore associé à l’intervalle incriminé ne puisse pas être entendu ni téléchargé. L’anonymat des locuteurs de notre corpus est ainsi préservé.

2.3.4. Annotations PoS

En janvier 2015, les transcriptions ont été enrichies d’un codage des catégories morphosyntaxiques (Part-of-Speech tagging) avec l’outil Dismo (CHRISTODOULIDES et al., 2014), qui ajoute à la transcription orthographique 6 couches supplémentaires d’annotation, comme on peut le voir sur la Figure 1.

diemoz fig 2

Fig. 2. Annotation morphosyntaxique et discursive multi-niveau issue de l’étiquetage automatique fourni par Dismo, pour la séquence « tu amènes ta vache à un match tout le monde reçoit trente francs pour le déplacement » [unifr11-cra].

La première couche (tok-min) contient (non aligné avec le son) tous les mots séparés par un espace graphique. La seconde couche (pos-min) indique l’étiquette morphosyntaxique associée à chaque token. La troisième tire (disfluency), parallèle aux deux premières, indique les tokens disfluents. Les deux tires suivantes (tok-mwu et pos-mwu) séparent par des intervalles (non-alignés sur le son) les unités polylexicales, et leur catégorie morphosyntaxique. Ainsi, dans l’exemple de la Figure 2, la suite de tokens « tout le monde » (soulignée) a été traitée comme trois unités lexicales dans la tire tok-min, alors qu’elle n’en constitue qu’une seule dans la tire tok-mwu. Quant à la dernière tire (discourse), elle peut regrouper indépendamment des unités lexicales et les catégoriser comme des marqueurs de discours. Les tires disfluency et discourse étant en cours de développement, les étiquettes que l’on peut y trouver ne seront pas présentées dans la section suivante. Les étiquettes utilisées proposée par Dismo se différencient de la plupart des étiquettes utilisées dans les taggeurs classiques (DEBAISIEUX, BENZITOUN et DEULOFEU, à paraître) de par leur richesse et leur complexité. La liste complète de ces étiquettes est présentée dans AVANZI, BÉGUELIN et DIÉMOZ (2015, à paraître).

La base de données OFROM n’est pas téléchargeable dans sa totalité : pour l’exploiter, il faut obligatoirement passer par le concordancier disponible sur le site du corpus. Celui-ci permet de chercher des chaînes de caractères et des mots, comme c’est le cas de la plupart des concordanciers associés aux autres corpus de français parlé présentés dans ce recueil. Il permet en plus, et c’est là son originalité, de procéder à des requêtes plus complexes, pour chercher des chaînes de constructions en croisant des critères lématiques et grammaticaux. Un tutoriel, téléchargeable sur le site Web de la base, est disponible pour les utilisateurs.

2.3.5. Statistiques

Lors de sa dernière mise à jour (mars 2015), la base comprenait 407.763 tokens transcrits (soit 65 heures de parole), produits par 189 locuteurs, qui se répartissent, selon les cantons dans lesquels ils vivent, de la façon suivante :

diemoz fig 3

Fig. 3. Nombre de mots par canton dans le corpus OFROM (mars 2015), où JU = Jura, BE = Berne, GE = Genève, FR = Fribourg, VD = Vaud, VS = valais, NE = Neuchâtel et NR = non-Renseigné.

diemoz fig 4

Fig. 4. Nombre de locuteurs par canton dans le corpus OFROM (mars 2015), où JU = Jura, BE = Berne, GE = Genève, FR = Fribourg, VD = Vaud, VS = valais, NE = Neuchâtel et NR = non-Renseigné.

3. Documenter la variation morphosyntaxique

Dans une partie de l’espace romand – comme en Savoie et dans une grande partie de l’est de la France (voir www.bdlp.org) – on observe encore de nos jours l’emploi de vouloir comme auxiliaire pour exprimer un futur proche, dans des contextes qui concernent une prévision météorologique il veut pleuvoir pour «il va pleuvoir», mais aussi il veut bien venir pour «il va bien venir», malgré les prévisions pessimistes de Voillat qui prévoyait que la forme vouloir + inf. serait de plus en plus remplacée par aller + inf. à l’oral (VOILLAT, 1971 : 220). Considéré comme un germanisme (PIERREHUMBERT, 1926 : 649), cet emploi s’explique par l’influence des parlers francoprovençaux (VOILLAT, 1971), langues historiques de la Suisse romande. Les limites exactes concernant l’emploi de ce phénomène linguistique à l’intérieur de la Suisse romande n’ont pas encore été étudiées et ne sont donc pas connues. La base OFROM montre cependant que cette tournure est surtout employée dans les cantons de Neuchâtel, Jura, Berne et Fribourg, comme dans les exemples suivants :

(1) _ | un monsieur qui était à l'école euh de commerce | _ | à | # | qui était jardinier à l'école de commerce pis moi comme je travaillais à la quincaillerie là je le connaissais bien | _ | pis je lui avais parlé de ces arbres comment est-ce qu'il faut les tailler | _ | pis il m'a dit je veux venir te montrer | _ | pis alors il les a taillés quelques années pis après il est parti en Suisse allemande | hein il avait la retraite il était retraité | _ | pis j'ai continué de les tailler | _ | alors elle me dit toujours tu coupes trop tu coupes trop j'y ai dit ben ça fait rien si je coupe trop | _ | y aura un peu moins de fruits y en a toujours trop | _ [unine11-jsa, homme né en 1932, retraité, menuisier].


(2) ils ont jamais mangé la Saint Martin donc moi je vois p- je les vois pas manger du boudin mais bon | _ | non ils nous ont rien redit mais on mangera une fois comme ça | _ | enfin on faut qu'on aille au marché de Saint Martin donc on veut aller au marché de Saint Martin | % | _ | ça va être sympa mais on est allé remanger chez eux pour l'anniversaire de sa femme de | # | _ | ils nous avaient fait la fondue | _ | c'était drôle » [unine12-asa, femme née en 1980, enseignante].

La transcription et le fichier sonore d’OFROM sont accompagnés d’informations sociolinguistiques sur le locuteur ainsi que d’informations sur l’enregistrement :

diemoz fig 5

Fig. 5. La fiche contenant les informations sur le locuteur unine11-jsa et sur l’enregistrement.

Un autre phénomène syntaxique très bien attesté en Suisse romande est l’emploi du passé surcomposé (JOLIVET, 1984), en particulier dans des subordonnées à valeur temporelle. Ici, les locuteurs sont tous originaires de cantons différents et ils ont des âges variés :

(3) on a payé notre euh notre repas | _ | et dès qu'on a eu tourné le dos ils ont remis le | _ | les petites midinettes euh qui se trémoussaient dans tous les sens donc c'est c'est encore ce côté que je trouve très très hypocrite [unine09-lba, femme née en 1976, architecte].

(4) il fallait qu'on gagne notre vie on on pouvait pas se permettre de se dire qu'est-ce qu'on va faire | _ | alors il s'est engagé chez | # | déjà avant de faire son diplôme ce qui fait que quand il a eu fini on est retourné à | # | qu'on connaissait bien | _ | et pis il a travaillé chez | # | _ | trois quatre ans oui [unine11-lva, femme née en 1933, retraitée, employée pharmacie]

(5) d'autres sports euh non je suis un peu un touche à tout donc si on me propose d'aller | faire un sport j'ai eu été joué au volley avec des copains au badminton au | _ | squash ou comme ça mais c'est pas euh je pratique pas ces sports quoi je vais comme ça euh pour rigoler [unine11-fdb, homme né en 1987, laborant chimie]

L’enrichissement des données OFROM4, permettra de répondre aux questions concernant la distribution géographique actuelle du phénomène étudié, d’observer si les critères de l’âge, du sexe et de la profession peuvent être pertinents ou non dans l’analyse linguistique.

4. Conclusion

Après une brève introduction à la situation linguistique du français en Suisse romande et à sa variation interne, nous avons présenté OFROM, le premier corpus abritant uniquement du français parlé en Suisse romande, dont les données sont accessibles gratuitement en ligne. Ce projet, créé en 2012 à l’Université de Neuchâtel et en cours de développement, permettra notamment de combler les lacunes concernant les études morphosyntaxiques et phoniques appliquées au français parlé dans cette région. Les deux exemples d’étude syntaxiques présentés au point 3, sans être exhaustifs dans leur analyse, montrent l’intérêt que le corpus OFROM présente: l’accessibilité à la transcription et au fichier audio correspondant, ainsi qu’aux informations sur le locuteur et sur l’enquête, ont l’avantage de fournir une documentation complète qui peut être exploitée dans des études descriptives empiriquement fondées.

Remerciements

La confection de ce corpus n’aurait jamais été possible sans le soutien financier du programme Campus virtuel Suisse, de la Faculté des Lettres et des Sciences Humaines et du Rectorat de l’Université de Neuchâtel, ainsi que du Fonds National Suisse de la recherche scientifique (subside n. P300P1_147781). Nous remercions Pierre Ménétrey (http://www.webox-it.com/), webmestre, pour le travail de confection du site. Merci également à Sandra Schwab (Université de Genève) pour ses conseils et pour la confection des scripts Praat qui ont permis la mise en ligne des premières données sonores et des transcriptions associées. George Christodoulides nous a en outre fourni le logiciel pour tagger la base de données et créer des fichiers xml pour la charger. François Delafontaine (Université de Neuchâtel) a réalisé un travail colossal de révision et de correction des transcriptions. Il a été rejoint récemment par Maude Ehinger et Julie Rothenbühler (Université de Neuchâtel). Christophe Benzitoun a nettoyé, dans le cadre du projet ANR ORFEO, certains des fichiers présents dans la base. Qu’ils en soient tous et toutes remerciés très sincèrement. Enfin nous remercions de leur généreux engagement l’ensemble des collaborateurs scientifiques, des étudiants et des locuteurs qui ont participé aux diverses campagnes d’enquête.

Références bibliographiques

ADDA-DECKER, Martine, LAMEL, Lori, « Pronunciation variants across systemconfiguration, language and speaking style », Speech Communication, n. 29, 1999, p. 83-98.

ADDA-DECKER, Martine, SNOEREN, Natalie D., « Quantifying temporal speech reduction in French using forced speech alignment », Journal of Phonetics, n. 39, 2011, p. 261-270.

AVANZI, Mathieu, « Note de recherche sur l’accentuation et le phrasé prosodique à la lumière des corpus de français », Tranel, 2013, p. 5-24.

AVANZI, Mathieu, BÉGUELIN, Marie-José, DIÉMOZ, Federica, « De l’archive de parole au corpus de référence : La base de données orale du français de Suisse romande (OFROM) », Cahiers Corpus, 2016 (sous presse), Revues.org <http://Revues.org/>.

AVANZI, Mathieu, SCHWAB, Sandra, DUBOSSON, Pauline, GOLDMAN, Jean-Philippe, « La prosodie de quelques variétés de français parlées en Suisse Romande », in SIMON, Anne Catherine (éd.), La variation prosodique régionale en français, Bruxelles, De Boeck/Duculot, 2012, p. 89-120.

BARRAS, Claude, GEOFFROIS, Édouard, WU, Zhibiao, LIBERMAN, Mark, « Transcriber : a Free Tool for Segmenting, Labeling and Transcribing Speech », Proceedings of the First International Conference on Language Resources and Evaluation (LREC), 1998, p. 1373-1376.

BAUDE, Olivier (éd.), Corpus oraux. Guide des bonnes pratiques, Paris, CNRS-Éditions, 2006.

BENZITOUN, Christophe, DEBAISIEUX, Jeanne-Marie, DEULOFEU, José, « Le projet ORFÉO : Un corpus d’étude pour le français contemporain », Cahiers Corpus (2015, à par.)

BIGI, Brigitte, PÉRI, Pauline, BERTRAND, Roxane, « Influence de la transcription sur la phonétisation automatique de corpus oraux », Actes des JEP, 2012, p. 449-456.

BLANCHE-BENVENISTE, Claire, JEANJEAN, Colette, Le français parlé. Édition et transcription. Paris, Didier Érudition, 1986.

BLANCHE-BENVENISTE, Claire, Approches de la langue parlée en français. Paris/Gap, Ophrys, 1997.

BOERSMA, Paul, WEENINK, David, « Praat, v. 5.3 », http://www.fon.hum.uva.nl/praat/, 2012.

CAPPEAU Paul, GADET Françoise, « Où en sont les corpus sur les français parlés ? », Revue française de linguistique appliquée, n. 12, 2007, p. 129-133.

CHRISTODOULIDES, George, AVANZI, Mathieu, GOLDMAN, Jean-Philippe, « DisMo : A Morphosyntactic, Disfluency and Multi-Word Unit Annotator. An Evaluation on a Corpus of French Spontaneous and Read Speech », Proceedings of the First International Conference on Language Resources and Evaluation (LREC), 2014, p. 3902-3907.

DISTER, Anne, SIMON, Anne Catherine, « La transcription synchronisée des corpus oraux. Un aller-retour entre théorie, méthodologie et traitement informatisé », Arena Romanistica, n. 1/1, 2008, p. 54-79.

DIÉMOZ, Federica, « L’exemple de la Suisse », La langue française dans le monde 2014, Paris, Éditions Nathan, 2014, p. 153-155.

DURAND, Jacques, LAKS, Bernard, LYCHE, Chantal, « La phonologie du français contemporain : usages, variétés et structure », in PUSCH, Claus, RAIBLE, Wolfgang (éds), Romance Corpus Linguistics - Corpora and Spoken Language, Tübingen, Gunter Narr Verlag, 2002, p. 93-106.

DURAND, Jacques, LAKS, Bernard, LYCHE, Chantal, Phonologie, variation et accents du français, Paris, Hermes, 2009.

GIOVANNONI, Dominique Catherine, SAVELLI, Marie-Josée, « Transcrire, traduire, orthographier le français parlé. De l’impossible copie à la falsification des données orales », Recherches sur le français parlé, n. 10, 1990, p. 19-37.

GOLDMAN, Jean-Philippe, « EasyAlign: an Automatic Phonetic Alignment Tool under Praat », Proceedings of Interspeech, 2011, p. 3233-3236.

GPSR = Glossaire des Patois de la Suisse romande (1924-), Neuchâtel, Attinger.

KNECHT, Pierre, RUBATTEL, Christian, « À propos de la dimension sociolinguistique du français en Suisse romande », Le français moderne, n. 52, 1984, p. 138-150.

JOLIVET, René, « L'acceptabilité des formes verbales surcomposées », Le français moderne, n.52, 1984, p. 159-176.

MACWHINNEY, Brian, The CHILDES Project: Tools for Analyzing Talk. 3rd Edition, Mahwah, NJ, Lawrence Erlbaum Associates, 2000.

MANNO, Giuseppe, Le français non conventionnel en Suisse romande. Étude sociolinguistique menée à Neuchâtel et à Genève, Berne, Peter Lang, 1994.

MANNO, Giuseppe, « Le français régional de Suisse romande à l’aube du XXIe siècle : dérégionalisation ou dédialectalisation? », in COVENEY, Aidan, HINTZE, Marie-Anne, SANDERS, Carol (éds.), Variation et francophonie, Paris, L’Harmattan, 2004, p. 331-357.

PIERREHUMBERT, W., Dictionnaire historiquedu parler neuchâtelois et suisse romand, Neuchâtel, Attinger, 1926.

PRIKHODKINE, A., Dynamique normative du français en usage en Suisse romande. Enquête sociolinguistique dans les cantons de Vaud, Genève et Fribourg, Paris, L’Harmattan, 2011.

PRIKHODKINE, Alexei, « Prestige latent, variation spatiale et dynamique sociale : le cas des professions intermédiaires », in Actes du CMLF 2012 : 3e Congrès Mondial de Linguistique Française, SHS Web of Conferences, 2012, p. 2217-2229.

RACINE, Isabelle, ANDREASSEN, Helene, « A phonological study of a Swiss French variety: Data from the canton of Neuchâtel », in GESS, Randall, LYCHE, Chantal, MEISENBURG, Trudel (éds.), Phonological Variation in French: Illustrations from Three Continents, Amsterdam, John Benjamins, 2012, p. 173-207.

SCHWAB, Sandra, DUBOSSON, Pauline, AVANZI, Mathieu, « Étude de l'influence de la variété dialectale sur la vitesse d'articulation en français », Actes des 29e journées d'étude sur la parole (JEP'2012), Grenoble, 2012, http://aclweb.org/anthology/F/F12/, p. 521-527.

SINGY, Pascal, L’image du français en Suisse romande. Une enquête sociolinguistique en Pays de Vaud, Paris, L’Harmattan, 1996.

SINGY, Pascal, Identités de genre, identités de classe et insécurité linguistique, Bern, Peter Lang, 2004.

THIBAULT, André, Dictionnaire Suisse Romand. Particularités lexicales du français contemporain, Genève, Zoé, 1997.

VOILLAT, François, « Aspects du français régional actuel », in MARZYS, Zygmund, VOILLAT, François (éds.), Colloque de dialectologie francoprovençale organisé par le Glossaire des patois de la Suisse romande (Neuchâtel, 23-27 septembre 1969), Actes, Neuchâtel, Faculté de Lettres /Genève, Droz, 1971, p. 216-246.

1
Pour une description des aspects lexicologiques du français en Suisse romande, nous renvoyons à la contribution de Aquino dans ce numéro.

2
Pour ce dernier point, nous nous sommes basés sur la catégorisation socio-éducative opérée par RACINE et ANDREASSEN (2012) pour les locuteurs du point d’enquête neuchâtelois du corpus PFC. Nous différencions ainsi les locuteurs ayant atteint le niveau de l’école obligatoire avec à l’issue un apprentissage plutôt technique (maçon, ouvriers, coiffeurs, etc. Niveau I) des locuteurs ayant atteint le niveau de l’école obligatoire avec un apprentissage plutôt administratif (employés de banque, employés administratifs, etc. Niveau II), des locuteurs avec une maturité (équivalent français du baccalauréat, Niveau III) et des locuteurs ayant suivi des études universitaires. Nous sommes bien conscients que ces catégories sociolinguistiques ne sont pas suffisantes (CAPPEAU et GADET, 2007), mais elles permettent d’opérer au moins une première catégorisation des données.

3
La signification des acronymes n’est pas donnée dans la transcription.

4
En 2015, OFROM a reçu un financement de la part de l’Université de Neuchâtel qui permettra, par des enquêtes complémentaires sur le terrain et par le traitement informatique des données, d’augmenter de manière considérable le nombre de mots et d’heures d’enregistrements accessibles en ligne. Les premiers résultats de certaines recherches utilisant le corpus OFROM seront présentés dans AVANZI, BÉGUELIN, et DIÉMOZ Federica (2016 sous presse).

Per citare questo articolo:

Federica DIÉMOZ, Mathieu AVANZI , Le « Corpus oral de français de Suisse romande » (OFROM) et les variétés du français en Suisse, Repères DoRiF n.11 - Francophonies européennes : regards historiques et perspectives contemporaines - Coordonné par C. Brancaglion et C. Molinari, DoRiF Università, Roma novembre 2016, http://dorif.it/ezine/ezine_articles.php?id=324

Ritorna alla Barra di Navigazione