CORPUS DE PAROLE DIALECTALE NUMÉRISÉE : BASES, ENTRÉES, LEMMES, CONTEXTES, PROSODIE/SYNTAXE : TRAITEMENT MULTI-COUCHES DES CONTEXTES GRAPHIQUES DU DICTIONNAIRE NUMÉRIQUE FA40 DGL DE LA GRANDE LANDE ( FA_DP.GL40 / CPN2008_APINEW) par Jean-Louis Fossat MCL REGARDS SUR LE GASCON CORPUS ELECTRONIQUES GASCONS : GASCON NORD-OCCIDENTAL GL GRANDE LANDE GASCOGNE MARITIME, MARENSIN, BORN, CANTABRIA, POITOU DESTINATAIRE ; TGE ADONIS ; CENTRE D’ARCHIVES OUVERTES HAL-SS Territoire concerné : 1°Aquitaine, MIDI_PYRÉNEES/OCCITANIE Langue concernée : Occitan : variété différentielle GL (Grande Lande) Objectif : validation sur corpus des analyses et hypothèses de Séguy (1973). 2° extension au domaine pan occitan: LANGUEDOC, ROUSSILLON, PROVENCE 30 extension au territoire national: POITOU, NORD, NORMANDIE, SARRE, ALASCE 4° extension au territoire européen; Espagne, Grèce etc?
PREFACE : L’environnement scientifique du programme de travail lexicographique dialectal, dans l’axe d’un regroupement de ressources (thesaurus de domaines lexicaux) Des ressources numériques langagières, dans le champ de la dialectologie, pour quoi faire, et pour qui, pour quels usages ? Pour quels modes d’exploitation, traditionnels, innovés ? HUMANITÉS NUMÉRIQUES Bases, Corpus, extraction de connaissances, soit ! Mais pour qui, avec quelles méthodes, quelle instrumentation, et pour quoi faire ? La présente notice, qui tient plus du rapport d’activité soutenue que de la communication, vise à répondre à ces questions, et à justifier la nécessité de disposer de ressources dialectales numériques, en qualité, en nombre, de caractère contextuel ; autrement dit de bibliothèques numériques de contextes transcrits en API, dans le développement des actions engagées en lexicographie dialectale occitane, pendant près de 40 ans (1978-2008), et dans la perspective de développement des opérations connues sous le libellé Atlas linguistiques (Dauzat Le Français Moderne), à dominante lexicale, avec un bloc de données syntaxiques réduites. RETOMBÉES DES RECHERCHES Réduction du concept de langue/dialecte L’hypothèse de base nulle est que le gascon, considéré comme langue par les uns, comme dialecte de l’occitan pour d’autres (Lalanne, Rohlfs, ALG, Massoure, Allières, Lafitte) mais dans les deux cas positionné par rapport à et dans l’ensemble occitan, présente plus de difficultés d’apprentissage que n’en présente tout autre état dialectal de l’occitan, par exemple le Quercy, l’Auvergne, le Dauphiné, la Provence: on entend apporter les preuves de la fausseté relative de l’hypothèse de départ, à partir d’une grammaire de propriétés inscrites dans le lexique dialectal en contexte linguistique transcrit par opération linguistique ; cette grammaire couvre l’ensemble des états lexicaux dialectaux occitans, regroupés autant que faire se peut. L’observation qui est ici présentée ne concerne que le seul état dialectal du lexique gascon de la Grande-Lande, avec objectif de validation de la grammaire de propriétés établies pour cette constellation par Jean Séguy (ALG8, dialectométrie, phonétique, phonologique, morphologique, syntaxique et lexicale). La rationalité qui préside à l’ordre donné au document qui est ici présenté combine l’ordre alphabétique lexicographique, en principe, et un ordre de préoccupations qui ne l’est absolument pas, parce qu’il repose sur une rationalité qui construit les actes d’énonciation, les relations entre syntaxe, sémantique et communication parlée. Les documents constitués en ressources sont pour GL au nombre de 3 FA DGL 01 (contextes API de dictionnaire FA DGL) FA DGL 02 (contextes par informateur localisé) BM : Corpus annoté en API Bernat Manciet, Dictionnaire de la GL
CRÉATION DE RESSOURCES LANGAGIÈRES NUMÉRIQUES DANS LE CHAMP DES ÉTUDES DIALECTALES : ENTRE RÉGULARITÉ, CONTRAINTES ET FLEXIBILITÉ L’objectif de toutes les grandes formations scientifiques de type fédérateur Université-CNRS (de type ILF, TUL, RCP Atlas, GRECO 09 des Atlas Linguistiques), est ici de constituer des ressources numériques accessibles, sur la base des existants recueillis non numériques antérieurs, en vue de faciliter la description globale et locale de langues, définies, globalement, si on prend les affaires « à la louche » par leurs « grammaires de propriétés ». Ces ressources, s’agissant de ressources dialectales concernant les langues de France (LdF), romanes ou non, telles que réellement parlées, transmises, apprises – de viva votz - se laissent classer sous cinq rubriques principales, et définissent le champ des observables en dialectologie numérique, hstorique et synchronique.
Base 1 . Corpus de parole et description des langues (fonds sonores analogiques/numériques et communication parlée) réalisés par des formations de recherche temporaire (RCP atlas, GRECO atlas, ERA 352, URL008 ILF, MSH, projets MIP) ou associations cullturelles sans but lucratif (ERCV, ERCVOX, CLID, CLID-ERSS, CLLE_ERSS) : extraction, indexation, classification, recherches catégorielles, lemmatisation, , expression idiomatique, groupements de mots figés GMF, traitement phono-syntaxique normé et phraséologique, associé à des collections de « prosogrammes » . Notre hypothèse, partagée, concerne le corrélat prosodique de l’architecture des organisations SS (syntaxiques et sémantiques).
LE MOT, OUI, MAIS LE MOT PHONOLOGIQUE DANS LA PHRASE ORALE TRANSCRITE, A PARTIR D’UN SUPPORT SONORE NUMÉRISÉ (existant ou créé). Corrélats composites de plus de 2 unités L’entrée (marge gauche) est un lemme simple, nominal ou verbal) Le corrélat composite gradué est formé de suites syntaxiques normées. < ¶yù_k'Op / kê s awEm h'ejt ¶yù pih'yrt / k aw'e lê b'ukê gr'anê kum yw[] mj'Erê / e l'¶uù dê trœs pj'es u pr'OSê / l awem h'ejt d ¶yù br'¶aùk Dê p'¶iù bj'œL / Zam'e n ej b'is[] ¶yù br'¶aù at'aw œsp'Œs ! / me pêr s ¶œn sœrb'i / kê kal'e êst'a D'ys / '¶yù k8_Ow tin'E sy[] l'¶ymbê / e l_'awt kê sun'Ewê / k Er[] œstrumiggl'¶an a [œ]nt'enê ! s'aBêt ! / pêr m'œLê h'a []ùkw'Erê / k_Ow but'Ewên h¶œn lê tSamin'Ejê / dê_b'uk_¶œn_h'awt /haD'Em bœrn'i lus t'ywlês / haD'em œzmyD'i t'ut > Le contexte peut être attaché à telle entrée lexicale (surlignée, marquée) comme à telle propriété récurrente de la syntaxe de l’énonciation en gascon : ainsi que (p), en rapport avec la perception "quéiste" de la phrase gasconne (R. Lafont. La phrase occitane, à citer ici en pointillé).
(1) DOMAINE NOMINAL (simple ou composite) w1, 2, …, n dentons cantons mièjas palas, palinas
(2) DOMAINE VERBAL (simple ou composite) : formations prédicatives: w1, 2, …, n quitar : < qu’an quitat > èsser - esser au cap : < que son au cap, qu’an acabat, acabat de mudar, qu’an arrasat > - èsser < que son à quate dents/a quate dentons > - èsser : < que son aus darrèrs ; qu’an acabat de pujar los cantons > - èsser : < que son a palas, a palinas > - èsser : < que son a mièjas > mudar < qu’an mudat de (n)QUANT) dentons > On s’en tiendra à titre d’exemplification, à cet échantillon de suites idiomatiques à des degrés divers. On renvoie notamment aux dictionnaires électroniques simplifiés de groupes de mots figés de l’occitan (GMF, EXIDIOM). (3) ARTICULATION PAR UNE GRAMMAIRE DE PROPRIÉTÉS DE PRÉDICAT ET ARGUMENTS: DÉCLARATION DES VARIABLES ET CALCUL DES ECARTS DIFFERENTIELS cantons : - < qu’an montat los cantons > - < qu’an pujat los cantons > èsser - èsser au cap : < que son au cap, qu’an acabat, acabat de mudar, qu’an arrasat (X, bieus, vacas, taurs)> - èsser < que son à quate dents/a quate dentons (X, bièus, vacas)> - èsser : < que son aus darrèrs ; qu’an acabat de pujar los cantons > - èsser : < que son a palas, a palinas (X, bièus, vacas) > - èsser : < que son à mièjas (X, braus, bimas, jorgas, borretas > De ces contextes, par extraction légitime, on isole des unités lexicales ou entrées, représentées par leurs lemmes, en lemmatisation classique de texte indexé et lemmatisé. Capital pour la description, ce premier programme de travail est fondamental du point de vue des méthodes d’apprentissage des états dialectaux, notamment dans les écoles, qui ont pris le relais des modes de transmission familiale, parentale.
Il établit déjà que la première étape consiste à dresser un état des unités lexicales complexes par figement gradient. D’où le recours aux états de bases hybrides dites « expressions idiomatiques » (Elhami 1995). Je renvoie aux états accessibles sous formes de fichiers des bases de renseignement (textes téléchargeables sur les sites temporaires construits, cli/erss/occitan, et ercvox.free.fr en 2008. a-babelada adv.Q b1 a-balanç adv. b1' a-bandóls adv. b1' a-barbolhada adv. b1' a-barranc adv. b1 a-barrei adv. b1' a-barrèis adv. b1' a-barreja adv. b1 a-bassacadas adv. b1' a-bèla-corsa adv. b1'
Ces états numériques dialectaux de laboratoire seront réutilisables pour toute opération de navigation dans des bases de textes utilisant le dispositif STELLA Frantext (J. Dendien, InalF), détourné de son usage français bien avant 2008, dans les applications aux textes d’occitan écrit moderne et contemporain (Thomas et Braç 2008 AIEO, Aachen).
OCCITAN PARLÉ, DE VIVA VOTZ, EN AQUITAINE, DANS LA GRANDE LANDE : LA BASE FA40 ET LE DPG40 Le travail entrepris vise à lever deux grandes illusions : la première concerne les illusions entretenues autour de la stabilité du mot phonologique gascon voler : voletz/vòletz ; de telles distributions en mouvement existent, qu’on le veuille ou non : las causas son… ; la seconde vise à lever l’illusion de la permanence, de la stabilité du parler même – de vive voix, sujet à mouvements, à interactions, à variation inter et intra-individuelle, et appelé à disparaître, sous ses formes anciennes fixées, implantées, transmises dans le réseau de sociabilité restreinte des acteurs, au profit de formes adaptées, voire refondées sur des apprentissages profondément transformés.
Base 2. Atlas linguistiques analogiques édités (collections des opérations ALF, NALF, Thesaurus occitan : archive sonore : archive visuelle ; archive de cartes ; archive de laboratoire) : des sources aux données numérisées (projet DRAWCARTE.base : étape initiale ; étape de développement). Ces collections constituent une part centrale des mémoires de terrains, recueil de données spatiales numériques, soumises à description, objet de modélisation, débouchant sur des représentations adéquates des données spatiales complexes, et leur interprétation. L’outil de base de description est fondé sur le regroupement de ressources ATD : A atlas T, textes, D dictionnaires, et la création d’une archive sonore numérique (ASN). Cette approche ATD, repose sur la création de 6 générations de cartes GK01 cartes_texte lexical en mode API, sans dessin, sans tracé de constellations, donc sans fragmentation, sans partition de départ pour l’œil. GK02 avec tracé de constellations sur carte bidimensionnelle, avec partition pour l’œil, selon des critères visibles, sinon explicites, par lemmatisation implicite, à phase de pré-lemmatisation normalisée. Ce sont des cartes à polygonage, triangulation variable, à tracé de zones appelées aires (selon des vecteurs de variabilité multicritères déclarés ultérieurement dans des dictionnaires de variables), à partir de quoi tout a changé dans les modes de représentation. GK03 cartes dialectométriques fondées sur critères de variation GK3.01 cartes lexicales (par blocs de 10 objets) GK03.02 cartes phonétiques, sur critères phonétiques en nombre fini, et nombre de cas observables en nombre fini (données spatiales 170 mas, min 153) GK03.3 cartes phonologiques : mots phonologiques, syllabes, prosodie phonologique, architecture phonologique et morphonologique des catégories GK03.4 cartographie des catégories morphologiques : catégories nominales, verbales GK003.4 cartes de catégories syntaxiques et morpho-syntaxiques, par blocs de cohérence. GK05 cartes d’états dialectaux multilingues, hybrides (données proportionnelles de variables (JVARRS A, B, C ; D, par exemple) GK06 enfin : cartes de KOHONEN et réseaux de sociabilité.
Base 3 . Textes localisés et numérisés (ATN) répartis dans le temps et dans l’espace (projet DRAWCARTE.base : prototypage ; classification ; lemmatisation ; dictionnaires de fréquence ; syntaxe et sémantique). Le travail ici, consiste à se doter d’outils qui permettent de mettre de l’ordre dans les typologies d’états dialectaux comparés, à partir de textes transcrits, résultat de recueil de données spatiales de terrain, confrontées à de grands corpus écrits à caractère historique et juridique. Quand on interroge avec Google, Google analytics, les données existantes numérisées, avec la clé « GASCON », on trouve un jeu de ressources numérisées, temporaires, sous forme d’états provisoires, en cours de validation (1) GASCON GL.zip (textes gascons de la Grande lande 40 Foix, Félix Arnaudin) (2) GASCON 32.zip Duprat Joséphine, Yvonne Loumagne, 32 Pouylebon (*e Nicole Roux Loumagne. (3) BAREGE.zip : aphérèse en gascon pyrénéen (Barège), à titre d’exemple. Il convient d’apporter quelques précisions sur la genèse, l’élaboration et la perception de ces sortes de ressources, afin de titer au clair certains problèmes, et d’éviter toute confusion. On précise que la mention de ces ressources est faite par transfert de ces ressources à un centre de regroupement de ressources à caractère temporaire, à des fins de sauvegarde des mémoires de travail dans les laboratoires de SHS, donc de sauvegarde du patrimoine langagier, de publication des mémoires langagières (site clid/occitan ; puis site erss/clid/occitan, en cours de migration vers site général ercvox.free.fr, avan transfert à de grands centres de ressources numériques, existants ou en voie de création projetée. Les difficultés de transfert, de sauvegarde, sont ici récurrentes de plus les années 60, vu les conditions de planification en France de ce type de recherches, et des ressources qui lui sont ou non affectées (TAL dialectal, inexistant). (3,4) Les textes suivants constitués en ressources temporaires, accessibles au téléchargement, sont des études à citer, à classer selon leur degré d’aboutissement ; elles ont un caractère exploratoire, et ont pour objectif de susciter une « intelligence collective » de phénomènes curieux, mis en observation, positionnés dans des domaines très différents : (1) Angle ethnographique et ethnographie de la communication PASTET.zip et GASCON DERIV.zip relèvent d’objectifs différents ; le premier constitue une analyse de caractère ethnographique de pratiques (d’autres diront amusoire folklorique ; plus prétentieux, d’autres parleront localisées, avec un certain toupet, d’angle anthropologique ; l’intérêt de ce type de ressource est qu’il est corrélé à une archive visuelle, d’une part, et à une très importante archive sonore d’autre part ; mais où donc sont passer les documents originaux du film réalisé par Claude Costes LA CHASSE A L’OURS A GEDRE : praube patrimoni : tot ço de nos qu’abaisha ! (2) approche grammaticale, linguistique Quant à la ressource libellée GASC. dérivation.zip, il s’agit d’une simple démonstration temporaire d’une propriété de langue commune à l’occitan (gascon), au catalan et à l’aragonais, très bien connue de la grammaire des langues romanes, décrite sous le nom de dérivation complexe à deux éléments au moins, dite « dérivation décalée » par Roché-Plénat (vacasser, porcater, saumater, vaquer, porquer, brauter, manetier etc.) ; ce sont des études soumises à lecture dans ce qu’on appelle « forum » de site coopératif, textes d’atelier (obrador, obrader).
Seule est ici concernée la première référence : il s’agit d’une création de texte phonétique transcrit en API à titre exploratoire (contextes graphiques attachés aux entrées), pour enrichir les dictionnaires traditionnels de prononciation, en vue de faciliter ultérieurement une analyse par traitement du signal, qui, à première étape, n’existe pas encore, aussi longtemps qu’il n’a pas été créé. Le texte API qui sera mis ici en observation concerne la seule source FA40 Dictionnaire du gascon de la Grande Lande de Félix Arnaudin, peuivre monumentale éditée par l’équipe bordelaise reconnue (Lefèvre, Boisgontier, Latry et al.). On notera que la présente version, revue et corrigée en 2008 remplace et annule toutes les versions antérieures, transitoires. C’est la version définitive, stabilisée, comme point de départ des étapes de manipulation des données soumises à analyse, avec création de fichier sonore numérique d’extension.wav. Le second type de ressource est à distinguer du précédent avec le plus grand soin : on prend ici comme point de départ un enregistrement analogique d’origine localisé (32 Pouylebon) et daté, authentifiable en droit, , numérisé, permettant un traitement en analyse du signal, à partir d’une bibliothèque de fragments indexés, étiquetés (1° fonds ATLAS LINGUISTIQUE DE LA France, NALF ; 2° FONDS ERCVOX, distingués, séparés en tant qu’opérations et résultats, comme objectifs et méthodes de travail sur fichier.wav transcrit, annoté, analysé en environnement PRAAT-WINPITCH). Le troisième document, BAREGE PHON.zip, constitué en ressource, est le résultat d’une analyse d’atelier de transcription en binome, c’est une étude, qui a pris pour base des textes transcrits par des transcripteurs authentifiés, professionnels de l’ace de transcription (J. Séguy, X. Ravier, J.L. Massoure, JL Fossat, etc. pour s’en tenir aux seules sources des transcriptions manuscrites ou éditées qui soient authentifiées en droit. Ce type de ressource est vérifiable en traitement du signal, à partir d’une archive sonore de type (1) NALF (2) ERCVOX.
Base 4 . Dictionnaires localisés regroupés de type ADN_DPG ( dictionnaires de prononciation du gascon fluent, cursif), isolés ou regroupés, hors plan fédérateur, hors numérisation fédérée/après numérisation (projet DRAWCARTE.base dictionnaires de prononciation, sur la base de matériaux lexicographiques spatialisés : ADN archive regroupant des dictionnaires API d’états dialectaux régionaux numérisés) : on tente ici de simuler le regroupement de ressources créées par des ethnographes, philologues non professionnels, certes, mais connaissant bien leurs dialectes (Gascogne, Guyenne, Pyrénées, Languedoc, Auvergne, Dauphiné, Provence etc.) Le présent travail DPG dictionnaire de prononciation d’unités en contextes syntaxiques récurrents, vise à faciliter les apprentissages de la langue gasconne, dans ses formes locales occidentales (40 Landes, plus spécifiquement système GL Grande Lande, restitué à partir des mémoires recueillies par Félix Arnaudin (FA40). Le point de départ du travail relève de l’exécution de dictionnaires contextualisés de prononciation (Feuillet 2008), réutilisables dans les enseignements, comme dans des opératins et programmes de recherche. Notre programme de travail implique regroupement de dictionnaires languedociens, gascons, occitan alpin.
Base 5 . Modélisation, représentation, traitement de Données spatiales analogiques mixtes, hybrides combinant différents aspects, dans la forme documentaire (résultant d’enquêtes par question-réponse, par entretiens : problématique d’exploitation scientifique de l’archive numérique (développement du projet DRAWCARTE.base_ATD, sur matériaux ATLAS (A) ; TEXTES (T), DICTIONNAIRES (D). Loin de constituer mon enfant privilégié à usage interne exclusif, ou une quelconque vitrine de Salon de l’Agriculture, des Arts, des Humanités Numériques, magnifié dans je ne sais quels congrès mondiaux d’étalage de l’excellence des grandes langues véhiculaires, l’outil DRAWCARTE, couplé à un complexe d’outillage adéquat de traitement de la parole, et soumis à développement critique, est destiné à faciliter la compréhension de tous, y compris des plus humbles travailleurs, et la créativité de tout type d’utilisateur en cours d’expérience (dialogue interactif Homme-Machine).
AXES, OPÉRATIONS, PROGRAMMES, GESTION DE PROJET SCIENTIFIQUE Contribution aux travaux du laboratoire CLLE-erss Axe 5 (J.-L. Fossat ergon 2008-2010 Humanités Numériques) Ces travaux de recherche sur les états dialectaux, concept opposé à celui de langue starndardisée, se laissent classer sur 8 axes d’investigation, faisant appel à des méthodes, techniques, outillages adéquats Axe 1 phonétique (les réels perçus) et phonologie : mot et phonologie Axe 2 Morphologie : mot occitan et analyse morphologique Axe 3 Syntaxe et Sémantique : mot occitan en contexte phrastique réel. Axe 4 Prosodie et énonciation réelles : corrélat prosodique de la syntaxe Axe 5 analyse dialectale : données locales spatiales, modélisation, représentation ; ordre stochastique dans les distributions lexicales, grammaticales ; distributions stationnaires / distributions transitoires ; cartes de Kohonen. Axe 6 : approches de linguistique quantitative sur corpus étendus de communication parlée réelle, avec approche instrumentale (axes 1, 3, 4, 5, 6) Axe7 : Valorisation des collections et archives digitalisées, publications, missions nationales, régionales, internationales : Humanités Numériques (témoignages, mémoires patrimoniales régionales numérisées et publiées) Axe 8 : exploitation de corpus numérique en analyse sociolinguistique (témoignages, mémoires: gains et pertes en matière de lexiques ; mémoires lexicales régionales ; statistique lexicale sur la déperdition (lexiques transitoires, états transitoires), densité lexicale et ordre stochastique des relations entre couches lexicales concurrentes ; gradient de préservation des systèmes instables.
Fiche d'identification des ressources numériques exploitées (archive ERCVOX et Data Mining) ACCES LEXICAL ET DICTIONNAIRE GASCON SUD-OCCIDENTAL DE PRONONCIATION: SEMA_FOR, ACCES LEXICAL, CONTEXTES DE LABORATOIRE REELS, TYPOLOGIE DES PHRASES, INVARIANTS ET VARIATION INTRADIALECTALE, VEILLE TECHNOLOGIQUE (INSTRUMENTS, INSTRUMENTATION) Type : constitution de base de données de textes transcrits en mode API, destinés à être dotés de fichiers.wav correspondants. Objectif : dépasser le protocole des listes de mots W1, 2, …, n de la lexicographie dialectale (cartes mots, associés à JVARS X1, 2, …, n) Jean-Louis Fossat CLLE_ERSS 2008 et ercvox 2008-2010 Réf. J. Feuillet (Feuillet 2008).- Dictionnaire sonore de prononciation du languedocien
|