ERCVOX • Consulter le sujet

Consulter les messages sans réponse | Consulter les sujets actifs

Index du forum » CLID » géolinguistique

Le fuseau horaire est UTC+1 heure

CORPUS PAROLE

Modérateur: fossat

Page 1 sur 1

[ 2 messages ]

Sujet précédent | Sujet suivant

Auteur

Message

occitan

Sujet du message: CORPUS PAROLE

Publié: 17 Juin 2024, 15:21

Administrateur

Inscrit(e) le : 26 Jan 2009, 15:06
Message(s) : 1036

CORPUS DE PAROLE DIALECTALE NUMÉRISÉE : BASES, ENTRÉES, LEMMES, CONTEXTES, PROSODIE/SYNTAXE : TRAITEMENT MULTI-COUCHES DES CONTEXTES GRAPHIQUES DU DICTIONNAIRE NUMÉRIQUE FA40 DGL DE LA GRANDE LANDE ( FA_DP.GL40 / CPN2008_APINEW)
par
Jean-Louis Fossat
MCL
REGARDS SUR LE GASCON
CORPUS ELECTRONIQUES GASCONS : GASCON NORD-OCCIDENTAL GL GRANDE LANDE GASCOGNE MARITIME, MARENSIN, BORN, CANTABRIA, POITOU
DESTINATAIRE ; TGE ADONIS ; CENTRE D’ARCHIVES OUVERTES HAL-SS
Territoire concerné :
1°Aquitaine, MIDI_PYRÉNEES/OCCITANIE
Langue concernée : Occitan : variété différentielle GL (Grande Lande)
Objectif : validation sur corpus des analyses et hypothèses de Séguy (1973).
2° extension au domaine pan occitan: LANGUEDOC, ROUSSILLON, PROVENCE
30 extension au territoire national: POITOU, NORD, NORMANDIE, SARRE, ALASCE
4° extension au territoire européen; Espagne, Grèce etc?

PREFACE : L’environnement scientifique du programme de travail lexicographique dialectal, dans l’axe d’un regroupement de ressources (thesaurus de domaines lexicaux)
Des ressources numériques langagières, dans le champ de la dialectologie, pour quoi faire, et pour qui, pour quels usages ? Pour quels modes d’exploitation, traditionnels, innovés ?
HUMANITÉS NUMÉRIQUES
Bases, Corpus, extraction de connaissances, soit ! Mais pour qui, avec quelles méthodes, quelle instrumentation, et pour quoi faire ? La présente notice, qui tient plus du rapport d’activité soutenue que de la communication, vise à répondre à ces questions, et à justifier la nécessité de disposer de ressources dialectales numériques, en qualité, en nombre, de caractère contextuel ; autrement dit de bibliothèques numériques de contextes transcrits en API, dans le développement des actions engagées en lexicographie dialectale occitane, pendant près de 40 ans (1978-2008), et dans la perspective de développement des opérations connues sous le libellé Atlas linguistiques (Dauzat Le Français Moderne), à dominante lexicale, avec un bloc de données syntaxiques réduites.
RETOMBÉES DES RECHERCHES
Réduction du concept de langue/dialecte
L’hypothèse de base nulle est que le gascon, considéré comme langue par les uns, comme dialecte de l’occitan pour d’autres (Lalanne, Rohlfs, ALG, Massoure, Allières, Lafitte) mais dans les deux cas positionné par rapport à et dans l’ensemble occitan, présente plus de difficultés d’apprentissage que n’en présente tout autre état dialectal de l’occitan, par exemple le Quercy, l’Auvergne, le Dauphiné, la Provence: on entend apporter les preuves de la fausseté relative de l’hypothèse de départ, à partir d’une grammaire de propriétés inscrites dans le lexique dialectal en contexte linguistique transcrit par opération linguistique ; cette grammaire couvre l’ensemble des états lexicaux dialectaux occitans, regroupés autant que faire se peut. L’observation qui est ici présentée ne concerne que le seul état dialectal du lexique gascon de la Grande-Lande, avec objectif de validation de la grammaire de propriétés établies pour cette constellation par Jean Séguy (ALG8, dialectométrie, phonétique, phonologique, morphologique, syntaxique et lexicale).
La rationalité qui préside à l’ordre donné au document qui est ici présenté combine l’ordre alphabétique lexicographique, en principe, et un ordre de préoccupations qui ne l’est absolument pas, parce qu’il repose sur une rationalité qui construit les actes d’énonciation, les relations entre syntaxe, sémantique et communication parlée.
Les documents constitués en ressources sont pour GL au nombre de 3
FA DGL 01 (contextes API de dictionnaire FA DGL)
FA DGL 02 (contextes par informateur localisé)
BM : Corpus annoté en API Bernat Manciet, Dictionnaire de la GL

CRÉATION DE RESSOURCES LANGAGIÈRES NUMÉRIQUES DANS LE CHAMP DES ÉTUDES DIALECTALES : ENTRE RÉGULARITÉ, CONTRAINTES ET FLEXIBILITÉ
L’objectif de toutes les grandes formations scientifiques de type fédérateur Université-CNRS (de type ILF, TUL, RCP Atlas, GRECO 09 des Atlas Linguistiques), est ici de constituer des ressources numériques accessibles, sur la base des existants recueillis non numériques antérieurs, en vue de faciliter la description globale et locale de langues, définies, globalement, si on prend les affaires « à la louche » par leurs « grammaires de propriétés ». Ces ressources, s’agissant de ressources dialectales concernant les langues de France (LdF), romanes ou non, telles que réellement parlées, transmises, apprises – de viva votz - se laissent classer sous cinq rubriques principales, et définissent le champ des observables en dialectologie numérique, hstorique et synchronique.

Base 1 . Corpus de parole et description des langues (fonds sonores analogiques/numériques et communication parlée) réalisés par des formations de recherche temporaire (RCP atlas, GRECO atlas, ERA 352, URL008 ILF, MSH, projets MIP) ou associations cullturelles sans but lucratif (ERCV, ERCVOX, CLID, CLID-ERSS, CLLE_ERSS) : extraction, indexation, classification, recherches catégorielles, lemmatisation, , expression idiomatique, groupements de mots figés GMF, traitement phono-syntaxique normé et phraséologique, associé à des collections de « prosogrammes » .
Notre hypothèse, partagée, concerne le corrélat prosodique de l’architecture des organisations SS (syntaxiques et sémantiques).

LE MOT, OUI, MAIS LE MOT PHONOLOGIQUE DANS LA PHRASE ORALE TRANSCRITE, A PARTIR D’UN SUPPORT SONORE NUMÉRISÉ (existant ou créé).
Corrélats composites de plus de 2 unités
L’entrée (marge gauche) est un lemme simple, nominal ou verbal)
Le corrélat composite gradué est formé de suites syntaxiques normées.
< ¶yù_k'Op / kê s awEm h'ejt ¶yù pih'yrt / k aw'e lê b'ukê gr'anê kum yw[] mj'Erê / e l'¶uù dê trœs pj'es u pr'OSê / l awem h'ejt d ¶yù br'¶aùk Dê p'¶iù bj'œL / Zam'e n ej b'is[] ¶yù br'¶aù at'aw œsp'Œs ! / me pêr s ¶œn sœrb'i / kê kal'e êst'a D'ys / '¶yù k8_Ow tin'E sy[] l'¶ymbê / e l_'awt kê sun'Ewê / k Er[] œstrumiggl'¶an a [œ]nt'enê ! s'aBêt ! / pêr m'œLê h'a []ùkw'Erê / k_Ow but'Ewên h¶œn lê tSamin'Ejê / dê_b'uk_¶œn_h'awt /haD'Em bœrn'i lus t'ywlês / haD'em œzmyD'i t'ut >
Le contexte peut être attaché à telle entrée lexicale (surlignée, marquée) comme à telle propriété récurrente de la syntaxe de l’énonciation en gascon : ainsi que (p), en rapport avec la perception "quéiste" de la phrase gasconne (R. Lafont. La phrase occitane, à citer ici en pointillé).

(1) DOMAINE NOMINAL (simple ou composite) w1, 2, …, n
dentons
cantons
mièjas
palas, palinas

(2) DOMAINE VERBAL (simple ou composite) : formations prédicatives: w1, 2, …, n
quitar : < qu’an quitat >
èsser
- esser au cap : < que son au cap, qu’an acabat, acabat de mudar, qu’an arrasat >
- èsser < que son à quate dents/a quate dentons >
- èsser : < que son aus darrèrs ; qu’an acabat de pujar los cantons >
- èsser : < que son a palas, a palinas >
- èsser : < que son a mièjas >
mudar < qu’an mudat de (n)QUANT) dentons >
On s’en tiendra à titre d’exemplification, à cet échantillon de suites idiomatiques à des degrés divers.
On renvoie notamment aux dictionnaires électroniques simplifiés de groupes de mots figés de l’occitan (GMF, EXIDIOM).

(3) ARTICULATION PAR UNE GRAMMAIRE DE PROPRIÉTÉS DE PRÉDICAT ET ARGUMENTS: DÉCLARATION DES VARIABLES ET CALCUL DES ECARTS DIFFERENTIELS
cantons :
- < qu’an montat los cantons >
- < qu’an pujat los cantons >
èsser
- èsser au cap : < que son au cap, qu’an acabat, acabat de mudar, qu’an arrasat (X, bieus, vacas, taurs)>
- èsser < que son à quate dents/a quate dentons (X, bièus, vacas)>
- èsser : < que son aus darrèrs ; qu’an acabat de pujar los cantons >
- èsser : < que son a palas, a palinas (X, bièus, vacas) >
- èsser : < que son à mièjas (X, braus, bimas, jorgas, borretas >
De ces contextes, par extraction légitime, on isole des unités lexicales ou entrées, représentées par leurs lemmes, en lemmatisation classique de texte indexé et lemmatisé.
Capital pour la description, ce premier programme de travail est fondamental du point de vue des méthodes d’apprentissage des états dialectaux, notamment dans les écoles, qui ont pris le relais des modes de transmission familiale, parentale.

Il établit déjà que la première étape consiste à dresser un état des unités lexicales complexes par figement gradient. D’où le recours aux états de bases hybrides dites « expressions idiomatiques » (Elhami 1995). Je renvoie aux états accessibles sous formes de fichiers des bases de renseignement (textes téléchargeables sur les sites temporaires construits, cli/erss/occitan, et ercvox.free.fr en 2008.
a-babelada adv.Q b1
a-balanç adv. b1'
a-bandóls adv. b1'
a-barbolhada adv. b1'
a-barranc adv. b1
a-barrei adv. b1'
a-barrèis adv. b1'
a-barreja adv. b1
a-bassacadas adv. b1'
a-bèla-corsa adv. b1'

Ces états numériques dialectaux de laboratoire seront réutilisables pour toute opération de navigation dans des bases de textes utilisant le dispositif STELLA Frantext (J. Dendien, InalF), détourné de son usage français bien avant 2008, dans les applications aux textes d’occitan écrit moderne et contemporain (Thomas et Braç 2008 AIEO, Aachen).

OCCITAN PARLÉ, DE VIVA VOTZ, EN AQUITAINE, DANS LA GRANDE LANDE : LA BASE FA40 ET LE DPG40
Le travail entrepris vise à lever deux grandes illusions : la première concerne les illusions entretenues autour de la stabilité du mot phonologique gascon voler : voletz/vòletz ; de telles distributions en mouvement existent, qu’on le veuille ou non : las causas son… ; la seconde vise à lever l’illusion de la permanence, de la stabilité du parler même – de vive voix, sujet à mouvements, à interactions, à variation inter et intra-individuelle, et appelé à disparaître, sous ses formes anciennes fixées, implantées, transmises dans le réseau de sociabilité restreinte des acteurs, au profit de formes adaptées, voire refondées sur des apprentissages profondément transformés.

Base 2. Atlas linguistiques analogiques édités (collections des opérations ALF, NALF, Thesaurus occitan : archive sonore : archive visuelle ; archive de cartes ; archive de laboratoire) : des sources aux données numérisées (projet DRAWCARTE.base : étape initiale ; étape de développement).
Ces collections constituent une part centrale des mémoires de terrains, recueil de données spatiales numériques, soumises à description, objet de modélisation, débouchant sur des représentations adéquates des données spatiales complexes, et leur interprétation.
L’outil de base de description est fondé sur le regroupement de ressources ATD : A atlas T, textes, D dictionnaires, et la création d’une archive sonore numérique (ASN).
Cette approche ATD, repose sur la création de 6 générations de cartes
GK01 cartes_texte lexical en mode API, sans dessin, sans tracé de constellations, donc sans fragmentation, sans partition de départ pour l’œil.
GK02 avec tracé de constellations sur carte bidimensionnelle, avec partition pour l’œil, selon des critères visibles, sinon explicites, par lemmatisation implicite, à phase de pré-lemmatisation normalisée. Ce sont des cartes à polygonage, triangulation variable, à tracé de zones appelées aires (selon des vecteurs de variabilité multicritères déclarés ultérieurement dans des dictionnaires de variables), à partir de quoi tout a changé dans les modes de représentation.
GK03 cartes dialectométriques fondées sur critères de variation
GK3.01 cartes lexicales (par blocs de 10 objets)
GK03.02 cartes phonétiques, sur critères phonétiques en nombre fini, et nombre de cas observables en nombre fini (données spatiales 170 mas, min 153)
GK03.3 cartes phonologiques : mots phonologiques, syllabes, prosodie phonologique, architecture phonologique et morphonologique des catégories
GK03.4 cartographie des catégories morphologiques : catégories nominales, verbales
GK003.4 cartes de catégories syntaxiques et morpho-syntaxiques, par blocs de cohérence.
GK05 cartes d’états dialectaux multilingues, hybrides (données proportionnelles de variables (JVARRS A, B, C ; D, par exemple)
GK06 enfin : cartes de KOHONEN et réseaux de sociabilité.

Base 3 . Textes localisés et numérisés (ATN) répartis dans le temps et dans l’espace (projet DRAWCARTE.base : prototypage ; classification ; lemmatisation ; dictionnaires de fréquence ; syntaxe et sémantique).
Le travail ici, consiste à se doter d’outils qui permettent de mettre de l’ordre dans les typologies d’états dialectaux comparés, à partir de textes transcrits, résultat de recueil de données spatiales de terrain, confrontées à de grands corpus écrits à caractère historique et juridique.
Quand on interroge avec Google, Google analytics, les données existantes numérisées, avec la clé « GASCON », on trouve un jeu de ressources numérisées, temporaires, sous forme d’états provisoires, en cours de validation
(1) GASCON GL.zip (textes gascons de la Grande lande 40 Foix, Félix Arnaudin)
(2) GASCON 32.zip Duprat Joséphine, Yvonne Loumagne, 32 Pouylebon (*e Nicole Roux Loumagne.
(3) BAREGE.zip : aphérèse en gascon pyrénéen (Barège), à titre d’exemple.
Il convient d’apporter quelques précisions sur la genèse, l’élaboration et la perception de ces sortes de ressources, afin de titer au clair certains problèmes, et d’éviter toute confusion.
On précise que la mention de ces ressources est faite par transfert de ces ressources à un centre de regroupement de ressources à caractère temporaire, à des fins de sauvegarde des mémoires de travail dans les laboratoires de SHS, donc de sauvegarde du patrimoine langagier, de publication des mémoires langagières (site clid/occitan ; puis site erss/clid/occitan, en cours de migration vers site général ercvox.free.fr, avan transfert à de grands centres de ressources numériques, existants ou en voie de création projetée. Les difficultés de transfert, de sauvegarde, sont ici récurrentes de plus les années 60, vu les conditions de planification en France de ce type de recherches, et des ressources qui lui sont ou non affectées (TAL dialectal, inexistant).
(3,4) Les textes suivants constitués en ressources temporaires, accessibles au téléchargement, sont des études à citer, à classer selon leur degré d’aboutissement ; elles ont un caractère exploratoire, et ont pour objectif de susciter une « intelligence collective » de phénomènes curieux, mis en observation, positionnés dans des domaines très différents :
(1) Angle ethnographique et ethnographie de la communication
PASTET.zip et GASCON DERIV.zip relèvent d’objectifs différents ; le premier constitue une analyse de caractère ethnographique de pratiques (d’autres diront amusoire folklorique ; plus prétentieux, d’autres parleront localisées, avec un certain toupet, d’angle anthropologique ; l’intérêt de ce type de ressource est qu’il est corrélé à une archive visuelle, d’une part, et à une très importante archive sonore d’autre part ; mais où donc sont passer les documents originaux du film réalisé par Claude Costes LA CHASSE A L’OURS A GEDRE : praube patrimoni : tot ço de nos qu’abaisha !
(2) approche grammaticale, linguistique
Quant à la ressource libellée GASC. dérivation.zip, il s’agit d’une simple démonstration temporaire d’une propriété de langue commune à l’occitan (gascon), au catalan et à l’aragonais, très bien connue de la grammaire des langues romanes, décrite sous le nom de dérivation complexe à deux éléments au moins, dite « dérivation décalée » par Roché-Plénat (vacasser, porcater, saumater, vaquer, porquer, brauter, manetier etc.) ; ce sont des études soumises à lecture dans ce qu’on appelle « forum » de site coopératif, textes d’atelier (obrador, obrader).

Seule est ici concernée la première référence : il s’agit d’une création de texte phonétique transcrit en API à titre exploratoire (contextes graphiques attachés aux entrées), pour enrichir les dictionnaires traditionnels de prononciation, en vue de faciliter ultérieurement une analyse par traitement du signal, qui, à première étape, n’existe pas encore, aussi longtemps qu’il n’a pas été créé. Le texte API qui sera mis ici en observation concerne la seule source FA40 Dictionnaire du gascon de la Grande Lande de Félix Arnaudin, peuivre monumentale éditée par l’équipe bordelaise reconnue (Lefèvre, Boisgontier, Latry et al.). On notera que la présente version, revue et corrigée en 2008 remplace et annule toutes les versions antérieures, transitoires. C’est la version définitive, stabilisée, comme point de départ des étapes de manipulation des données soumises à analyse, avec création de fichier sonore numérique d’extension.wav.
Le second type de ressource est à distinguer du précédent avec le plus grand soin : on prend ici comme point de départ un enregistrement analogique d’origine localisé (32 Pouylebon) et daté, authentifiable en droit, , numérisé, permettant un traitement en analyse du signal, à partir d’une bibliothèque de fragments indexés, étiquetés (1° fonds ATLAS LINGUISTIQUE DE LA France, NALF ; 2° FONDS ERCVOX, distingués, séparés en tant qu’opérations et résultats, comme objectifs et méthodes de travail sur fichier.wav transcrit, annoté, analysé en environnement PRAAT-WINPITCH).
Le troisième document, BAREGE PHON.zip, constitué en ressource, est le résultat d’une analyse d’atelier de transcription en binome, c’est une étude, qui a pris pour base des textes transcrits par des transcripteurs authentifiés, professionnels de l’ace de transcription (J. Séguy, X. Ravier, J.L. Massoure, JL Fossat, etc. pour s’en tenir aux seules sources des transcriptions manuscrites ou éditées qui soient authentifiées en droit. Ce type de ressource est vérifiable en traitement du signal, à partir d’une archive sonore de type (1) NALF (2) ERCVOX.

Base 4 . Dictionnaires localisés regroupés de type ADN_DPG ( dictionnaires de prononciation du gascon fluent, cursif), isolés ou regroupés, hors plan fédérateur, hors numérisation fédérée/après numérisation (projet DRAWCARTE.base dictionnaires de prononciation, sur la base de matériaux lexicographiques spatialisés : ADN archive regroupant des dictionnaires API d’états dialectaux régionaux numérisés) : on tente ici de simuler le regroupement de ressources créées par des ethnographes, philologues non professionnels, certes, mais connaissant bien leurs dialectes (Gascogne, Guyenne, Pyrénées, Languedoc, Auvergne, Dauphiné, Provence etc.)
Le présent travail DPG dictionnaire de prononciation d’unités en contextes syntaxiques récurrents, vise à faciliter les apprentissages de la langue gasconne, dans ses formes locales occidentales (40 Landes, plus spécifiquement système GL Grande Lande, restitué à partir des mémoires recueillies par Félix Arnaudin (FA40).
Le point de départ du travail relève de l’exécution de dictionnaires contextualisés de prononciation (Feuillet 2008), réutilisables dans les enseignements, comme dans des opératins et programmes de recherche.
Notre programme de travail implique regroupement de dictionnaires languedociens, gascons, occitan alpin.

Base 5 . Modélisation, représentation, traitement de Données spatiales analogiques mixtes, hybrides combinant différents aspects, dans la forme documentaire (résultant d’enquêtes par question-réponse, par entretiens : problématique d’exploitation scientifique de l’archive numérique (développement du projet DRAWCARTE.base_ATD, sur matériaux ATLAS (A) ; TEXTES (T), DICTIONNAIRES (D).
Loin de constituer mon enfant privilégié à usage interne exclusif, ou une quelconque vitrine de Salon de l’Agriculture, des Arts, des Humanités Numériques, magnifié dans je ne sais quels congrès mondiaux d’étalage de l’excellence des grandes langues véhiculaires, l’outil DRAWCARTE, couplé à un complexe d’outillage adéquat de traitement de la parole, et soumis à développement critique, est destiné à faciliter la compréhension de tous, y compris des plus humbles travailleurs, et la créativité de tout type d’utilisateur en cours d’expérience (dialogue interactif Homme-Machine).

AXES, OPÉRATIONS, PROGRAMMES, GESTION DE PROJET SCIENTIFIQUE
Contribution aux travaux du laboratoire CLLE-erss Axe 5 (J.-L. Fossat ergon 2008-2010 Humanités Numériques)
Ces travaux de recherche sur les états dialectaux, concept opposé à celui de langue starndardisée, se laissent classer sur 8 axes d’investigation, faisant appel à des méthodes, techniques, outillages adéquats
Axe 1 phonétique (les réels perçus) et phonologie : mot et phonologie
Axe 2 Morphologie : mot occitan et analyse morphologique
Axe 3 Syntaxe et Sémantique : mot occitan en contexte phrastique réel.
Axe 4 Prosodie et énonciation réelles : corrélat prosodique de la syntaxe
Axe 5 analyse dialectale : données locales spatiales, modélisation, représentation ; ordre stochastique dans les distributions lexicales, grammaticales ; distributions stationnaires / distributions transitoires ; cartes de Kohonen.
Axe 6 : approches de linguistique quantitative sur corpus étendus de communication parlée réelle, avec approche instrumentale (axes 1, 3, 4, 5, 6)
Axe7 : Valorisation des collections et archives digitalisées, publications, missions nationales, régionales, internationales : Humanités Numériques (témoignages, mémoires patrimoniales régionales numérisées et publiées)
Axe 8 : exploitation de corpus numérique en analyse sociolinguistique (témoignages, mémoires: gains et pertes en matière de lexiques ; mémoires lexicales régionales ; statistique lexicale sur la déperdition (lexiques transitoires, états transitoires), densité lexicale et ordre stochastique des relations entre couches lexicales concurrentes ; gradient de préservation des systèmes instables.

Fiche d'identification des ressources numériques exploitées (archive ERCVOX et Data Mining)
ACCES LEXICAL ET DICTIONNAIRE GASCON SUD-OCCIDENTAL DE PRONONCIATION: SEMA_FOR, ACCES LEXICAL, CONTEXTES DE LABORATOIRE REELS, TYPOLOGIE DES PHRASES, INVARIANTS ET VARIATION INTRADIALECTALE, VEILLE TECHNOLOGIQUE (INSTRUMENTS, INSTRUMENTATION)
Type : constitution de base de données de textes transcrits en mode API, destinés à être dotés de fichiers.wav correspondants.
Objectif : dépasser le protocole des listes de mots W1, 2, …, n de la lexicographie dialectale (cartes mots, associés à JVARS X1, 2, …, n)
Jean-Louis Fossat CLLE_ERSS 2008 et ercvox 2008-2010
Réf. J. Feuillet (Feuillet 2008).- Dictionnaire sonore de prononciation du languedocien

Haut

occitan

Sujet du message: Re: CORPUS PAROLE

Publié: 17 Juin 2024, 15:24

Administrateur

Inscrit(e) le : 26 Jan 2009, 15:06
Message(s) : 1036

MÉTHODES
Les modèles en analyse multi-couches, font appel aux relations entre accès lexical, grammaire contextuelle, avec mise en œuvre de méthodes proches de la Reconnaissance assistée et automatisable de la Parole (RAP).
On insiste très particulièrement sur l’apprentissage à partir de problèmes correctement posés, en cours de difficulté de transcription phonétique de base et enrichie (prosodie, phonologie lexicale, intonation des séquences).
La transcription phonétique de textes incorporés aux dictionnaires de langue constitue une activité normée de toute opération de linguistique descriptive (V. LACITO, Langues Orientales, Langues africaines etc ; M. Jakobson ; R. Wagner, et plus généralement, l’ensemble des travaux de la fédération TUL, Typologie et Universaux linguistiques) ; cette opération nourrit par ailleurs les travaux des laboratoires de linguistique formelle (Lowenstam etc.).
Aussi est-il extrêmement important de dresser, pour commencer, l’état des lieux des ressources analogiques numérisées, ou en cours de numérisation, vérifiées, ou en cours de vérification, ainsi que l’historique de ces opérations.

ÉTAT DES LIEUX DES RESSOURCES DIALECTALES ACCESSIBLES en fouille de données numériques (Data Mining)
Fiche d’identification des documents sources utilisés pour créer des ressources numérisés: collection Documents de transcription phonétique expérimentale pour l’étude de l’oralité occitane (CLEE-erss et CLID programme de travail ercvox occitan oral ordinaire)
1.- SOURCES LEXICOGRAPHIQUES UTILISÉES POUR LA CRÉATION DE CONTEXTES (CORPUS PAROLE)
FA_DPGL40 associé à FA_Contes version API/version graphique
FA-ETHNO-GL
FA_Contes GL
FOIX_DP.GL40 contextes API du dictionnaire des textes de la Grande lande
MASSAT09 txt Parabole EP API (fichiers.txt et fichiers.wav Biert, Massat, Le Port)
DI-LAN PN 64 (béarnais de référence)
GEV : Diccionari gabalés (Escola gabala) VA ressources lexicographiques occitan alpin 2008
VAY : Dictionnaire de Vayssier (occitan, 12 Aveyron)
PAL_EST. Dictionnaire gascon et béarnais de Simin Palay et sa « revirada » : JF. d’Estalenx, Dictionnaire idéologique français-gascon (service en ligne, sur site erss/clid/occitan et site ercvox.free.fr et occiton.free.fr
NAR. Dictionnaire français béarlais. Per noste, Orthez.
GAR : Gary. Dictionnaire occitan du Tarn.

2.- SOURCES TEXTUELLES MODERNES ÉCRITES NUMÉRISÉES
FAC40 Contes de la Grande Lande collection Félix Arnaudin
LOD81 Collections de textes de l’association LA TALVERA (à initiative de D. Loddo, pour le regroupement et la publication de mémoires régionales
FL11 Collection créée en ressources numériques, à partir des collections et recueils des ethnographes D. Fabre et J. Lacroix
CHA-PYR : ressources numériques créées à partir de la documentation créée par X. Ravier, et analysée par J. Séguy et X. Ravier (mémoires régionales pyrénéennes : Pyrénées Centrales)
MASSAT09 txt Parabole EP API (collection B. Arrous) opération DGLF
MASSAT09 txt Recueil Sacaze transcrit en API : traitement STABLEX
MASSAT 09. fichiers.wave (Biert, Auragnou, Massat, Le Port, St-Girons, Castillon, Betlongue, Seix, Oust, Ustou, Ercé) dans la perspective ouverte par les opérations fédératrices de la DGLF et LdF (archive sonore transcrite des fonds Bruno Besche Commenges, Claude Costes, JL Fossat, numérisés avec le concours du Conseil Régional de Midi-Pyrénées.

3.- SOURCES ORALES NUMERISÉES
BM 40 Sabres ES pièces 01-27 fichiers.wave annotés API(démo PPT AIEO 8, Bordeaux) : prototype

4. SOURCES ANALOGIQUES EN PROVENANCE DU NALF : opérations de traitement de données dialectales numérisées exploitées dans le cadre d’opérations de fouille de données regroupées par les opérations successives de traitement des matériaux regroupés du NALF (CLID, CLID-ERSS, UNIVERSITE DE TOULOUSE II, opérations DELTA_ERCVOX et DELTA_CLID , DELTA_DRAWCARTE.BASE 1 ATLAS SONORE 2 DICTIONNAIRE SONORE 3 TEXTES 4 CORPUS PAROLE (COMMUNICATION PARLEE EN INTERACTION)

MÉTHODES : analyse énonciative de l’oralité et dictionnaire de prononciation (données locales), CORPUS PAROLE 2008-2009
- parole et musique de la phrase (français, dialectes de l’occitan, dialectes romans) : analyse du corrélat prosodique de la syntaxe et de l’énonciation dans les états dialectaux occitans documentés (collections de prosogrammes par état dialectauxx, incluant les formes mêmes du français sous ses états dialectalisés.
- découpage de l’oralité en environnement Praat : indexation de fichiers.wav transcrits.
- principes phonotactiques, syntactiques et sémantiques de la division de la chaîne parlée en fragments significatifs : pour une analyse de la variation linguistique limitée, dans un cadre de généralisation, par régulation, contraintes, conditions
- accent de syntagme et de phrase (intonométrie, réalisation d’une bibliothèque de « prosogrammes » (Mertens, Praat couplé à Winpitch)
- phénomènes de focalisation (focus d’énoncé) dans un cycle de généralisation de l’analyse fonctionnelle (post Simon Dik): « on nous appâte avec l’argent » :
(i) que’ns arpasten, bè : dap la moneda.
(ii) qu’ns an arpastat mantun cop, bè, dap l’argent.
- principe d’organisation en classes et catégories définies dans un dispositif multicouches: dès qu’on a plus de deux objets regroupés, il faut un outillage pour ordonner les produits (argent, rivera), par classification limitée
classes phonétiques limitées de hiérarchie de sonorité
classes phonologiques limitées
classes catégorielles limitées, définies en morphologie lexicale
classes et catégories syntaxiques limitées
classes prosodiques limitées
classes énonciatives limitées
- association prosodie et syntaxe (Wiolland 1984 ; Delais-Roussarie 1995 ; applications JL Fossat B. Manciet : Prosodie , syntaxe et sémantique de la déclamation limitée (AIEO, Bordeaux, 2005) ; JL Fossat 2000 Prosodie et raisonnement : L’ours, eux et l’Etat (data Sentein 2006, Michel Estrémé, 09 Sentein, FC2006) ; FA-40 Entre syntaxe et prosodie ; FOIX 40 : entre syntaxe et prosodie.
- cartes de Kohonen, cartographie de Kohonen, au service de l’analyse géolinguistique

RÉSUMÉ : INSERTION DE FRAGMENTS DE PAROLE TRANSCRITE FORMANT CORPUS DE PAROLE TRANSCRITE, INCORPORÉS DANS LE CORPS D’ARTICLES CONSTRUITS
DICTIONNAIRES DIALECTAUX : LEXIQUE, SYNTAXE, PHONOSYNTAXE, PROSODIE DU DISCOURS, PÉRIODES INTONATIVES.
Programmes de recherche et bibliothèque de requêtes.
0.- Requêtes multicouches, sur texte segmenté, transcrit en API, et annoté en tiers sous PRAAT couplé à WINPITCH.
- couche phonétique
- couche phonologique
- couphe phonotactique : que-vs ac balhi ; que-vs ic balhem
- couche morphologique
- couche syntaxique
- couche prosodique (corrélat prosodique de la syntaxe)*
- couche discursive
- couche dialectale : Les PROX et les deltas, bilans proportionnels
Il faut pouvoir poser un nombre très important de questions, sans limitation (requête illimitée), pour arriver à déterminer l’ordre des questions, classées selon leur fréquence d’une part, et d’autre part, selon leur importance, au vu des résultats, avec hiérarchisation des priorités : ce qui implique stratégies de prise de décision.
1. SYNT_OC : requêtes syntaxiques sur énoncés occitans localisés, simples ou complexes, associés à leur représentation prosodique et syntaxique par annotation systématique.
P() _ sabetz
2. PROS_OC : programme de requêtes sur la perception tonale de la prosodie de l’énoncé et de la phrase transcrits et annotés [Piet Mertens 1985, 1997, PRAAT couplé à WINPITCH, PSOLA, BROLA].
On renvoie à la démonstration PPT BMANCIET (AIEO Bordeaux, et site ercvox.free.fr) : perception des intervalles de pitch ; perception de la mélodie de l’énoncé, avec annotation semi-musicale par demi-tons (cf. TOBY ; PSOLA ; MBROLA).
Tous les segments graphiques sélectionnés sont transcrits en mode API.
Principes de segmentation : par syllabation, liaison, lemmatisation, reconnaissance des unités lexicales définies par leurs propriétés de sonorité (formes sonores du langage parlé, dans les actes de communication parlée, dans un dispositif aussi éloigné que possible de la récitation (recueils Sacaze, recueil Bourciez, par ailleurs si utiles) ; dans certains cas, segmentation par unité perçues : état des nasales, état des mi-occlusives, état des latérales etc.
3.MORPHO-LEX : requêtes sur la morphologie lexicale :
dormir : adromider(a)
NOMINALE
VERBALE
4. CONJUG_OC : requêtes sur la conjugaison, formes conjuguées (API) depuis une entrée graphique appelée LEMME (programme LEMM_OCC) .
5. PHON_OCC : reconnaissance des propriétés phonétiques et phonologiques, par extraction de l’énoncé, fragmentation : peut aller jusqu’à la fragmentation en unités de parole, à partir du corpus de parole sélectionné.
6. DIC_FREQ : dictionnaire API de fréquence : d’unité lexicale, de morphème, de marqueur énonciatif, de type syllabique, d’unité phonologique ou phonétique.
7. VALVER-OC : dictionnaire de valence du vcrbe occitan en énoncé :
(i) coma ac sabetz, vos autes : VAL=1
(ii) P() - sabetz (énonciatif de clôture, ou d’attaque énonciative) : VAL=0
Le but, dans tous les cas de figure, est d’élaborer des tables, non pour constituer des « jeux de cases », mais pour préparer les données symboliques, par détournement, aux divers traitements necessités par l’élaboration de cartes linguistiques de connaissances, ou cartes de Kohonen (Kohonen 1995), dressées à partir de data (données numériques).
8. COMPAR PHASE, ETAPES, PROGRAMME DE TRAVAIL
COMPARAISON INTRADIALECTALE : description de variétés d’occitan parlé, dans un cycle de généralisation.
COMPARAISON INTERLANGUES
description linguistique à partir de corpus parole d’espagnol parlé cantabrique transcrit
description linguistique à partir de corpus parole asturien parlé transcrit (et variétés)
On exploite dans tous les cas de manière systématique un corpus de parole digitalisé, à partir d’une archive sonore digitalisée, constituée de 1960 à 2008, cataloguée, accessible – tout ou partie, à demande, sur site ercvox.free.fr, notamment (site exploratoire administré par A. Meqqori.

COMMUNICATION PARLÉE, CORPUS DE PAROLE ET ÉTATS DIALECTAUX : INVARIANTS TYPOLOGIQUES ET VARIATION
Les rapports entre phonologie lexicale liée à une phonétique "quantique" et "corpusculaire" d'une part, en vision atomistique, et sémantique d'autre part, sont un domaine très mal connu, insuffisamment exploré par les linguistes, bien que connus, repérés, et constituent un des champs maudits de l'analyse sémantique, avec ses pièges et chausse-trapes, sa systématique mal établie. Il faut être arrivé au lexique accédé par l'atome t∫_ initial, l’atome –g- intervocalique, etc., pour se rendre compte de ce que peut être, pour le linguiste, une sorte d'enfer de tourment classificatoire, en phonético-phonologie lexicale des états dialectaux, conçue en relation avec une théorie globalisante des possibilités ouvertes selon des régularités incomplètement (partiellement) établies.
D'autre part, la question de la productivité lexicale, en rapport avec l'iconicité, éclaire une propriété centrale de l'accès au lexique: la flexibilité (tracar/triquet), en rapport contrariant avec le gouvernement par règles (teule/tuule).

Haut

Page 1 sur 1

[ 2 messages ]

Index du forum » CLID » géolinguistique

Le fuseau horaire est UTC+1 heure

Qui est en ligne ?

Utilisateur(s) parcourant ce forum : Aucun utilisateur inscrit et 1 invité

Vous ne pouvez pas publier de nouveaux sujets dans ce forum
Vous ne pouvez pas répondre aux sujets dans ce forum
Vous ne pouvez pas éditer vos messages dans ce forum
Vous ne pouvez pas supprimer vos messages dans ce forum
Vous pouvez insérer des pièces jointes dans ce forum