SCHÉMA GÉNÉRAL D’ACQUISITION DE DONNÉES LEXICOGRAPHIQUES : PLAN D’ACTION DES e_DICTIONNAIRES OLR LEXIS OXXITAN; PRODUCTION/PERCEPTION INTERDIALECTALITE par Jean-Louis Fossat
dernière révision 15 juillet 2021
OBJECTIF GÉNÉRAL OPERATION LEXICOGRAPHIE DIALECTALE ELECTRONIQUE : INTERROGATION AVANCEE (TERATEC_2009) LEX_GRAM 2015 - Regroupement de sources (contrat de région MIDI-PYRENEES) - analyse des structures lexicales paramétrées : classes et analyse exploratoire en mode EDA: cartographie des classes Réf. ; cartographie du traitement de données sociolinguistiques québécoises: Normand Beauchemin. - relations lexicales : lexiques relationnels paramétrés - analyse des structures grammaticales morphologiques - analyse de structures phonologiques paramétrées - analyse phonétique paramétrée - analyse de phonosyntaxe: contour métrique/contour intonatif paramétrés sous PRAAT - dictionnaire de prononciation - incorporation de fichiers.wave/mp3/occiton2 2010/2014 - analyse syntaxique, étiquetage, paramétrage morphosyntaxique (ref; ALG6 tables J. Séguy) - analyse pragmatique : scripts, scénarios, scripts, schémas - analyse énonciative : cadre pragmatique - analyse prosodique paramétrée : intonation, mélodie, début, hauteur, intensité - aide à la traduction OC_FRA_LR
L’archive lexicographique numérique n’est rien sans une pensée analytique organisatrice de la matière numérique regroupée, sans une politique d’ouverture, d’accès intelligent, sans une politique de diffusion qui permette de mettre en travail collectif les mémoires lexicographiques de terrain. RECUEIL ET ACQUISITION DE e_DICTIONNAIRES OLR REPRÉSENTATIFS
PREPARATION DES ENTREES DE DICTIONNAIRES DIALECTAUX SEGMENTATION DES ARTICLES
INTERROGATION ÉLÉMENTAIRE DE e_DICTIONNAIRES OLR « PARTAGES »
LISTE DE FREQUENCE, DENSITE CONCORDANCES ÉTIQUETAGE, PARSING
=== INTERROGATION AVANCÉE EDA
===histogrammes === classes de proximité CAH/i === classes de proximité des variables J : D, R, F, D, F === classes de proximité par applications : B, V, M, P, H etc.
RÉSULTATS D’ANALYSE EXPLORATOIRE DE e_DICTIONNAIRE DIALECTAL TRAITÉ EN ENVIRONNEMENT « EDA » sous drawcarte_base.DICO
CATALOGUE DES APPLICATIONS e_service lexical ERCVOX 1.-Répertoires occitans en situation de recouvrement (sources éditoriales)
e_DICTIONNAIRE SIMIN PALAY e_DICTIONNAIRE ESTALENX e_Bazas e_DICTIONNAIRE BEARNAIS (Per Noste) e_DICTIONNAIRE LANDAIS FOIX e_DICTIONNAIRE LANDAIS : ARNAUDIN e_DICTIONNAIRE BEARNAIS LESPY e_DICTIONNAIRE TARN GARY/SAUVAGES e_DICTIONNAIRE VAYSSIER (AVEYRON) e_DICTIONNAIRE GEVAUDAN (Escolo gabalo) e_dictionnaire PYRENEES multilingue (source éditoriale : G. Rohlfs)
2. Répertoires lexicographiques romans e_dictionnaire asturien (Acad. Asturiana partenaire)
INTRODUCTION On constate en 2009 l’absence de langues majeures dans le WEB sémantique ; alors que catalan, basque, galicien sont présents, sont absents l’aragonais, l’asturien, l’occitan et toutes leurs variétés. On ne peut donc obtenir une assistance en posant en français la requête : « cet homme, touche-le ». PROTOCOLE 1 MULTILINGUE GASCON, CATALAN, BASQUE, ARANAIS, CASTILLAN. Recueil de données : on a pris comme base le répertoire multilingue partiel pyrénéen créé par G. Rohlfs. PROTOCOLE 2 : LEXIQUE GASCON-FRANÇAIS et français-gascon. On a pris pour base - le e_Simin Palay électronique créé comme ressource ouverte (1973-1980) - le e_J.-F. D’Estalenx électronique créé comme ressource ouverte (Open Source), totalement distingué aux plans scientifique et juridique de dico.Estalenx (Ed. Eus, Toulousen Collection Etudes Romanes, à charge de Philippe d’Estalenx (pour l’auteur) et J.L. Fossat, responsable du projet scientifique). - SAISIE : création de ressource e_Estalenx. Le dictionnaire a été saisi en totalité et contrôlé, à partir d’un manuscrit (collection de cahiers manuscrits) déposé par Mme. Charlotte d’Estalenx à la bibliothèque universitaire de l’Université de Toulouse II Le Mirail, avec l’aval de Jacques d’Estakenx. EDITION : bref historique Le manuscrit saisi avait été construit par J.-Fr. d’Estalenx en vue d’une édition projetée aux Editions Privat pour le compte du CNRS (1968 ; avorté en 1965, ce projet fut repris par Philippe d’Estalenx, et aboutit à l’édition grâce aux Editions EUS (Toulouse, 2 volumes). La décision éditoriale fut, d’un commun accord, de respecter strictement les normes du manuscrit qui reposait sur une création de classement notionnel, œuvre propre de Jean-François D’Estalenx. Le projet de dictionnaire électronique regroupé abandonne ce classement notionnel pour privilégier les requêtes portant sur les structures morphologiques, phonologiques, syntaxiques. EXPERTISE EN LINGUISTIQUE COMPUTATIONNELLE Une double expertise a été ouverte et a donné lieu à deux prototypes (3D et 4D) 1° Projet 3D chef de projet J.-L. Fossat Clid_erss. Résultat : création d’un prototype de base de données relationnelles 3D (IBM) : Letttre C : champ céréales 2° Projet 4D : Chef de projet JL Fossat Clid_erss expertise d’un prototype de base de données relationnelles en 4D MAC (Blocs A, B, C du classement notionnel de J.-Fr. D’Estalenx et création d’un e_dictionnaire électronique partiel (Chiari 2002) Les propriétés de cette ressource électronique nouvelle sont les suivantes : 1° indexation double : du champ des entrées gasconnes, et du champ des entrées françaises, en tout point identiques à la documentation de Simin Palay (création d’index) 2° ajout d’une norme graphique pan-gasconne (occitane) : création , condition sine qua non de création d’une ressource électronique 2° ajout d’une norme grammaticale catégorielle (création) 3° ajout d’une norme d’analyse sémantique (création) 4° ajout d’une zone de contextes syntaxiques (création) 5° ajout de fichiers.wave correspondant aux objectifs d’un dictionnaire de prononciation du gascon (création occiton.free.fr/son/son.doc) 6° ajout d’une iconographie : lien à base iconographique occiton.free.fr/iconoraphie/icon.doc 7° ajout de cartes lexicales incorporées (création) en environnement drawcarte_base (exemple carte VEDETH) occiton.free.fr/son/iconographie.doc/carte.doc 8° création d’un e_service lexicographique e_DICTIONNAIRE/LXIQUE-GRAMMAIRE, sur forum ouvert (création de dictionnaires de variables mmulti-type). 9° concordance verbale : et possibilité de connecter e_dictionnaire et e_conjugueur gascon (création, prototype), avec le concours d’un laboratoire de linguistique computationnelle de l’Université de Toulouse II (M. Gauthier). Le prototype ainsi constitué est limité , en phase exploratoire aux blocs A, B,C, qui ont permis de tester la cohésion du projet expertisé, avec le concours du Conseil Régional de la Région Midi-Pyrénées. L’objectif atteint était de permettre à des élèves de collège, lycée, de consulter cette ressource e_dictionnaire Estalenx dans leurs exercices d’apprentissage ; les résultats ont été communiqués aux services culturels du Conseil Général du Gers, qui avaient largement contribué à assurer l’édition du dictionnaire connu sous le non de « le D’Estalenx, frère ou germain du « Palay », dictionnaire de toutes les variétés dialectales du gascon et du béarnais..
CREATION D’un e_service électronique de lexique occitan Sur site utm2/clid_erss transféré sur site ercvox.free.fr, relayé par le site occiton.free.fr depuis 2015 On a éliminé le classement notionnel, création propre de J.-Fr. D’Estalenx (ms. édité par EUS).. Les 9 champs créés après cette édition par expertise 4D ont été documentés par J.-L. Fossat, dans l’exercice de ses fonctions d’enseignant chercheur à l’Université de Toulouse II Le Mirail. Les moteurs de recherche représentent le travail très apprécié de M. A. Meqqori, ingénieur assistant de recherche près de laboratoires inter université, CNRS et plan associatif (1990-2020). La 10ème propriété de la ressource électronique se laisse résumer en deux mots : création d’un moteur de recherche identique pour toutes les ressources e_dictionnaires, interconnectées dans un e_service lexicographique dans un schéma validable en recherche industrielle (Google, Microsoft, INRIA, CNES, Hewlett-Packard, Siemens etc.). La ressource créée en e_dictionnaire revu, augmenté, corrigé couvre la totalité des entrées gasconnes, languedociennes (output) et françaises (input) indexées de A à Z. La création des 9 champs de la ressource électronique est le fait d’un expertise construite avec l’aide du Conseil Régional de Midi-Pyrénées, sous la responsabilité de J.-L. Fossat, UTM 2, CLi ERSS ; jamais l’expertise n’aurait pu être conduite sans l’édition, grâce à la famille D’Estalenx, du manuscrit déposé. Le tout a constitué un moment décisif dans les plans d’action visant à fonder une lexicographie gasconne d’intérêt scientifique démontré. INTERROGATION ELEMENTAIRE - Indexation double - Catégorisation - Segmentation morphologique: arbre morphologique - Segmentation phonologique, structuration syllabique - arbres syntaxiques centraux - arbres syntaxiques adjoints (satellites) - arbres de substitution (représentants). - déclaration de variables phonétiques et phonologiques paramétrées. - déclaration de variables morphosyntaxiques paramétrées
INTERROGATION AVANCEE : CLASSIFICATION Un traitement exploratoire sous EDA et ALCESTE (Soc. Image) a été conduit sur les entrées des blocs A, B, C du « D’Estalenx_en machine » : il a permis de mettre en évidence le bien-fondé de la création des 9 champs ajoutés au manuscrit d’auteur, pour conduire son œuvre datée à constituer, par innovation, une e_ressource lexicographique électronique comparable aux e_dictionnaires italien, castillan, catalan, français, galicien allemand, portugais, russe, polonais,estonien, irlandais, etc.
DÉVELOPPEMENT et PERSPECTIVES Un dictionnaire électronique qui ne sert pas, qui ne travaille pas est une ressource morte, qui encombre les cimetières électroniques. ACTION 1 : REGROUPEMENT DE 2, 3, … n dictionnaires dialectaux occitans en vue de construire une e_ressource lexicographique généralisée, à partir des e_dictionnaires électroniques accessibles. ACTION 2. CREATION DE BANQUE NUMÉRIQUE DE TEXTES (ANCIENS, MODERNES) en partenariat avec l’Institut d’Histoire des Textes, l’Ecole des Chartes et divers laboratoires universitaire à échelle internationale (ACTION_TXT). ACTION 3. CRÉATION D’UNE BANQUE NUMÉRIQUE D’ÉNONCES ÉTIQUETÉS (cadre théorique prioritaire d’analyse dialectale d’énoncés extraits d’une archive sonore numérisée). Exemple Proverbes gascons Proverbes occitans Proverbes catalans Proverbes italiens (toscans, piémontais, etc.) Proverbes aragonais Proverbes catalans Proverbes galiciens Proverbes portugais Proverbes asturiens etc.
ACTION 5 : LEXIQUE GRAMMAIRE RELATIONNEL OCCITAN, ARBRE SYNTAXIQUE, ARBRE PROSODIQUE, FICHIER SONORE.wav. ET COLLECTION DE TRACÉS. Chaque fois qu’on le peut, on incorpore au dictionnaire des ressources image numérique - image carte de distribution lexicale regroupée (thesoc) - image ethnographique (dans le cas des ontologies de domaines, des lexiques d’expérience). Le principe de base est d’exploiter au maximum une documentation sonore énonciative numérisée, actuellement en grande partie inédite, inexploitée et non décrite, non interprétée. A chaque entrée lexicale correspond alors un ensemble de contextes phrastiques transcrits, reliés à leurs tracés numériques (application occiton2 2010 Textes sonores). bal Abel es anat al bal GM 1974 tracé 01 borit lo borit bolhent/borent GM 1974 164 (3.14.4) escumar lo borit còsta la còsta / las còstas / coston l’Emile ne ns’a pas colhonat : que’ns a balhat còsta coberta. dalh dalh / los dalhs / la dalha aquera vaca que dalha [VISU_scène] espatla las espallas levar l’espatla GM 1974 163 (3.14.3 tracé) hemna La henna / las hennas ahemnassit la fenna s’apèla la Caunessa; los efants, los caunils; l’òme lo Caune GM 1974 tracé 11 La fenna n’es pas encara presta GM 1974 tracé 12 cabra la cabra / las cabras la cabra Ròve marro lo marro / los marros aquet marro crompar un/un/aquet marro ena marrir olha l’olha, las olhas miar las olhas au marro estar de marro blat lo blat eth blath moro. semiar eth blath. qu’ei et moment de har et blat. setmana la setmana / las setmanas cada setmana que t’eu pagarai la setmana que ven pèça era pèça horadada era pèça traucada malhuc lo malhuc/ los malhucs la crotz deus malhucs s’ei demalhucada SYN s’es desancada riu lo riu dins lo riu de la Ressa, i avia d’escarabissas tampar tampa-lhe lo bèc GM 1974 tracé 13 valer valèva valia GM 1974 164 (3.14.4)
|