ERCVOX

Forum du CLiD
Nous sommes actuellement le 29 Mars 2024, 00:18

Le fuseau horaire est UTC+1 heure




Publier un nouveau sujet Répondre au sujet  [ 1 message ] 
Auteur Message
MessagePublié: 15 Juil 2021, 15:29 
Hors-ligne
Administrateur

Inscrit(e) le : 26 Jan 2009, 15:06
Message(s) : 137
SCHÉMA GÉNÉRAL D’ACQUISITION DE DONNÉES LEXICOGRAPHIQUES :
PLAN D’ACTION DES e_DICTIONNAIRES OLR LEXIS OXXITAN; PRODUCTION/PERCEPTION INTERDIALECTALITE
par
Jean-Louis Fossat

dernière révision 15 juillet 2021

OBJECTIF GÉNÉRAL
OPERATION LEXICOGRAPHIE DIALECTALE ELECTRONIQUE : INTERROGATION AVANCEE (TERATEC_2009)
LEX_GRAM 2015
- Regroupement de sources (contrat de région MIDI-PYRENEES)
- analyse des structures lexicales paramétrées : classes et analyse exploratoire en mode EDA: cartographie des classes Réf. ; cartographie du traitement de données sociolinguistiques québécoises: Normand Beauchemin.
- relations lexicales : lexiques relationnels paramétrés
- analyse des structures grammaticales morphologiques
- analyse de structures phonologiques paramétrées
- analyse phonétique paramétrée
- analyse de phonosyntaxe: contour métrique/contour intonatif paramétrés sous PRAAT
- dictionnaire de prononciation
- incorporation de fichiers.wave/mp3/occiton2 2010/2014
- analyse syntaxique, étiquetage, paramétrage morphosyntaxique (ref; ALG6 tables J. Séguy)
- analyse pragmatique : scripts, scénarios, scripts, schémas
- analyse énonciative : cadre pragmatique
- analyse prosodique paramétrée : intonation, mélodie, début, hauteur, intensité
- aide à la traduction OC_FRA_LR

L’archive lexicographique numérique n’est rien sans une pensée analytique organisatrice de la matière numérique regroupée, sans une politique d’ouverture, d’accès intelligent, sans une politique de diffusion qui permette de mettre en travail collectif les mémoires lexicographiques de terrain.
RECUEIL ET ACQUISITION DE e_DICTIONNAIRES OLR REPRÉSENTATIFS

PREPARATION DES ENTREES DE DICTIONNAIRES DIALECTAUX
SEGMENTATION DES ARTICLES

INTERROGATION ÉLÉMENTAIRE DE e_DICTIONNAIRES OLR « PARTAGES »

LISTE DE FREQUENCE, DENSITE
CONCORDANCES

ÉTIQUETAGE, PARSING

===
INTERROGATION AVANCÉE EDA

===histogrammes
=== classes de proximité CAH/i
=== classes de proximité des variables J : D, R, F, D, F
=== classes de proximité par applications : B, V, M, P, H etc.

RÉSULTATS D’ANALYSE EXPLORATOIRE DE e_DICTIONNAIRE DIALECTAL TRAITÉ EN ENVIRONNEMENT « EDA » sous drawcarte_base.DICO


CATALOGUE DES APPLICATIONS e_service lexical ERCVOX
1.-Répertoires occitans en situation de recouvrement (sources éditoriales)

e_DICTIONNAIRE SIMIN PALAY
e_DICTIONNAIRE ESTALENX
e_Bazas
e_DICTIONNAIRE BEARNAIS (Per Noste)
e_DICTIONNAIRE LANDAIS FOIX
e_DICTIONNAIRE LANDAIS : ARNAUDIN
e_DICTIONNAIRE BEARNAIS LESPY
e_DICTIONNAIRE TARN GARY/SAUVAGES
e_DICTIONNAIRE VAYSSIER (AVEYRON)
e_DICTIONNAIRE GEVAUDAN (Escolo gabalo)
e_dictionnaire PYRENEES multilingue (source éditoriale : G. Rohlfs)

2. Répertoires lexicographiques romans
e_dictionnaire asturien (Acad. Asturiana partenaire)

INTRODUCTION
On constate en 2009 l’absence de langues majeures dans le WEB sémantique ; alors que catalan, basque, galicien sont présents, sont absents l’aragonais, l’asturien, l’occitan et toutes leurs variétés. On ne peut donc obtenir une assistance en posant en français la requête : « cet homme, touche-le ».
PROTOCOLE 1 MULTILINGUE
GASCON, CATALAN, BASQUE, ARANAIS, CASTILLAN.
Recueil de données : on a pris comme base le répertoire multilingue partiel pyrénéen créé par G. Rohlfs.
PROTOCOLE 2 : LEXIQUE GASCON-FRANÇAIS et français-gascon.
On a pris pour base
- le e_Simin Palay électronique créé comme ressource ouverte (1973-1980)
- le e_J.-F. D’Estalenx électronique créé comme ressource ouverte (Open Source), totalement distingué aux plans scientifique et juridique de dico.Estalenx (Ed. Eus, Toulousen Collection Etudes Romanes, à charge de Philippe d’Estalenx (pour l’auteur) et J.L. Fossat, responsable du projet scientifique).
- SAISIE : création de ressource e_Estalenx.
Le dictionnaire a été saisi en totalité et contrôlé, à partir d’un manuscrit (collection de cahiers manuscrits) déposé par Mme. Charlotte d’Estalenx à la bibliothèque universitaire de l’Université de Toulouse II Le Mirail, avec l’aval de Jacques d’Estakenx.
EDITION : bref historique
Le manuscrit saisi avait été construit par J.-Fr. d’Estalenx en vue d’une édition projetée aux Editions Privat pour le compte du CNRS (1968 ; avorté en 1965, ce projet fut repris par Philippe d’Estalenx, et aboutit à l’édition grâce aux Editions EUS (Toulouse, 2 volumes).
La décision éditoriale fut, d’un commun accord, de respecter strictement les normes du manuscrit qui reposait sur une création de classement notionnel, œuvre propre de Jean-François D’Estalenx. Le projet de dictionnaire électronique regroupé abandonne ce classement notionnel pour privilégier les requêtes portant sur les structures morphologiques, phonologiques, syntaxiques.
EXPERTISE EN LINGUISTIQUE COMPUTATIONNELLE
Une double expertise a été ouverte et a donné lieu à deux prototypes (3D et 4D)
1° Projet 3D chef de projet J.-L. Fossat Clid_erss.
Résultat : création d’un prototype de base de données relationnelles 3D (IBM) : Letttre C : champ céréales
2° Projet 4D : Chef de projet JL Fossat Clid_erss
expertise d’un prototype de base de données relationnelles en 4D MAC (Blocs A, B, C du classement notionnel de J.-Fr. D’Estalenx et création d’un e_dictionnaire électronique partiel (Chiari 2002)
Les propriétés de cette ressource électronique nouvelle sont les suivantes :
1° indexation double : du champ des entrées gasconnes, et du champ des entrées françaises, en tout point identiques à la documentation de Simin Palay (création d’index)
2° ajout d’une norme graphique pan-gasconne (occitane) : création , condition sine qua non de création d’une ressource électronique
2° ajout d’une norme grammaticale catégorielle (création)
3° ajout d’une norme d’analyse sémantique (création)
4° ajout d’une zone de contextes syntaxiques (création)
5° ajout de fichiers.wave correspondant aux objectifs d’un dictionnaire de prononciation du gascon (création occiton.free.fr/son/son.doc)
6° ajout d’une iconographie : lien à base iconographique
occiton.free.fr/iconoraphie/icon.doc
7° ajout de cartes lexicales incorporées (création) en environnement drawcarte_base (exemple carte VEDETH)
occiton.free.fr/son/iconographie.doc/carte.doc
8° création d’un e_service lexicographique e_DICTIONNAIRE/LXIQUE-GRAMMAIRE, sur forum ouvert (création de dictionnaires de variables mmulti-type).
9° concordance verbale : et possibilité de connecter e_dictionnaire et e_conjugueur gascon (création, prototype), avec le concours d’un laboratoire de linguistique computationnelle de l’Université de Toulouse II (M. Gauthier).
Le prototype ainsi constitué est limité , en phase exploratoire aux blocs A, B,C, qui ont permis de tester la cohésion du projet expertisé, avec le concours du Conseil Régional de la Région Midi-Pyrénées.
L’objectif atteint était de permettre à des élèves de collège, lycée, de consulter cette ressource e_dictionnaire Estalenx dans leurs exercices d’apprentissage ; les résultats ont été communiqués aux services culturels du Conseil Général du Gers, qui avaient largement contribué à assurer l’édition du dictionnaire connu sous le non de « le D’Estalenx, frère ou germain du « Palay », dictionnaire de toutes les variétés dialectales du gascon et du béarnais..

CREATION D’un e_service électronique de lexique occitan
Sur site utm2/clid_erss transféré sur site ercvox.free.fr, relayé par le site occiton.free.fr depuis 2015
On a éliminé le classement notionnel, création propre de J.-Fr. D’Estalenx (ms. édité par EUS)..
Les 9 champs créés après cette édition par expertise 4D ont été documentés par J.-L. Fossat, dans l’exercice de ses fonctions d’enseignant chercheur à l’Université de Toulouse II Le Mirail. Les moteurs de recherche représentent le travail très apprécié de M. A. Meqqori, ingénieur assistant de recherche près de laboratoires inter université, CNRS et plan associatif (1990-2020).
La 10ème propriété de la ressource électronique se laisse résumer en deux mots : création d’un moteur de recherche identique pour toutes les ressources e_dictionnaires, interconnectées dans un e_service lexicographique dans un schéma validable en recherche industrielle (Google, Microsoft, INRIA, CNES, Hewlett-Packard, Siemens etc.).
La ressource créée en e_dictionnaire revu, augmenté, corrigé couvre la totalité des entrées gasconnes, languedociennes (output) et françaises (input) indexées de A à Z.
La création des 9 champs de la ressource électronique est le fait d’un expertise construite avec l’aide du Conseil Régional de Midi-Pyrénées, sous la responsabilité de J.-L. Fossat, UTM 2, CLi ERSS ; jamais l’expertise n’aurait pu être conduite sans l’édition, grâce à la famille D’Estalenx, du manuscrit déposé.
Le tout a constitué un moment décisif dans les plans d’action visant à fonder une lexicographie gasconne d’intérêt scientifique démontré.
INTERROGATION ELEMENTAIRE
- Indexation double
- Catégorisation
- Segmentation morphologique: arbre morphologique
- Segmentation phonologique, structuration syllabique
- arbres syntaxiques centraux
- arbres syntaxiques adjoints (satellites)
- arbres de substitution (représentants).
- déclaration de variables phonétiques et phonologiques paramétrées.
- déclaration de variables morphosyntaxiques paramétrées

INTERROGATION AVANCEE : CLASSIFICATION
Un traitement exploratoire sous EDA et ALCESTE (Soc. Image) a été conduit sur les entrées des blocs A, B, C du « D’Estalenx_en machine » : il a permis de mettre en évidence le bien-fondé de la création des 9 champs ajoutés au manuscrit d’auteur, pour conduire son œuvre datée à constituer, par innovation, une e_ressource lexicographique électronique comparable aux e_dictionnaires italien, castillan, catalan, français, galicien allemand, portugais, russe, polonais,estonien, irlandais, etc.

DÉVELOPPEMENT et PERSPECTIVES
Un dictionnaire électronique qui ne sert pas, qui ne travaille pas est une ressource morte, qui encombre les cimetières électroniques.
ACTION 1 : REGROUPEMENT DE 2, 3, … n dictionnaires dialectaux occitans en vue de construire une e_ressource lexicographique généralisée, à partir des e_dictionnaires électroniques accessibles.
ACTION 2. CREATION DE BANQUE NUMÉRIQUE DE TEXTES (ANCIENS, MODERNES) en partenariat avec l’Institut d’Histoire des Textes, l’Ecole des Chartes et divers laboratoires universitaire à échelle internationale (ACTION_TXT).
ACTION 3. CRÉATION D’UNE BANQUE NUMÉRIQUE D’ÉNONCES ÉTIQUETÉS (cadre théorique prioritaire d’analyse dialectale d’énoncés extraits d’une archive sonore numérisée).
Exemple
Proverbes gascons
Proverbes occitans
Proverbes catalans
Proverbes italiens (toscans, piémontais, etc.)
Proverbes aragonais
Proverbes catalans
Proverbes galiciens
Proverbes portugais
Proverbes asturiens etc.

ACTION 5 : LEXIQUE GRAMMAIRE RELATIONNEL OCCITAN, ARBRE SYNTAXIQUE, ARBRE PROSODIQUE, FICHIER SONORE.wav. ET COLLECTION DE TRACÉS.
Chaque fois qu’on le peut, on incorpore au dictionnaire des ressources image numérique
- image carte de distribution lexicale regroupée (thesoc)
- image ethnographique (dans le cas des ontologies de domaines, des lexiques d’expérience).
Le principe de base est d’exploiter au maximum une documentation sonore énonciative numérisée, actuellement en grande partie inédite, inexploitée et non décrite, non interprétée.
A chaque entrée lexicale correspond alors un ensemble de contextes phrastiques transcrits, reliés à leurs tracés numériques (application occiton2 2010 Textes sonores).
bal
Abel es anat al bal GM 1974 tracé 01
borit
lo borit
bolhent/borent GM 1974 164 (3.14.4)
escumar lo borit
còsta
la còsta / las còstas / coston
l’Emile ne ns’a pas colhonat : que’ns a balhat còsta coberta.
dalh
dalh / los dalhs / la dalha
aquera vaca que dalha [VISU_scène]
espatla
las espallas
levar l’espatla GM 1974 163 (3.14.3 tracé)

hemna
La henna / las hennas
ahemnassit
la fenna s’apèla la Caunessa; los efants, los caunils; l’òme lo Caune GM 1974 tracé 11
La fenna n’es pas encara presta GM 1974 tracé 12
cabra
la cabra / las cabras
la cabra Ròve
marro
lo marro / los marros
aquet marro
crompar un/un/aquet marro ena marrir
olha
l’olha, las olhas
miar las olhas au marro
estar de marro
blat
lo blat
eth blath moro.
semiar eth blath.
qu’ei et moment de har et blat.
setmana
la setmana / las setmanas
cada setmana
que t’eu pagarai la setmana que ven
pèça
era pèça horadada
era pèça traucada
malhuc
lo malhuc/ los malhucs
la crotz deus malhucs
s’ei demalhucada SYN s’es desancada
riu
lo riu
dins lo riu de la Ressa, i avia d’escarabissas
tampar
tampa-lhe lo bèc GM 1974 tracé 13
valer
valèva
valia GM 1974 164 (3.14.4)


Haut
 Profil Envoyer un message privé  
 
Afficher les messages publiés depuis :  Trier par  
Publier un nouveau sujet Répondre au sujet  [ 1 message ] 

Le fuseau horaire est UTC+1 heure


Qui est en ligne ?

Utilisateur(s) parcourant ce forum : Aucun utilisateur inscrit et 2 invité(s)


Vous ne pouvez pas publier de nouveaux sujets dans ce forum
Vous ne pouvez pas répondre aux sujets dans ce forum
Vous ne pouvez pas éditer vos messages dans ce forum
Vous ne pouvez pas supprimer vos messages dans ce forum
Vous pouvez insérer des pièces jointes dans ce forum

Recherche de:
Aller vers :  
cron
Powered by phpBB® Forum Software © phpBB Group
Traduit par Maël Soucaze et Elglobo © phpBB.fr