ERCVOX

Forum du CLiD
Nous sommes actuellement le 28 Mars 2024, 10:41

Le fuseau horaire est UTC+1 heure




Publier un nouveau sujet Répondre au sujet  [ 1 message ] 
Auteur Message
MessagePublié: 19 Mai 2021, 14:23 
Hors-ligne
Administrateur

Inscrit(e) le : 26 Jan 2009, 15:06
Message(s) : 137
INTERROGATION DES BASES DE DONNEES HYBRIDES EN DIALECTOLOGIE OUTILLEE PAR OCCITON_2009-2021: traitement d'archive sonore:
1 ATLAS:
échantillons sonores ALG 4, 5, 6
cartographie primaire 'iconographie)
cartographie secondaire: cartes distributionnelles
cartographie tertiaire sous méthodes d'analyse régionale de données
2 CORPUS_PAROLE: archive sonore numérisée du CLiD
3 DICTIONNAIRES
4 TEXTES JURIDIQUES
5 vidéos


Jl Fossat CLEE_erss
jfossat@wanadoo.fr
fossat@gmail.com
meqqori@free.fr
www.ercvox.free.fr
www occiton.free.fr

OBJECTIF : DYNAMIQUE DES SYSTEMES DIALECTAUX A PARTITIONNEMENT FLOU : AIDE AU DIAGNOSTIC DES CLASSES DE PROXIMITE, SIMILARITE, HOMOMORPHISMES
Information sonore digitale
Stimulus (typologie)
Information sonore directe
Information sonore : expérimentation
Information grammaticale, phonétique, phonologique, morphologique, syntaxique, pragmatique, lexicale, prosodique, rythmique
On se place dans le cadre des bases de connaissances dialectales dites de type hybride, l, pour une aire donnée, au sens large du terme en linguistique aréale , d’un point de vue génétique, typologique et aréal. (Mugnier, Baget, Leclère lirmm 2007 ; Rosati 2005 ; Patrick Sauzet : propos oraux sur cette problématique ; spécification de nouvelles variables, de nouvelles propriétés, hors script computationnel , ou en logique « aréale » outillée par lobiciel de navigation cartogtraphique dans une base sonore hybride)
SUJET DETAILLE : RESEAUX FLOUS DE PETRI TEMPORELS ET TERRITORIAUX, EN APPROCHE AREALE DYNAMIQUE
Une base dialectale de données hybrides à partitionnement flou comporte plusieurs composants, phonologiques, morphologiques, syntaxiques, prosodiques, lexicaux, (etc.) définis par les divers dictionnaires de propriétés validées par comput classificatoire qui les constituent a minima (DPConstituants : Séguy 1973) in Fonds Séguy numérique ercvox 2009 déposé.
Chaque composant est caractérisé par son propre formalisme, constitutif d’un composant structurel dialectal
Une base dialectale hybride comporte donc
1- un composant structurel hybride (DPC73 JSEGUY) construisant une « ontologie de domaine » (F. Nef 2009) qui reste à affiner.
2- une base hybride de faits ou réels attestés, hiérarchisables, évaluables, constitués par extraction d’une archive sonore numérique transcrite (occiton009) avec prise de décision (éviction, radiation, candidats retenus, éliminés, temporaires, associés).
3- une base de règles de connaissance (DPC_73 Séguy alg6) qui restent à affiner, compléter.
4- des contraintes d’ordre phonotactiques définies à partir d’ occiton009 par les utilisateurs regroupés (CPT) : introduction de nouvelles variables.
5- introduction du corrélat prosodique de variables antérieures (non nouvelles variables) : par exemple effets induits en phonologie prosodique de la nasalité dans le mot ou le syntagme phonologique : [ua lua ; ua garia 40 Soustons).
Ces contraintes d’ordre phonotactiques, comme les variables prosodiques ajoutées sont définissables par requêtes simples dans le cadre d’occiton009, avec des algorithmes robustes à affiner. Je sais qu’il existe pour ce faire dans les laboratoires des personnes compétentes, au rang des chercheurs, professeurs et ingénieurs de divers départements (Mathématiques, Logique, algorithmes de calcul de proximité, de resemblance, d’homomorphisme, de différence, de distance : (algorithme de Ward), en ce qui concerne nos essais antérieurs, ALG6_78_86 etc.).

PROBLEME CENTRAL d’UNE DIALECTOLOGIE OUTILLEE.
Dans ce type d’approche, on renonce à toutes les bases de données antérieures de type THESOC, comme aux données transcrites d’après les bases CARNETS –fonds digital NALF 1 2 3 ALG), qui ne répondent pas encore ou ne correspondront jamais de manière vérifiable au critère de satisfiabilité des données extraites par les pratiques aréales normées (Seguy 1973), pour ne retenir que les données extraites de l’archive sonore digitale ; on en comparera les ressemblances et les différences, par recours à un outillage robuste (OCCITON009 : 10 bases locales regroupées, en dynamique de partitionnement flou) . Le partitionnement initial par départements est dénué, par hypothèse falsifiable, de toute propriété sémantique. Mais en termes de partitionnement flou, ce critère additionnel peut contribuer au diagnostic. C’est pourquoi on incite les utilisateurs à réfléchir à la sélection des bases constitutives de leur échantillon de regroupement (critère de contiguïté de part et d’autre d’une frontière géographique, politique, historique [Séguy 1960, Conférence de Londres].
Pour réaliser un navigateur cartographique BASE_SONORE_HYBRIDE, on se propose de centrer l’observation sur une zone de cohésion homogène : par exemple St-Marcet (anticlinal de) Boudrac, Mazères Lestelle, Montsaunès, Figarol, Escanecrabe Salies_du_Salat, Soueich, St_Martory, St_Gaudens, Lafitte_Toupière, Arbon (zone distante de Toulouse, sur axe oriental gascon. On positionnera ce réseau dans le réseau de sociabilité des abbayes cisterciennes Bernard SWROMAN k_98-99

BASES DIALECTALES HYBRIDES MULTISOURCES. : LISTES, CORPUS, PROBLEMES ; METHODES
Le problème central, dans ces conditions, demeure l’interrogation par un grand nombre d’utilisateurs en système auto-éducatif assisté et interactif (S. Ragano 2009) de ce type de base de connaissances sur le partitionnement temporel et spatial dit flou, qui prend ici comme point de départ à valider une archive sonore digitalisée, et un projet de transcription à débattre (transcription critique) quelle que soit sa fiabilité, à démontrer, du point de vue de l’analyse génétique, logique, typologique, avec justification en dynamique des aires (analyse aréologique de Séguy 60 : héritage spirituel et matériel ; fonds SEGUY digital : déposé).
1.- Les requêtes sont au moins équivalentes à des requêtes de type conjonctif aux bases de données relationnelles fermées (standards 4D, DBASE, Oracle, ACCESS etc.) : ceci constituant un axe de développement potentiel, en dialectologie outillée (plan et scripts d’une ingénierie dialectale des LdF).
Les formalismes préconisés (Fossat AIEO 2008 Aachen, Fonds Séguy 73) sont des graphes
conceptuels simples ou de complexité raisonnée : chaque variable définie par son composant structurel est représentée par son graphe (par homologie avec les pratiques en cladistique appliquée à des données typologiques de langue [V. sur ce point L. Léonard, Darlu et alii].
2.- La notion d’homomorphisme dialectal de base est donc placée au cœur de toute analyse de « cohésion » aréale à expliquer, dès 1973 , et ne saurait être abordée de manière démonstrative hors du dispositif préconisé par Séguy_19973 (validé pour le gascon seul, en domaine occitan). Sur ce point voir Mugnier 2007, Baget 2007.
L’intérêt du concept apparaîtra dès lors que l’on sait que l’objectif n’est pas d’explorer les homomorrphismes au sein de la gasconité, mais au sein d’une grande base de faits dialectaux stockés dans des bases de données externes (THESAURUS OCCITAN, par exemple, entre autres bases larges ; base de textes, bases dictionnairiques occitanes).
Exemple retenu : : base de données MS3_Pr, MS3_Pr_SUJET MS3_PrCo avec FOCUS, DUPLICATION, REDUCTION..
OCCITON009 permet actuellement de tester les requêtes possibles sur un jeu de 10 bases locales ou bases géographiques (10 localités (Fossat 2009 Lyon II ; Leeds 2008 Homomorphismes dialectaux : classes, graphes conceptuels ; ibid Brun_Trigaud et alii.- Thesoc Unice MS3_P ; Fossat2010 Valencia MS3_PrCo_gasconr ).
3.- Le dialectologie de diagnostic de partitionnement flou est donc appelé à s’intéresser aux formalismes qui ont des propriétés sémantiques définies en logique : ua hemna ; aquera hemna, e l’ats vista ? ; la hemna ; la hemna que te disia, jo, jer :aquera hemna, se l’atz viste ; aquet gojat, qu’eu volh anar véser. .
Question posée : quelles règles ont de bonnes propriétés computationnelles. Les règles initiales ? Toutes ? partie ? Les règles ajoutées ?


SATISFIABILITE DES BASES DE CONNAISSANCE
Des expériences en cours sur ALF_date, NALF_data, ercvox_date, il ressort que la satisfiabilité des bases actuelles accédées (plus ou moins) est un des problèmes cruciaux pour l’obtention et la validation de résultats ; la description actuelle repose entièrement sur la fiabilité assurée, sinon démontrée d’un ensemble de connaissances qui ont pour fondement des opérations de sélection (tri) et transcription, avec codage à minima de sous_ensembles de propriétés sélectionnées.
Déterminer la fiabilité des requêtes aux bases constituées a constitué notre première étépe ; les résultats cartographiés sont dismoninples
1. DIC_VAR_PHONOL
2. DIC_VAR_PDIA
3. DIC_VAR_VERBE.
4. DIC_VAR SYNTAXE
La question posée est la suiante : la base de connaissances aréales (K 123_alg) est-elle fiable, et à quel degré ? En quoi constitue-t-elle un élément décisif dans le diagnostic de partitionnement flou des propriétés constitutives des états dialectaux d’une langue dans le temps, et à travers la fragmentation territoriale ? Ceci constitue un problème fondamental : le mal absolu étant représenté par une correction incomplète, inachevée des données digitales d’entrée ; Philps 1985 le premier avait testé la fiabilité des données encodées par Séguy 1973 (travail entièrement manuel, et publié à titre posthume) ; mais ce travail est demeuré sans suite systématique, faute de ressources humaines en dialectologie outillée, à l’exception de notre opération antérieure exploratoire (CLiD 1978-86 Atlas dialectométrique et partition hybride : in Archives digitales Clid ercvox 2009 : diaporama CLID_ercvox LEED, Aachen 2009 ; diaporama MS3Pr Lyon 2 2009 Mémoires et Terrains de la dialectologie : aide au diagnostic par l’algorithme de Ward appliqué à la composante morphosyntaxique de la grammaire.
La seconde étape de validation de la satisfiabilité des données a abouti a des réssultats fiables par représentation cartographiques de cladogrammes et/ou dendrogrammes :
Fossat 2010 Analyse de la dynamique des aires de gasconité ; en cours de relecture, amendement, correction ; épreuves électroniques ; discussion avec Jean-Léo Léonard ; Aurrekoetxea, Darlu etc.).

Proposition : en livrant la version actuelle d’OCCITON 2021 , on s’intéressera aux collections de réponses à une requête donnée, et aux correspondances entre les variables de la requête, pour les divers domaines constitués en champ exploratoire, du Gascon au Croissant; mais aussi du Poitou (archive sonore CLiD: corpus parole) aux Monts cantabriques (archive sonore CLiD: corpus-parole)

QUESTIONS CENTRALES
Parmi les questions centrales susceptibles de guider les travaux collectifs, on distinguera deux ordres de problèmes.
1 .- Quelles sont les formes d’interaction entre un composant structurel en logique de description dialectale et la base de faits dialectaux recueillie par interaction avec 1,2, n locuteurs localisés, par un enquêteur caractérisé par une stratégie directive et agissant dans un schéma d’enquête indirecte, avec opération de transcription différée par un décideur transcripteur normatif. Seul le recours dans le détail, à l’archive sonore digitale stockée permet d’apporter une réponse à ce type de requête ; et toutes les réponses apportées, hors du schéma ergonomique défini par sa totalité, sont invalides.
2.- Comment sont calculés et représentés les homomorphismes structurels à partir de la documentation sonore digitale hybride accédée en temps réel ?
3 . Comment est prise en compte la capacité de résilience des témoins soumis à traumatisme par Q_FRA (enquête indirecte ; tâche de résolution d’énigmes ; résistance aux formes mêmes de la suggestion) ?

QUESTIONS CONNEXES ET PERSPECTIVES POUR D’AUTRES APPLICATIONS
1. INTRODUCTION DE NEGATION dans la stratégie de recherche (ALG, X. Ravier).
2. INTRODUCTION D’INTERROGATIONS EN CHAINE DANS LES STRATEGIES DE REQUETE
3. INTRODUCTION D’UN INDICE DE COMPLEXITE RAISONNABLE DANS LA COMPLEXITE DE LA BASE DE FAITS DIALECTAUX MULTILINGUES RECUEILLIE (Lexiques et ontologies de domaines ( Zweigembaum 2009 ; Fossat 2010 en relecture, version révisée et augmentée)
- base de faits_D : propriétés computationnelles sélectionnées
- base de faits_R en miroir : Traces, propriétés de résilience
- base de faits_DF formes mixtes
- base de faits_F
dans une perspective de lexicologie dialectale hybride outillée ( application antérieure ; reprise de jeux de données de plus grande extension territoriale : Fossat 1973, Lexiques territoriaux partagés version électronique 2010, en cours de révision

Il ne fait aucun doute que s’attaquer à la totalité de ces questions en même temps relèverait de la pure inconscience ; aussi bien ces questions posées ont-elles pour objectif d’éclairer les questions qui se posent aux équipes de traitement des grandes bases de données déjà stockées, et aux équipes courageuses qui attaquent des campagnes de nouvelles collections de données stockées.

FOIX_2021 ' en cours d'implantation; base de ramnets syntaxiques localisés, et, en miroir CONTROLM_variable_rythmique_associée
Que venevon le blat a mièi prètz, l’an passa, ací? ALG5 ; 10 localités, 10 bases digitales
Se’u venoron aquet blat, l’an passat ? ALG5 : 10 localités, 10 bases digitales.
Qu’ac avetz tot venut, o non ?

EVALUATION
POIDS de la MORPHOLOGIE LEXICALE
POIDS DE LA PHONOLOGIE LEXICALE
POIDS DES CRITERES SYNTAXIQUES
POIDS DES CRITERES PROSODIQUES
POIDS DES CRITERES PRAGMATIQUES
POIDS DES CRITERES SEMANTIQUES
POIDS DU FACTEUR PROSODIQUE (Rouland 2009, Amper/Occiton)


Haut
 Profil Envoyer un message privé  
 
Afficher les messages publiés depuis :  Trier par  
Publier un nouveau sujet Répondre au sujet  [ 1 message ] 

Le fuseau horaire est UTC+1 heure


Qui est en ligne ?

Utilisateur(s) parcourant ce forum : Aucun utilisateur inscrit et 1 invité


Vous ne pouvez pas publier de nouveaux sujets dans ce forum
Vous ne pouvez pas répondre aux sujets dans ce forum
Vous ne pouvez pas éditer vos messages dans ce forum
Vous ne pouvez pas supprimer vos messages dans ce forum
Vous pouvez insérer des pièces jointes dans ce forum

Recherche de:
Aller vers :  
cron
Powered by phpBB® Forum Software © phpBB Group
Traduit par Maël Soucaze et Elglobo © phpBB.fr