ERCVOX

Forum du CLiD
Nous sommes actuellement le 18 Avr 2024, 16:40

Le fuseau horaire est UTC+1 heure




Publier un nouveau sujet Répondre au sujet  [ 1 message ] 
Auteur Message
MessagePublié: 10 Oct 2007, 20:43 
Hors-ligne
Administrateur

Inscrit(e) le : 14 Avr 2005, 17:44
Message(s) : 373
ATLAS NUMERIQUE: BILAN, METHODES, MODE D'EMPLOI

Envoyé par: FOSSAT J.-L. ATLAS LING. GASCON <fossat@univ-tlse2.fr> (stci-hurvois.univ-tlse2.fr)
Date: Lundi, 11 Décembre 2000, ˆ 10:26

(1) DONNEES ET DATA NUMERIQUE
Sous la rubrique ATLAS, vous trouverez (1) des DONNEES INITIALES ET DERIVEES concernant la GASCOGNE LINGUISTIQUE (ESPACE) en CHIFFRES et NOMBRES, dans une perspective métrique: (ALG6_TABLES DE DONNEES 1973 J SEGUY au nombre de 5 FICHIERS libellés
• FICHIER N° 1 PDIA (PHONETIQUE DIACHRONIQUE
• FICHIER N° 2 PHONOL (PHONOLOGIE)
• FICHIER N° 3 M3 (MORPHOLOGIE NOMINALE ET ELEMENTS DE SYNTAXE) • FICHIER N°4 V4 (MORPHOLOGIE VERBALE J_SEGUY)
• FICHIER N°5 LEXIQUE
(2) à chacun de ces 5 FICHIERS correspondent 5 FICHIERS DE VARIABLES DIC_jVARS
• FICHIER 1 DICTIONNAIRE DE VARIABLES POUR CALCUL DES CLASSES SUR PDIA
• FICHIER 2 DICTIONNAIRE DES VARIABLES POUR CALCUL DES CLASSES SUR PHONOL
• FICHIER N° 3 DICTIONNAIRE DES VARIABLES POUR CALCUL DES CLASSES SUR M3
• FICHIER N°4 DICTIONNAIRE DES VARIABLES POUR CALCUL DES CLASSES SUR V4
• FICHIER N° 5 DICTIONNAIRE DE VARIABLES LEXICALES: pour ce dernier fichier, il a été construit de manière spécifique une machine à EXTRAIRE les ITEMS LEXICAUX: cette machine sous le libellé DRAWCARTE, construit et gère pour l'espace lexical considéré, la totalité des 170 DICTIONNAIRES MONOLOCUTEURS QUE CONSTITUE UN ATLAS; pour se procurer les DATA de ce dernier type, il faut demander les données et l'outil à ERSS_CLID; on peut accéder soit un LEXIQUE_ATLAS soit à des lexiques spécifiques construits sur un module et un type ATLAS

(3) on peut aussi accéder, sous la rubrique ICONOGRAPHIE, à des représentations cartographiques construites par divers dialectologues (SEGUY ALG Petit format, PHILPS 1985, AURREKOETCHEA, FOSSAT etc.): ces cartes représentent de manière diversifiée l'espace langagier observé (gascon, basque, etc.).

(4) PROCEDURE GENERALE DE CONSTRUCTION DE CARTE_CLASSES ARBRE DE CLASSES.
A partir de données initiales de terrain écoutées et transcrites, on établit un donné lexical phonétique (appelé DATA_TEXTE_atlas); sur ces data on pose des variables qui permettent non seulement d'établir un INVENTAIRE des DIFFERENCES (DISTANCES) et des RESSEMBLANCES (PROXIMITE, IDENTITE), mais essentiellement un CALCUL (calcul de CLASSES i/j); ces classes peuvent être représentées sous forme d'ARBRES, en hiérarchie descendante, ou en hiérarchie ascendante.
A quoi sert ARBRE 1 PDIA, ARBRE 2 PHONOL ARBRE3 MORPHO_M3 ARBRE 4 MORPHO_VEERBALE et ARBRE5 LEXIQUE? tous les arbres servent à représenter, par les moyens CARTOGRAPHIQUES et CARTOMATIQUES possibles et accessibles (DRAWCARTE, CARTE_Z etc.) à représenter, par la CARTE, aide à l'interprétation, les résultats de CALCUL DE DISTANCE opérés sur chaque jeu de données; ces calculs de distance obéissent aux principes de base de toute analyse discriminante; ces arbres, comme le rappellent les mathématiciens, sont des objets de nature COMBINATOIRE; ils combinent entre elles
(1) des LOCALITES agrégées à un NIVEAU donné de la classification
(2) les VARIABLES entre elles, agrégées selon le même principe hiérarchique; et ils permettent de sélectionner, par tri, celles des variables qui, par leur DENSITE, ont le plus contribué à déterminer telle agrégation à tel niveau. En ce sens, une documentation ATLAS NUM constitue un CORPUS D'OBSERVABLES sur l'occitan réel représenté; et CARTES A L'APPUI, ARBRES A L'APPUI; l'occitan représenté n'est pas cet occitan angélique, langue des anges unifiée, homogène, et des Troubadours; mais la langue parlée par des sujets AGRAMMATICI (qui n'ont appris ni la grammaire ni la graphie de cette langue).
Le principe de base est, on le rappelle, le principe de discrimination de CATEGORIES distinctes: la dialectologie est en effet caractérisée, depuis sa phase dialectométrique, par cette propension à diviser le continuum en CLASSES partitionnées par l'ARBRE; libre à l'interprète de couper, de diviser [nCUT] le CONTINUUM à segmenter en autant de classes qu'il le souhaite, dans un souci d'optimisation: à chaque décisin, peut correspondre une représentation CARTE; la carte est une aide à la représentation de ce que fait le linguiste dialectologue lorsqu'il se comporte comme machine à catégoriser, donc à dichotomiser.
Le danger, on le voit, de ce type de représentation, réside dans le risque de prendre des constructions épisodiques pour des bornes rigides (GOULD; VEYNE; VIDAL-NAQUET): classes sans transaction, et classes sans intersection; pour corriger cette visin, on disposera en 2001 de dotées statistiques permettant de représenter par ARBRE et CARTE des CLASSES EMPIETANTES (terminologie topologique, mathématique et statistique bien établie): ce fichier de données nouvelles, issu d'ALG6, est intitulé ALG6 DATA_STAT POLYMORPHISME; les arbres visent donc à construire des cartes distributionnelles du polymorphisme. C'est en ce sens qu'il faut comprendre notre construction d'une machine à DICHOTOMISER, construire des ARBRES, et, à partir des ARBRES, des CARTES DE PARTITION DE L'ESPACE DES OBSERVABLES.
Parce que la carte repose sur un ARBRE, élément essentiel de toute théorie de la classification, sa construction nécessite la collaboration de trois types d'acteurs: (1) le l'inguiste (2) l'analyste, appelé à développer un SIG_L (système de gestion par la carte de données géolinguistiques) et l'utilisateur, appelé à développer, sur les modèles existants, ses propres calculs, sur ses propres jeux de données.
Tout ceci est bien plus important que l'aspect insidieux MULTIMEDIA qui s'insinue sournoisement mais aussi nécessairement dans les plans, calendriers, programmes et projets de traitement des langues du monde. Tout ce qui a été fait jusqu'ici témoigne de cette volonté de doter la linguistique d'une aide à l'interprétation; car, en définitive, ce que vise la CARTE_machine, c'est à mieux donner à percevoir le rapport entre faits à expliquer et faits explicateurs; et c'est précisément ici, à mon sens que le bât blesse.
Aussi avons-nous en 2000 entrepris de tempérer certains éfaits de la mal-mesure (rigidité des classes) par la mise en place d'une méthode de calcul de densité sur textes phonétiques (CORPUS SACAZE loc. MASSAT, programme DGLF 2000) qui sera étendu à diverses portions de l'espace occitan (gascon pyrénéen).
Si nous avons présenté un bref bilan schématique de nos conceptions et de nos résultats, c'est pour en faciliter l'exportation en direction (1) du THESAURUS OCCITAN (THESOC) (2) de divers utilisateurs en SHS qui seraient tentés par l'analyse critique des résultats, l'analyse critique des carences en interprétation.
Une seule remarque terminale: nous n'avons pas construit les classes, arbres et interprétations de manière VENDABLE; c'est à chaque utilisateur, de s'approprier, par un long travail, les données de départ, puis de calculer lui-même, en fonction de ses propres critères, des partitions que nous n'avons jamais entrevues, et de critiquer soit nos propres partitions, soit le caractère lacunaire et schématique de notre interprétation, qui demeure très pauvre, nous en sommes parfaitement conscients.
On répète que l'outil DRAWCARTE ne demande qu'à être DEVELOPPE, mis au service d'un maximum d'utilisateurs, couplé à d'autres outils de calcul, d'autres outils de création d'arbres, donc de détermination de classes, par la carte: l'outil cartographique associé à DRAWCARTE est fruste; peu automatisé; il peut être soit développé; soit abandonné, au profit d'outils plus adéquats, soit déjà existants (CARTE_DONNEES d'ARTICQUE, par exemple), soit à construire, la question des coûts étant à cet égard décisive; on peut beaucoup espérer de la mise en place dans le cadre de la MSH de nouvelles structures et ressources de travail, en collaboration avec les jeunes porteurs de projet qui auront à faire appel aux méthodes d'interprétation de classes, cartes et textes à l'appui. Je rappelle enfin que le mode d'accès proposé est (1) un mode d'accès NON SPECIALISTE (accès aux données de la base lexicale TEXTES, ATLAS_TEXTE, DICTIONNAIRE) (2) un mode d'accès réservé aux SPECIALISTES (calcul de classes; construction d'ARBRES; cartographie des arbres objets combinatoires); nul doute aussi que nos dictinnaires de variables initiaux soient extrêmement pauvres, malgré leur richesse apparente; libre aux utilisateurs de sélectionner leurs jeux de variables; de combiner les variables d'ordre distinc (ordre PHDIA/PHONO ET ordre MORPHO, par exemple) et de déterminer de nouvelles variables (PHONOLOGIE, par exemple; morphologie)


Haut
 Profil Envoyer un message privé  
 
Afficher les messages publiés depuis :  Trier par  
Publier un nouveau sujet Répondre au sujet  [ 1 message ] 

Le fuseau horaire est UTC+1 heure


Qui est en ligne ?

Utilisateur(s) parcourant ce forum : Aucun utilisateur inscrit et 3 invité(s)


Vous ne pouvez pas publier de nouveaux sujets dans ce forum
Vous ne pouvez pas répondre aux sujets dans ce forum
Vous ne pouvez pas éditer vos messages dans ce forum
Vous ne pouvez pas supprimer vos messages dans ce forum
Vous pouvez insérer des pièces jointes dans ce forum

Recherche de:
Aller vers :  
cron
Powered by phpBB® Forum Software © phpBB Group
Traduit par Maël Soucaze et Elglobo © phpBB.fr