ERCVOX

Forum du CLiD
Nous sommes actuellement le 28 Mars 2024, 13:13

Le fuseau horaire est UTC+1 heure




Publier un nouveau sujet Répondre au sujet  [ 1 message ] 
Auteur Message
MessagePublié: 10 Oct 2007, 15:13 
Hors-ligne
Administrateur

Inscrit(e) le : 14 Avr 2005, 17:44
Message(s) : 373
Re: NUMERISATION: DICTIONNAIRE OCCITAN

Envoyé par: FOSSAT-J.-L. ERSS ANALYSE DE CORPUS <fossat@univ-tlse2.fr> (stci-hurvois.univ-tlse2.fr)
Date: Mercredi, 5 Juillet 2000, ˆ 4:12

En Réponse à: NUMERISATION: DICTIONNAIRE OCCITAN (FOSSAT JL ERSS NUMERISATION)

TEXTE INITIAL
L'opération de NUMERISATION affecte toute l'information occitane (romane) accessible: (
1) ATLAS LINGUISTIQUE
(2) CORPUS DE TEXTES (ECRIT/ORAL)
(3) ARCHIVE SONORE (transcrite); le tout alimente
(4) le DICTIONNAIRE GENERAL NUMERIQUE.
EXEMPLE: l'échantillon actuel du module DICTIONNAIRE [OCCITAN] comporte une possibilité d'accès par FORMES GRAPHIQUES, VOCABLES, FORMES PHONETIQUES (dictionnaire phonétisé), FORMES MORPHOLOGIQUEMENT SEGMENTEES, ETYMONS, CONTEXTES, CONCORDANCES; pour les seuls VOCABLES définis en NORME DE LANGUE UNIFIEE (vocable ou lemme), l'échantillon actuellement au banc d'essai porte sur 17668 vocables; livrée sur CD_ROM avec l'outil
DRAWCARTE, l'application peut être manipulée et augmentée à sa guise par tout type d'utilisateur, qui, de surcroît a tout loisir de construire à sa
guise son application personnelle. L'application se comporte comme une
aide à la compréhension des mécanismes de productin des objets de LANGUE, sans privilégier à tout prix la LOCALISATION, la territorialité, la
production de formes lexicales LOCALES, mais sans neutraliser ce mode
d'accès, prioritaire dans la logique des atlas numérisés. La seconde
application (dictionnaire aragonais-espagnol-occitan, catalan) a porté
l'investigation à un total de plus de 100.000 vocables pour 4 langues,
avec attention spéciale à la LOCALISATION, pour les données pyrénéennes aragonaises.
La prévision du nombre total de VOCABLES du DICTIONNAIRE OCCITAN est de 400.000 lemmes pour la fin 2001. On notera que chaque VOCABLE, et chaque CONTEXTE syntaxique, peuvent être sonorisés, en
environnement MAC, avec des équipements de sonorisation tout à fait
triviaux (carte audiomedia, entre autres possibilités). C'est le principe
du dictionnaire sonore; chaque vocable, chaque syntagme, chaque fragment devient alors lieu d'observation du signal vocal.
Le dictionnaire numérique est DISTRIBUE, et accessible à tous, manipulable avec un ensemble d'outils d'extraction de l'information. DISCUSSION : PRATIQUES TRANSVERSALES
Une pratique transversale d'analyse de corpus entre équipes TAL (Bourigault, HATOUT, TANGUY et alii) et DIALECTOLOGIE SUR CORPUS NUMERISE devrait permettre des avancées importantes définies en termes de méthodes "locales" (BOURIGAULT, CONDAMINE, LENORMAND etc.)
• Enrichissement du vocabulaire existant: nous avons le plus grand besoin d'équiper l'occitan d'un outil mis à jour avec EVALUATION, au sein d'une équipe de lexicologie/lexicographie occitane, maîtrisant les méthodes d'analyse de corpus, et pratiquant des méthodes d'analyse de type local (lexicographie locale des textes littéraires anciens, des textes juridiques anciens, des textes ethnolittéraires modernes et contemporains pour lesquels existe une archive sonore correspondante (numérisable). Ces applications sont définies en termes de DOMAINES et ont justifié la construction du dictionnaire accédé selon des clés de DOMAINE (incluant un premier niveau d'usages terminologiques: médecine, chirurgie, aviation, administration, santé etc.)
• Exploration des nouvelles méthodes permettant de renouveler la construction des glossaires dialectaux locaux (ex. Glossaire bigourdan)
• analyse des besoins : acquisition de termes communs, de termes techniques, évaluation de leur acquisition dans les enseignements de langue (LAVAC, de Ragano et Fijalkow)
• Les outils d'intervention: DRAWCARTE.BASE, LEXTER, LEXCLASS, HYPERBASE, ALCESTE, ensemble d'outils d'analyse de corpus (extraction de termes; extraction de morphèmes; analyse morphosyntaxique dite robuste; interface graphique de validation de DRAWCARTE (lexique.atlas/corpus/dictionnaire); repérage des collocations (TACT, SATO); recherche sur les contextes textuels et cocncordances; outils de classification sur lexique de corpus, engendrant des matrices INDIVIDUS/VARIABLES, et facilitant le CALCUL DE SIMILARITES entrer les couples d'individus (S_JACCARD, par exemple); insi en termes d'analyse de corpus, les couples d'adjectifs peuvent être triés par des mesures de similarité (indice de similarité JACCARD, entre autres)
• acquisition des VARIANTES LEXICALES attestées dans les usages linguistiques LOCAUX: BESONH/HREITA (har hreita, far besonh) Dans cet esprit, on comprend l'importance du programme NUMERISATION: BASE DE DONNEES TEXTUELLES DE L'OCCITAN. Le dictionnaire numérique est alors un outil en interaction avec les outils d'analyse de corpus.
• APPLICATION: évaluation de la maîtrise des usages de l'ADJECTIF en analyse de corpus OCCITAN (corpus ethnolittéraire; corpus de chants, corpus de proverbes, corpus juridiques)


Haut
 Profil Envoyer un message privé  
 
Afficher les messages publiés depuis :  Trier par  
Publier un nouveau sujet Répondre au sujet  [ 1 message ] 

Le fuseau horaire est UTC+1 heure


Qui est en ligne ?

Utilisateur(s) parcourant ce forum : Aucun utilisateur inscrit et 1 invité


Vous ne pouvez pas publier de nouveaux sujets dans ce forum
Vous ne pouvez pas répondre aux sujets dans ce forum
Vous ne pouvez pas éditer vos messages dans ce forum
Vous ne pouvez pas supprimer vos messages dans ce forum
Vous pouvez insérer des pièces jointes dans ce forum

Recherche de:
Aller vers :  
cron
Powered by phpBB® Forum Software © phpBB Group
Traduit par Maël Soucaze et Elglobo © phpBB.fr