ERCVOX

Forum du CLiD
Nous sommes actuellement le 28 Mars 2024, 19:03

Le fuseau horaire est UTC+1 heure




Publier un nouveau sujet Répondre au sujet  [ 1 message ] 
Auteur Message
MessagePublié: 08 Oct 2007, 11:37 
Hors-ligne
Administrateur

Inscrit(e) le : 14 Avr 2005, 17:44
Message(s) : 373
INDEXATION DES LEXIQUES PHONETIQUES

Envoyé par: Fossat Jean-Louis ERSS_clid utm <fossat@univ-tlse2.fr> (193.55.175.20)
Date: Mardi, 26 Octobre 1999, ˆ 11:06

Le colloque international CBMI TOULOUSE, IRIT, 25-25 septemùbre 1999, remet à l'ordre du jour la question de l'indexation des textes, dictionnaires, documents sonores, dans la perspective du traitement multimédia (V. Proceedings of the First European Workshop on CONTENT-BASED MULTIMEDIA indexing, ITIT, TOULOUSE, F, CMMI99). I.- INDEXATION DE L'ECRIT
L'indexation de l'écrit, pour les grandes langues nationales, s'opère dans le cadre de grands projets de traitement de corpus électroniques, avec ou sans lemmatisation: V. la conférence internationale d'ATHENES sur l'état de la question (juin 2000)
I CONDITIONS
1° disposer de textes électroniques lisibles en machines; dictionnaires ou textes lisibles en machines: nos textes occitans et dictionnaires occitans lisibles en machine sont accessibles en ligne sur le site erss/clid/occitan
2° disposer des outils classiques d'indexation et de fabrication de concordances, de calcul de fréquence, de calcul de cooccurrences tels que FRANTEXT, HYPERBASE, ALCESTE, STABLEX, DRAWCARTE, TACT, SATO, NATUREL, ANALYSER etc.)
3° définir en fonction des objectifs de description et d'utilisation en pédagogie des langues une stratégie de regroupage par vocables normés ou lemmes: étape de la lemmatisation, qui peut s'opérer par RACINES ou FORMES REDUITES: en voici un exemple, sur dictionnaire bilingue FRA_OCCITAN, accessible en ligne (concept= badaud; être badaud; faire le badaud; bader), de base BAD_ en lexique roman (catalan, castillan, occitan) , de basa latine (étymon, étymologie BAT_ responsable de BATARE.
Voic ile résultat d'une requête à notre application de dictionnaire occitan électronique sur site WWW: Date: Wed, 18 Jun 1997 18:42:32 +0200 (MET DST) From: SERVEUR HTTPD (GALLOU) To: fossat@univ-tlse2.fr Subject: DICTIONNAIRE EN LIGNE: REQUETES/INDEXING MULTIMEDIA Message envoye par : fossat@cict.fr a417-3.univ-tlse2.fr 193.55.172.158

Ces remarques concernent la notion badaud Traduction Francaise : badaud, curieux Occitan : badaud Grammaire : ADJ/.s. m. sg.potentiel Forme des vocables : badaut Prononciation : bad'awt Localite : général en domaine occitan (pan-occitan) ORGANISATION DES REQUETES Voici les remarques : Qu'appelle-t-on recherche sur (query)le vocable avec "joker"? On se donne, à partir d'un index partiel (index de NOTION) ou d'un INDEX GENERAL,une forme réduite BAD/bad> (format alceste 3.0PC; et on écrit RECHERCHE XXX commençant par BAD suite *.* Résultat indexé: s'il n'y a pas d'ambiguïté: badar /baD'a/ et IF badaud /baD'awt/ et N/ADJ ET EVAL en_ALDO badèc /baD'Ek/ ADJ_EVALUATIF en_EKK badaudaria /baDawdarj'e/ /baDawdarj'O/ et NSTATIF a badas / a b'aDas/ aADV et MODALISATEUR et MANIERE On cherche alors si ces unités sont employées dans des exemples et on construit des exercices sur la requête : pouvez-vous employer ces mots dans des phrases bien formées ? On obtient ainsi un concordancier des VOCABLES, des formes phoniques correspopndantes, des formes réduites portées en MAJUSCULES ici. *** *t001 la Maria qu'èra tostèm aqui a badar; dins lo vilatge, n'i a que l'aperavan la BADèca; mès dins lo vilatge, era pas soleta per BADaudejar lo dimentge, dins las carrèras.

II. CREATION DES CONDITIONS D'ALIGNEMENT TEXTE/SON et outils multimedia (bases de données, bases de textes, bases d'atlas linguistiques) Le principe retenu est celui de ;l'ALIGNEMENT du SIGNAL (à condition de disposer de SIGNAUX) et de tout ou partie d'un ENONCE, partitionné, partitionnable, selon les pratiques du découpage morphologique ou syntaxique.
1° la première tâche est de CREER le signal, de l'importer s'il préexiste, de le CREER (nouveau son) dans un dispositif expérimental (en contexte didactique, par exemple); on crée alors ici un outil qui permet à chaque utilisateur de constituer, avec assistant, son propre DICTIONNAIRE PARLANT.
2° CREER une segmentation morphologique des éléments, entre deux bornes + et - (fin) avec possibilité d'organiser les requêtes pour déterminer le nombre d'éléments combinés; à chaque élément est affecté un DESCRIPTEUR: ainsi +AUD- est DECLARE "suffixe évaluatif de valeur PEJORATIVE, INTENSIF; EVALUATIF, PEJORATIF
3° créer une transcription phonétique en utilisant le standard API ou APINEWWORD (télécharger cette police sur votre site est une exigence). 4° étapes ultérieures: soit à partir d'un état des Unités dites PHONEMES et ALLOPHONES, soit à partir d'une bibliothèque de DIPHONES, transcription automatisée et TRADUCTION AUTOMATISEE en FRA, CATAL, ARAG, ITAL, ROUM, PTG etc... (perspective du DICTIONNAIRE MULTIMEDIA ET MULTILINGUE SONORE). +bad+aut-


Haut
 Profil Envoyer un message privé  
 
Afficher les messages publiés depuis :  Trier par  
Publier un nouveau sujet Répondre au sujet  [ 1 message ] 

Le fuseau horaire est UTC+1 heure


Qui est en ligne ?

Utilisateur(s) parcourant ce forum : Aucun utilisateur inscrit et 1 invité


Vous ne pouvez pas publier de nouveaux sujets dans ce forum
Vous ne pouvez pas répondre aux sujets dans ce forum
Vous ne pouvez pas éditer vos messages dans ce forum
Vous ne pouvez pas supprimer vos messages dans ce forum
Vous pouvez insérer des pièces jointes dans ce forum

Recherche de:
Aller vers :  
cron
Powered by phpBB® Forum Software © phpBB Group
Traduit par Maël Soucaze et Elglobo © phpBB.fr