INDEXATION DES LEXIQUES PHONETIQUES
Envoyé par: Fossat Jean-Louis ERSS_clid utm <fossat@univ-tlse2.fr> (193.55.175.20)
Date: Mardi, 26 Octobre 1999, ˆ 11:06
Le colloque international CBMI TOULOUSE, IRIT, 25-25 septemùbre 1999, remet à l'ordre du jour la question de l'indexation des textes, dictionnaires, documents sonores, dans la perspective du traitement multimédia (V. Proceedings of the First European Workshop on CONTENT-BASED MULTIMEDIA indexing, ITIT, TOULOUSE, F, CMMI99). I.- INDEXATION DE L'ECRIT
L'indexation de l'écrit, pour les grandes langues nationales, s'opère dans le cadre de grands projets de traitement de corpus électroniques, avec ou sans lemmatisation: V. la conférence internationale d'ATHENES sur l'état de la question (juin 2000)
I CONDITIONS
1° disposer de textes électroniques lisibles en machines; dictionnaires ou textes lisibles en machines: nos textes occitans et dictionnaires occitans lisibles en machine sont accessibles en ligne sur le site erss/clid/occitan
2° disposer des outils classiques d'indexation et de fabrication de concordances, de calcul de fréquence, de calcul de cooccurrences tels que FRANTEXT, HYPERBASE, ALCESTE, STABLEX, DRAWCARTE, TACT, SATO, NATUREL, ANALYSER etc.)
3° définir en fonction des objectifs de description et d'utilisation en pédagogie des langues une stratégie de regroupage par vocables normés ou lemmes: étape de la lemmatisation, qui peut s'opérer par RACINES ou FORMES REDUITES: en voici un exemple, sur dictionnaire bilingue FRA_OCCITAN, accessible en ligne (concept= badaud; être badaud; faire le badaud; bader), de base BAD_ en lexique roman (catalan, castillan, occitan) , de basa latine (étymon, étymologie BAT_ responsable de BATARE.
Voic ile résultat d'une requête à notre application de dictionnaire occitan électronique sur site WWW: Date: Wed, 18 Jun 1997 18:42:32 +0200 (MET DST) From: SERVEUR HTTPD (GALLOU) To:
fossat@univ-tlse2.fr Subject: DICTIONNAIRE EN LIGNE: REQUETES/INDEXING MULTIMEDIA Message envoye par :
fossat@cict.fr a417-3.univ-tlse2.fr 193.55.172.158
Ces remarques concernent la notion badaud Traduction Francaise : badaud, curieux Occitan : badaud Grammaire : ADJ/.s. m. sg.potentiel Forme des vocables : badaut Prononciation : bad'awt Localite : général en domaine occitan (pan-occitan) ORGANISATION DES REQUETES Voici les remarques : Qu'appelle-t-on recherche sur (query)le vocable avec "joker"? On se donne, à partir d'un index partiel (index de NOTION) ou d'un INDEX GENERAL,une forme réduite BAD/bad> (format alceste 3.0PC; et on écrit RECHERCHE XXX commençant par BAD suite *.* Résultat indexé: s'il n'y a pas d'ambiguïté: badar /baD'a/ et IF badaud /baD'awt/ et N/ADJ ET EVAL en_ALDO badèc /baD'Ek/ ADJ_EVALUATIF en_EKK badaudaria /baDawdarj'e/ /baDawdarj'O/ et NSTATIF a badas / a b'aDas/ aADV et MODALISATEUR et MANIERE On cherche alors si ces unités sont employées dans des exemples et on construit des exercices sur la requête : pouvez-vous employer ces mots dans des phrases bien formées ? On obtient ainsi un concordancier des VOCABLES, des formes phoniques correspopndantes, des formes réduites portées en MAJUSCULES ici. *** *t001 la Maria qu'èra tostèm aqui a badar; dins lo vilatge, n'i a que l'aperavan la BADèca; mès dins lo vilatge, era pas soleta per BADaudejar lo dimentge, dins las carrèras.
II. CREATION DES CONDITIONS D'ALIGNEMENT TEXTE/SON et outils multimedia (bases de données, bases de textes, bases d'atlas linguistiques) Le principe retenu est celui de ;l'ALIGNEMENT du SIGNAL (à condition de disposer de SIGNAUX) et de tout ou partie d'un ENONCE, partitionné, partitionnable, selon les pratiques du découpage morphologique ou syntaxique.
1° la première tâche est de CREER le signal, de l'importer s'il préexiste, de le CREER (nouveau son) dans un dispositif expérimental (en contexte didactique, par exemple); on crée alors ici un outil qui permet à chaque utilisateur de constituer, avec assistant, son propre DICTIONNAIRE PARLANT.
2° CREER une segmentation morphologique des éléments, entre deux bornes + et - (fin) avec possibilité d'organiser les requêtes pour déterminer le nombre d'éléments combinés; à chaque élément est affecté un DESCRIPTEUR: ainsi +AUD- est DECLARE "suffixe évaluatif de valeur PEJORATIVE, INTENSIF; EVALUATIF, PEJORATIF
3° créer une transcription phonétique en utilisant le standard API ou APINEWWORD (télécharger cette police sur votre site est une exigence). 4° étapes ultérieures: soit à partir d'un état des Unités dites PHONEMES et ALLOPHONES, soit à partir d'une bibliothèque de DIPHONES, transcription automatisée et TRADUCTION AUTOMATISEE en FRA, CATAL, ARAG, ITAL, ROUM, PTG etc... (perspective du DICTIONNAIRE MULTIMEDIA ET MULTILINGUE SONORE). +bad+aut-