ERCVOX

Forum du CLiD
Nous sommes actuellement le 29 Avr 2024, 11:27

Le fuseau horaire est UTC+1 heure




Publier un nouveau sujet Répondre au sujet  [ 1 message ] 
Auteur Message
MessagePublié: 09 Oct 2007, 15:12 
Hors-ligne
Administrateur

Inscrit(e) le : 14 Avr 2005, 17:44
Message(s) : 373
DICTIONNAIRE: PROJET LEXICOGRAPHIQUE_OC

Envoyé par: FOSSAT (J.-Louis) erss_clid UMR 5610cnrs <fossat@univ-tlse2.fr> (mwall.univ-tlse2.fr)
Date: Mardi, 25 Janvier 2000, ˆ 10:46

DICTIONNAIRE

1.- OBJECTIF: DESCRIPTION
L'application DICTIONNAIRE se propose de regrouper en base de données interrogeables un certain nombre de dictionnaires partiels locaux, élaborés hors standard, existant sous forme de dictionnaires électroniques.
Ces dictionnaires visent à couvrir les domaines suivants, comparables: • GASCOGNE (2000) • LANGUEDOC (2001) • AUVERGNE (2002) • OPERATION PARTICULIERE: G. ROHLFS.- DICTIONNAIRE PYRENEEN MULTILINGUE (1999): avec B. Arrous, Société Image, Université de Uesca (TLA: Pr. Fancho Nagore-Laínz)

2.- ACCES AUX SOURCES (banc d'essai de l'opération de regroupement de sources, éditées, ou inédites) Ils sont accessibles en tant que textes électroniques bruts, aux conditions juridiques d'accès à une base de données "multipropriétaire", par clé auteur EXEMPLE (zone clickable et renvoi à textes de dictionnaires disponibles au téléchargement) *Palay_jl *D'Estalenx_clid: banc d'essai *Vayssier_clid *Gary_clid *Rohlfs_clid (Huesca-Toulouse 14 novembre 1999): banc d'essai *Vigneau_jl *Escòlo gabalo_jl *Lespy_jl Ces dictionnaires en ligne (texte électronique) ne sont pas des dictionnaires électroniques, au sens TAL du terme; un texte de dictionnaire électronique, doit comporter des marques a des fins de repérage des faits de catégorisation, polycatégorisation, figement etc.

3.- DISPOSITIF DE TRAITEMENT Un dispositif de traitement se compose (1) d'un ensemble de programmes (2) de sources ou données lexicographiques marquées. Le tout constitue la Base de Données (BD_DICO); une base de données de type BD_dico.base peut être couplée à une base de type BD_carto (carte de localités; cartographie de classes-objet REGIONS) LE PROGRAMME_(BASE DE DONNEES) • standard 4D (mac) DRAWCARTE.BASE_dictionnaire marqué (1) occitan-français et français-occitan (2) dictionnaire comparatif aragonais-occitan-catalan-castillan • standard PERL (site WWW_dictionnaire, accessible sur le site internet erss/clid/occitan, au niveau DICTIONNAIRE) (1) occitan-français et français-occitan (2) dictionnaire comparatif aragonais-occitan-catalan-castillan

4.- PRINCIPES GENERAUX DE L'ACCES (click) • accès multilingue: OCCITAN_FRANCAIS • accès CONCEPT (index des concepts; classes objets de concepts, de prédicats, classes d'arguments élémentaires) • accès vocables (L1, L2, Ln) • accès forme réduite (classe objet de formes réduites) • accès étymon ( classe objet d'étymons permettannt le regroupement sur cette caractéristique d'origine) • accès formes prononcées (classes objets d'unités phoniques) • accès au découpage morphologique (classes objets de morphèmes) • accès son (atelier de sonorisation AUDIOMEDIA) • accès image (illustration): carte, planche, photo, film, video, dessin, schéma, esquisse etc. • accès libre par requête sur la présence ou l'absence d'une chaîne de caractères, par exemple en fin de mot Exemples ?òt ?ier ?èra des? in? per? • dispositif expérimental sur l'accès lexical • dispositif de traitement statistique

- • dispositif de cartographie (frontières)

5.- OUTILS DE TRAITEMENT PROPOSES AUX UTILISATEURS Les utilisateurs doivent les acquérir aux conditions juridiques en vigueur (charte Renater) • stablex (A. Camlong) • access et procédures de requête SQL sous windows •excel (MAC ou PC); feuilles; base de données • carte.données (articque) type BD_carto •drawcarte.base_dictionnaire (erss_clid) • hyperbase (unice; Etienne Brunet) • cerca_lèu (quick_search) • lexico (André Salem) pour calcul des segments répétés • analysez (Bonnefois) pour indexation de textes • alceste (Max Reinert): versions MAC et PC

Un dictionnaire mis en forme dans ce dernier dispositif est alors exporté dans l'application gérée sous WWW (standard PERL)

6.- CALENDRIER DE TRAVAIL DE LA BASE SOUS DRAWCARTE.BASE_dictionnaire (1999-2000) • dictionnaire 1 (d1) banc d'essai (A, B, C): 25.000 entrées (prototype existant) • étapes ultérieures (d1): par blocs de 25.000 entrées (un bloc: 3 mois): 2000 • dictionnaire d2, ..., n (par régions: Languedoc; Cantal, Auvergne)etc.: 2001 Programme de travail lexoicographique d'un Centre de Ressources Occitan. • importation des bases travaillées en direction du standard PERL (www), administré par A. Meqqori (UTM, CPST, GRIL, pour erss/clid/occitan, niveau dictionnaire (standard PERL)

7.- QUELQUES ORIENTATIONS MAJEURES • Le figement nominal (classes objets) @ un ramat d'oelhas @ carn d'oelha @ borit de vedèth; • le figement verbal (classes objets): @far masèl • Les verbes pronominaux et la passivisation • Le figement adverbial, prépositionnel, conjonctionnel: @ja que (p) @ en çò de Gòrsa @ en çò de l'Anna • le figement formulaire :@bon jorn @ bona nuèit @a diu siatz etc.) • étiquetage morphologique des mots simples et composés • étiquetage sémantique (classes d'arguments primitifs; classes de prédicats) • extraction automatique de la nomenclature française adaptée (gallicisme, néologie, dont néologie terminologique) • variation et invariants dans le mot phonologique : @al reveire/au revéder • fonction syntaxique et fonction pragmatique • classes d'équivalence: FRA -BLE = OCC-ader/ador (expression du non-fini, du possible) • les suites adjectivales (ou collocations adjectivales: @ cadena pirinenca;@ terra pirinenca @tèrra cantalenca @ grafia mistralenca @jorga camarguenca @ pera rodanenca @ trufa de L'Albenca • Pronom, Substitut et anaphore (lexique-grammaire des substituts ou représentants) • LE NP (programme _ONYMES): NL (toponymie) et NP = anthroponymie • La cacographie des NL/NP (ignorance portant sur la sémantique et la prononciation • Intensivité, évaluatifs/évaluation, péjoration, laudation (fonction morphologique; fonction syntaxique; fonction pragmatique) • Les présentatifs • les connecteurs discursifs: @alavètz; a la fin @ etc. • dictionnaire et demande sociale

DOCUMENTS TELECHARGEABLES: tous textes disponibles, accessibles, aux conditions juridiques de la charte RENATER, de la charte du CICT.

ETUDES LEXICOGRAPHIQUES TELECHARGEABLES SUR CE SITE • atlas (lexique) • dictionnaire (vocabulaire) • textes indexés (index, concordances) • études (lexicologie; sémantique; voir ETUDES)

VOUS VOULEZ COOPERER: signalez-le sur ce site (FORUM)


Haut
 Profil Envoyer un message privé  
 
Afficher les messages publiés depuis :  Trier par  
Publier un nouveau sujet Répondre au sujet  [ 1 message ] 

Le fuseau horaire est UTC+1 heure


Qui est en ligne ?

Utilisateur(s) parcourant ce forum : Aucun utilisateur inscrit et 3 invité(s)


Vous ne pouvez pas publier de nouveaux sujets dans ce forum
Vous ne pouvez pas répondre aux sujets dans ce forum
Vous ne pouvez pas éditer vos messages dans ce forum
Vous ne pouvez pas supprimer vos messages dans ce forum
Vous pouvez insérer des pièces jointes dans ce forum

Recherche de:
Aller vers :  
cron
Powered by phpBB® Forum Software © phpBB Group
Traduit par Maël Soucaze et Elglobo © phpBB.fr