ERCVOX • Consulter le sujet - CORPUS BASES DE TEXTES OCCITANS ROMANS: OBJECTIFS METHODES

Consulter les messages sans réponse | Consulter les sujets actifs

Index du forum » CLID » base de textes

Le fuseau horaire est UTC+1 heure

CORPUS BASES DE TEXTES OCCITANS ROMANS: OBJECTIFS METHODES

Modérateur: fossat

Page 1 sur 1

[ 1 message ]

Sujet précédent | Sujet suivant

Auteur

Message

fossat

Sujet du message: CORPUS BASES DE TEXTES OCCITANS ROMANS: OBJECTIFS METHODES

Publié: 11 Oct 2007, 15:25

Administrateur

Inscrit(e) le : 14 Avr 2005, 17:44
Message(s) : 373

POUR QUOI FAIRE?

BASE DE TEXTES OCCITANS SPATIALISES
DONNEES SPATIALES
TABLES
CLASSES

Envoyé par: FOSSAT Jean-Louis <fossat@univ-tlse2.fr> (AToulouse-251-1-13-86.w82-125.abo.wanadoo.fr)
Date: Lundi, 4 Avril 2005, ˆ 4:19

ARCHIVE NUMERIQUE DE TEXTES OCCITANS, ROMANS
OBJECTIFS
MESURES, CLASSIFICATION, DATA MINING
LEXICOMETRIE
SYNTAXE
ENONCIATION
PROSODIE
REPRESENTATION

ANALYSE QUANTITATIVE COMPARATIVE DE 100 TEXTES API INDEXES
REF: CORPUS SACAZE, prototype STABLEX
Fossat 2003 AIEO MESSINA

Le principe de base de toute édition de textes occitans électroniques dans notre perspective a un objectif comparatif: comparer, 100, 150, n TEXTES, qu'ils soient écrits, transcrits depuis une source orale l'objectif est le même; le dispositif de comparaison sélectionné permet de mettre en place une stratégie d'analyse d'après la mesure des "segments répétés" (André Salem).

TYPOLOGIE DES SOURCES
Cependant, en pratique, on distinguera
(1) les corpus en prose juridique écrite de l'ancien occitan
(2) les corpus d'occitan moderne et contemporain édités à partir d'états graphiques (contes, légendes, romans etc.)
3) les corpus transcrits à partir de sources orales: on distinguera ici
(3A) les corpus de textes cours comparables jopints au dispositif d'atlas linguistique)
(3B) les corpus transcrits de collections antérieures (Bourciez, Sacaze) et (3C) ce quii constitue notre priorité des priorités: textes phonétiques transcrits en mode API et analysés en environnement PRAAT; les CDROM des textes numériques téléchargeables disponibles sont accessibles sur demande, à des fins de recherche scientifique.

OBJECTIFS DES OPERATIONS DE TRAITEMENT CLASSIFICATOIRE DES DONNEES
Les objectifs de traitement, après lemmatisation préalable, sont le traitement des variables sur le principe de 4 modèles + 1:
modèle m1 d'après les transcriptions phonétiques et leur analyse phonologique;
modèle m2 d'analyse morphologique :se me lo balha;
modèle m3 d'analyse syntaxique, énonciative,
modèle m4 analyse prosodique couplé au module m3; +1 modélisation du lexique (en distinguant lexique phonétique de lexique graphique).

TRAITEMENT DE LA VARIATION
Le dispositif de traitement variationniste de la base de textes repose sur leur traitement préalable dans un dispositif tel que HYPERBASE, STABLEX, et préalablement DRAWCARTE, couplé à des outils classiques d'analyse des segments répétés:HEPERBASE de Brunet; TACT et SATO; ALCESTE (Max Reinert, Image), STABLEX d'André Camlong; vous trouverez sur site le prototype de traitemet d'une base de textes graphiques transcrits en mode API pour 100 localités (intitulé MASSAT).
Compte tenu du fait que la variation majeure et mineure est traitée par l'analyse des matériaux d'atlas linguistiques, on retient le principe de la comparaison de bilans faisant apparaître une différence ans le cadre de l'analyse de la densité des phénomènes décrits en logique de traitement de corpus; l'objectif esstentiel est ici dans l'analyse énnonciative (dimension syntaxique, dipension sémantique, dimension prosodique).
Le traitement de dictionnaires de prononciation occitans à contextes localisés n'est qu'un des cas de figure de l'opération de traitement de textes dialectaux, dans une optique géolinguistique, linguistique.On accorde priorité aux textes majeurs, en sélectionnant les 40 meilleurs contextes établis par chaque chercheur inventeur d'une documentation sonore sous forme non de MOTS mais de textes: Besche-Commenge Bruno ( 40 fragments de Jan-Pau: 40 fragments occitans de marcel; 40 fragments de FM chez Marcel); on appelle fragment un ensemble (catégorie, classe) sélectionné de quelque 2,5 minutes environ au maximum; D. Decomps (les 40 meilleurs fragments d'occitan limousin); n'allez pas croire que nous sélectionnons ces textes dans une perspective productiviste de concours, parce que telle institution prestigieuse inspecte et moucharde nos sites, et s'approprie au besoin nos corpus électroniques; ils sont là pour cela; pour que tout utilisateur puisse s'en saisir et travailler, notamment dans l'optique ici définie, qui est une optique variationniste.
TYPOLOGIE DES SOURCES.
En principe nous traitons deux types de sources: sources dialectales romanes (l'occitan n'étant qu'un cas de figure): textes de l'Espagne du Nord, textes romans d'Amérique latine, centrale; textes occitans; et pour la France, textes méridionaux dits de FM qui sont susceptibles de concerner les opérations du PFC.

Haut

Page 1 sur 1

[ 1 message ]

Index du forum » CLID » base de textes

Le fuseau horaire est UTC+1 heure

Qui est en ligne ?

Utilisateur(s) parcourant ce forum : Aucun utilisateur inscrit et 1 invité

Vous ne pouvez pas publier de nouveaux sujets dans ce forum
Vous ne pouvez pas répondre aux sujets dans ce forum
Vous ne pouvez pas éditer vos messages dans ce forum
Vous ne pouvez pas supprimer vos messages dans ce forum
Vous pouvez insérer des pièces jointes dans ce forum