| RESSOURCES LINGUISTIQUES POUR LE FINNOIS |
| Projet Unitex |
|
|
- Responsable du projet : Richard Renault (maître de
conférences, CRISCO, Université de Caen)
- Participants : Marie Calberg (doctorante, Université de
Paris 7), Outi Duvallon, INALCO, Vincent Guillard (Informaticien stagiaire, Université de
Caen)
|
Unitex est un logiciel d'analyse de
corpus linguistiques qui intègre
des dictionnaires électroniques et différents composants nécessaires à
l'analyse morphologique et syntaxique des textes du corpus.
On trouvera une présentation complète d'UNITEX sur la page d'accueil du
logicielà l'institut Gaspard Monge de l'université de Marne-la-Vallée :
unitex home page.
Ce logiciel, libre et gratuit sous licence GPL, est disponible ici : unitex download area.
L'intégration du finnois dans les ressources d'UNITEX est en cours de
développement. La première étape du projet est l'élaboration d'un
dictionnaire des formes fléchies pour l'analyse morphologique. Le
découpage des mots finnois en morphèmes prend en compte l'ensemble des
différents paradigmes de suffixes (nombre, cas, personne et
particule(s) pour les noms et adjectifs ; voix, temps/mode, personne et
particule(s) pour les verbes conjugués).
Les ressources linguistiques finnoises pour UNITEX se composent :
- d'un dictionnaire électronique de mots simples (*)
- d'un dictionnaire électronique de mots fléchis
- d'un dictionnaire électronique de mots invariables
- d'un alphabet
- de graphes de flexion (*)
- de graphes de prétraitement
- d'un corpus de textes
Les fichiers marqués (*) ne sont pas nécessaires au fonctionnement de
la version de démonstration.
L'ensemble des ressources est rassemblé dans un fichier (Finnish.zip)
qu'il convient de décompresser dans le répertoire de travail du
logiciel.
Dictionnaire de mots simples
Le DELAS_sanasto
(échantillon
: 100 premiers mots)
est un dictionnaire catégorisé dont les entrées sont des mots non
fléchis accompagnés d'informations codées, qui sont principalement : 1)
la catégorie grammaticale, 2) la classe lexicale (modèle de flexion),
3) la nature vocalique du mot, et 4) son degré consonantique. Chacune
de ces informations est nécessaire pour générer le dictionnaire des
mots fléchis (DELAF_sanasto).
Exemple : katu,N01ARS (katu 'rue' est un nom (N) de la première
classe (01) avec voyelle d'arrière (AR) et ayant une consonne au degré
fort (S).
- La version de démonstration proposée (pien_DELAS_sanasto.dic) est
limitée aux mots du texte de référence (julistus.txt).
- Le fichier DIKO_N01.zip contient l'ensemble des noms de la première
classe lexicale (N01 = 1469 entrées).
Dictionnaire de mots fléchis
Le DELAF_sanasto
(échantillon
: 100 premiers mots)
est un dictionnaire de formes fléchies généréesà partir du
DELAS_sanasto au moyen de graphes de flexion.
Exemple d'entrée du dictionnaire fléchi :
taskuissanikin,tasku.N+PL+INES+POSS1SG+PTC1
(la forme fléchie (taskuissanikin 'dans mes poches également'
est suivie de la base lexicale (tasku), de sa catégorie grammaticale
(.N) et de 4 suffixes flexionnels (nombre, cas, personne et particule).
- La version de démonstration proposée (pien_DELAF_sanasto.dic) est
limitée aux mots du texte de référence (julistus.txt).
- Le fichier DIKO_N01flx.zip contient l'ensemble des noms fléchis de la
première classe lexicale (N01 = 247 005 entrées).
Tous les mots fléchis de ce fichier correspondent à la structure :
N+nombre+cas+(personne). Les particules ne sont pas prises en compte.
Dictionnaire de mots invariables
Le dictionnaire DELA_SUOMI_INV_sanasto contient tous les mots
invariables (adverbes, conjonctions, adpositions...). Seule la
catégorie grammaticale est fournie.
Exemple d'entrée du dictionnaire des mots invariables : ja,.CRD
(CRD = conjonction de coordination).
Environ 8000 entrées.
Graphes de flexion
Les graphes de flexion permettent de générer le dictionnaire des formes
fléchies. Pour chacune des catégories et classes lexicales du
DELAS_sanasto
un graphe décrit les différents paradigmes de morphèmes flexionnels
ainsi que les différentes séquences de morphèmes. Le finnois compte 82
modèles de déclinaison des noms et 45 modèles de conjugaison des
verbes.
Afin de tenir compte des particularités phonologiques du finnois, les
graphes de flexion sont doublés pour l'harmonie vocalique (un graphe
pour les bases lexicales avec voyelles d'avant et un autre, pour les
bases avec voyelles d'arrière) et scindés en deux sous-graphes pour les
bases lexicales soumisesà l'alternance consonantique.
Pour chaque classe lexicale (modèle de déclinaison ou de conjugaison)
on a ainsi 6 graphes :
| graphes des noms de la première classe (N01) : |
 |
- N01AR : union des graphes N01ARS et N01ARW
- N01AV : union des graphes N01AVS et N01AVW
- N01ARS : graphe des noms de la classe 01 ayant des voyelles
harmonisantes d'arrière et une forme fléchie avec un degré
consonantique fort.
ex: katua (partitif), katu 'rue'
- N01ARW : graphe des noms de la classe 01 ayant des voyelles
harmonisantes d'arrière et une forme fléchie avec un degré
consonantique faible.
ex: kadun (génitif), katu 'rue'
- N01AVS : graphe des noms de la classe 01 ayant des voyelles
harmonisantes d'avant et une forme fléchie avec un degré consonantique
fort.
ex: pöytää (partitif), pöytä 'table'
- N01AVW : graphe des noms de la classe 01 ayant des voyelles
harmonisantes d'avant et une forme fléchie avec un degré consonantique
faible.
ex: pöydän (génitif), pöytä 'table'
Exemple de graphe simple : les
suffixes de personne des verbes au prétérit ou au conditionnel.
Graphes de prétraitement
Le graphe de normalisation des textes replace.grf traite les amalgames
du type conjonction + négation fléchie (ettei, ellei..) en
remplaçant la forme amalgamée par son équivalent ou son correspondant
sans amalgame (että ei, jos ei...).
Alphabet
Le fichier alphabet.txt contient les lettres majuscules et minuscules
du finnois nécessaires au fonctionnement du logiciel.
Le fichier alphabet_sort.txt permet de définir l'ordre des mots lors
des opérations de tri.
Selon le cas, les lettres accentuées sont considérées comme distinctes
ou équivalentes des lettres non accentuées.
En finnois, 'a' et 'ä' sont des lettres distinctes ('a' est la première
lettre de l'alphabet alors que 'ä' est l'avant-dernière. Les consonnes
's' et '¨'
sont équivalentes pour le tri alphabétique ; elles se suivent dans
l'ordre alphabétique et la recherche de l'une inclut l'autre.
Corpus de textes
Le premier texte proposé en exemple est la déclaration universelle des
droits de l'homme (10 premiers articles). Le fichier julistus.zip
contient le texte de la déclaration (julistus.txt) et sa traduction en
français (traduction_julistus.txt).
Tous les fichiers utilisés par UNITEX sont au format unicode
(il convient de tenir compte de cet encodage lors de l'ouverture de ces
fichiers par d'autres programmes (éditeurs de texte notamment).
|
| Autres documents |
Présentation du processus d'harmonie
vocalique du finnoisà partir de la
suffixation d'un morphème de cas locatif (Richard Renault).
Description de la conjugaison du finnois : phonologie des formes
verbales, négation et suffixes flexionnels.
6 modèles complets de conjugaison : sanoa, juoda, tulla, avata,
valita et paeta (Richard Renault).
|
| Liens |
|
|
| Références |
- Karlsson, Fred, 1982, Suomen kielen äänne- ja
muotorakenne, WSOY, Helsinki.
- Laaksonen, Kaino & Lieko, Anneli, 1988, Kielen
äänne- ja muoto-oppi, Oy Finn Lectura Ab, Helsinki.
- Remes, Hannu. 1985, Suomen kielen fonologian ja
taivutusmorfologian perusteet,Joensuun yliopisto.
- Tuomi,Tuomo (ed.), 1972, Suomen kielen
käänteissanakirja, SKS, Hämeenlinna.
|