RESSOURCES LINGUISTIQUES POUR LE FINNOIS
Projet Unitex
 téléchargement 
  • Responsable du projet : Richard Renault (maître de conférences, CRISCO, Université de Caen)
  • Participants : Marie Calberg (doctorante, Université de Paris 7), Outi Duvallon, INALCO, Vincent Guillard (Informaticien stagiaire, Université de Caen)
Unitex est un logiciel d'analyse de corpus linguistiques qui intègre des dictionnaires électroniques et différents composants nécessaires à l'analyse morphologique et syntaxique des textes du corpus. On trouvera une présentation complète d'UNITEX sur la page d'accueil du logicielà l'institut Gaspard Monge de l'université de Marne-la-Vallée : unitex home page. Ce logiciel, libre et gratuit sous licence GPL, est disponible ici : unitex download area.

L'intégration du finnois dans les ressources d'UNITEX est en cours de développement. La première étape du projet est l'élaboration d'un dictionnaire des formes fléchies pour l'analyse morphologique. Le découpage des mots finnois en morphèmes prend en compte l'ensemble des différents paradigmes de suffixes (nombre, cas, personne et particule(s) pour les noms et adjectifs ; voix, temps/mode, personne et particule(s) pour les verbes conjugués).

Les ressources linguistiques finnoises pour UNITEX se composent :
  • d'un dictionnaire électronique de mots simples (*)
  • d'un dictionnaire électronique de mots fléchis
  • d'un dictionnaire électronique de mots invariables
  • d'un alphabet
  • de graphes de flexion (*)
  • de graphes de prétraitement
  • d'un corpus de textes
Les fichiers marqués (*) ne sont pas nécessaires au fonctionnement de la version de démonstration. L'ensemble des ressources est rassemblé dans un fichier (Finnish.zip) qu'il convient de décompresser dans le répertoire de travail du logiciel.
télécharger : Finnish.zip (822 ko)

Dictionnaire de mots simples

Le DELAS_sanasto (échantillon : 100 premiers mots) est un dictionnaire catégorisé dont les entrées sont des mots non fléchis accompagnés d'informations codées, qui sont principalement : 1) la catégorie grammaticale, 2) la classe lexicale (modèle de flexion), 3) la nature vocalique du mot, et 4) son degré consonantique. Chacune de ces informations est nécessaire pour générer le dictionnaire des mots fléchis (DELAF_sanasto).
Exemple : katu,N01ARS (katu 'rue' est un nom (N) de la première classe (01) avec voyelle d'arrière (AR) et ayant une consonne au degré fort (S).
- La version de démonstration proposée (pien_DELAS_sanasto.dic) est limitée aux mots du texte de référence (julistus.txt).
- Le fichier DIKO_N01.zip contient l'ensemble des noms de la première classe lexicale (N01 = 1469 entrées).
télécharger : pien_DELAS_sanasto.zip (3,1 ko)
nouveau DIKO_N01.zip (6,1 ko)

Dictionnaire de mots fléchis

Le DELAF_sanasto (échantillon : 100 premiers mots) est un dictionnaire de formes fléchies généréesà partir du DELAS_sanasto au moyen de graphes de flexion.
Exemple d'entrée du dictionnaire fléchi : taskuissanikin,tasku.N+PL+INES+POSS1SG+PTC1 (la forme fléchie (taskuissanikin 'dans mes poches également' est suivie de la base lexicale (tasku), de sa catégorie grammaticale (.N) et de 4 suffixes flexionnels (nombre, cas, personne et particule).
- La version de démonstration proposée (pien_DELAF_sanasto.dic) est limitée aux mots du texte de référence (julistus.txt).
- Le fichier DIKO_N01flx.zip contient l'ensemble des noms fléchis de la première classe lexicale (N01 = 247 005 entrées). Tous les mots fléchis de ce fichier correspondent à la structure : N+nombre+cas+(personne). Les particules ne sont pas prises en compte.
télécharger : pien_DELAF_sanasto_bin.zip version binaire pour Unitex (807 ko)
pien_DELAF_sanasto.zip (1,3 Mo)
nouveau DIKO_N01flx.zip (1,4 Mo)

Dictionnaire de mots invariables

Le dictionnaire DELA_SUOMI_INV_sanasto contient tous les mots invariables (adverbes, conjonctions, adpositions...). Seule la catégorie grammaticale est fournie. Exemple d'entrée du dictionnaire des mots invariables : ja,.CRD (CRD = conjonction de coordination). Environ 8000 entrées.
télécharger : DELA_SUOMI_INV_bin.zip version binaire pour Unitex (47,7 Ko)
DELA_SUOMI_INV.zip version texte (35,6 Ko)

Graphes de flexion

Les graphes de flexion permettent de générer le dictionnaire des formes fléchies. Pour chacune des catégories et classes lexicales du DELAS_sanasto un graphe décrit les différents paradigmes de morphèmes flexionnels ainsi que les différentes séquences de morphèmes. Le finnois compte 82 modèles de déclinaison des noms et 45 modèles de conjugaison des verbes.
Afin de tenir compte des particularités phonologiques du finnois, les graphes de flexion sont doublés pour l'harmonie vocalique (un graphe pour les bases lexicales avec voyelles d'avant et un autre, pour les bases avec voyelles d'arrière) et scindés en deux sous-graphes pour les bases lexicales soumisesà l'alternance consonantique. Pour chaque classe lexicale (modèle de déclinaison ou de conjugaison) on a ainsi 6 graphes :
graphes des noms de la première classe (N01) :
  • N01AR : union des graphes N01ARS et N01ARW
  • N01AV : union des graphes N01AVS et N01AVW
  • N01ARS : graphe des noms de la classe 01 ayant des voyelles harmonisantes d'arrière et une forme fléchie avec un degré consonantique fort. ex: katua (partitif), katu 'rue'
  • N01ARW : graphe des noms de la classe 01 ayant des voyelles harmonisantes d'arrière et une forme fléchie avec un degré consonantique faible. ex: kadun (génitif), katu 'rue'
  • N01AVS : graphe des noms de la classe 01 ayant des voyelles harmonisantes d'avant et une forme fléchie avec un degré consonantique fort. ex: pöytää (partitif), pöytä 'table'
  • N01AVW : graphe des noms de la classe 01 ayant des voyelles harmonisantes d'avant et une forme fléchie avec un degré consonantique faible. ex: pöydän (génitif), pöytä 'table'
Exemple de graphe simple : les suffixes de personne des verbes au prétérit ou au conditionnel.

Graphes de prétraitement

Le graphe de normalisation des textes replace.grf traite les amalgames du type conjonction + négation fléchie (ettei, ellei..) en remplaçant la forme amalgamée par son équivalent ou son correspondant sans amalgame (että ei, jos ei...).
télécharger : Replace.grf

Alphabet

Le fichier alphabet.txt contient les lettres majuscules et minuscules du finnois nécessaires au fonctionnement du logiciel. Le fichier alphabet_sort.txt permet de définir l'ordre des mots lors des opérations de tri. Selon le cas, les lettres accentuées sont considérées comme distinctes ou équivalentes des lettres non accentuées. En finnois, 'a' et 'ä' sont des lettres distinctes ('a' est la première lettre de l'alphabet alors que 'ä' est l'avant-dernière. Les consonnes 's' et '¨' sont équivalentes pour le tri alphabétique ; elles se suivent dans l'ordre alphabétique et la recherche de l'une inclut l'autre.
télécharger : Alphabet.txt
Alphabet_sort.txt

Corpus de textes

Le premier texte proposé en exemple est la déclaration universelle des droits de l'homme (10 premiers articles). Le fichier julistus.zip contient le texte de la déclaration (julistus.txt) et sa traduction en français (traduction_julistus.txt).
télécharger : julistus.zip


Tous les fichiers utilisés par UNITEX sont au format unicode (il convient de tenir compte de cet encodage lors de l'ouverture de ces fichiers par d'autres programmes (éditeurs de texte notamment).
Autres documents
Présentation du processus d'harmonie vocalique du finnoisà partir de la suffixation d'un morphème de cas locatif (Richard Renault).
télécharger : finnois_harmonie_vocalique.pdf (1 page, 14,2 Ko)

Description de la conjugaison du finnois : phonologie des formes verbales, négation et suffixes flexionnels. 6 modèles complets de conjugaison : sanoa, juoda, tulla, avata, valita et paeta (Richard Renault).
télécharger : finnois_verbes.pdf (8 pages, 115,9 Ko)
finnois_verbes.ps (8 pages, 977,8 Ko)
Liens
Références
  • Karlsson, Fred, 1982, Suomen kielen äänne- ja muotorakenne, WSOY, Helsinki.
  • Laaksonen, Kaino & Lieko, Anneli, 1988, Kielen äänne- ja muoto-oppi, Oy Finn Lectura Ab, Helsinki.
  • Remes, Hannu. 1985, Suomen kielen fonologian ja taivutusmorfologian perusteet,Joensuun yliopisto.
  • Tuomi,Tuomo (ed.), 1972, Suomen kielen käänteissanakirja, SKS, Hämeenlinna.