Accélérer l’AUTOMAtisation de l’annotation TExtuelle de haut niveau pour la génération et l’exploitation des mégaDonnées enrichies
RIN Projet émergent


Dates : décembre 2023 – novembre 2025
Porteur : Professeur Pierre Larrivée, CRISCO
L’objectif du projet a été de développer un protocole d’adaptation des outils d’analyse syntaxique (parsing) pour le traitement de corpus en diachronie longue et de le tester pour l’annotation des données d’intérêt patrimonial.
Dans le cadre du projet AUTOMATED, une procédure pour l’analyse syntaxique automatique, la correction des sorties du parsing automatique et le réentraînement de modèles en utilisant les outils existants librement disponibles a été élaboré. Un document détaillant un protocole adapté aux besoins des chercheurs en langues romanes a été mis à disposition de la communauté. Il s’agit d’un guide pratique pour les utilisateurs qui peut être appliqué sans compétences en informatique.
Romanova, N., Larrivée, P., & Ziane, R. (2025). Procedure for semi-automatic parsing of Romance corpora (Version 1). Zenodo. https://doi.org/10.5281/zenodo.17737727
En outre, une version abrégée du protocole, accompagnée d’une introduction au formalisme d’annotation Universal Dependencies et un exercice pratique pour le parsing d’un texte en français, a été testée en 2024 et en 2025 auprès des étudiants de M1 en Sciences du Langage à l’université de Caen.
Romanova, N., Larrivée, P., & Ziane, R. (2025, novembre 27). Introduction au parsing syntaxique automatique. Zenodo. https://doi.org/10.5281/zenodo.17728962
Le protocole a été mis en pratique lors de la constitution de deux collections de textes annotées syntaxiquement qui sont utilisables (1) pour la recherche en linguistique diachronique et (2) pour l’entraînement de modèles d’annotation syntaxique automatiques.
Il s’agit, premièrement, d’une collection de textes juridique normands (du quatorzième au seizième siècle) et, deuxièmement, d’un corpus de textes juridiques en ancien gascon (du treizième au quinzième siècle).
Les données sont consultables en ligne via la plateforme GrewMatch et les fichiers sont téléchargeables sur les dépôts GitHub du projet.
Le corpus AUTOMATED (textes juridiques normands) :
ALTM (Automated Legal Texts Medieval) Old French
Données : https://github.com/UniversalDependencies/UD_Middle_French-ALTM
ALTM (Automated Legal Texts Medieval) Middle French
Données : https://github.com/UniversalDependencies/UD_Old_French-ALTM
ALTS (Automated Legal Text Sixteenth Century)
Données : https://github.com/UniversalDependencies/UD_French-ALTS
Le corpus CorAG : Corpus d’ancien gascon (textes juridiques gascons) :
https://universal.grew.fr/?corpus=UD_Old_Occitan-CorAG@2.17
Données : https://github.com/UniversalDependencies/UD_Old_Occitan-CorAG
Un portail de parsing syntaxique facile à utiliser avec des modèles préentraînés pour le français en diachronie et le gascon ancien, élaboré dans le cadre du projet AUTOMATED en collaboration avec l’équipe ArboratorGrew à l’Inria Nancy va être disponible prochainement.
Projets antérieurs portés par Professeur Larrivée au CRISCO
Les corpus produits dans le cadre de ces trois projets sont déposés sur le portail TXM du CRISCO.
Les corpus MICLE-French et Chroniques (High-TECH) sont aussi consultables via le site des Corpus Diachroniques du CRISCO.

Pierre LARRIVÉE
Porteur du projet (12/2023-11/2025)
Doctorat (Université Laval, 1998), Habilitation (Strasbourg, 2001).
Avant de venir à Caen en 2011, Professeur Pierre Larrivée a travaillé à Birmingham (Aston University, 1998-2011). Ses recherches actuelles sont centrées sur l’établissement des déterminants contextuels du changement grammatique.

Natasha Romanova
Ingénieure de recherche (06/2024-11/2025)
Doctorat (University College London, 2007)
Au CRISCO, Natasha Romanova a été coordinatrice du projet ANR franco-allemand
MICLE en 2021-2024. Avant elle a travaillé au King’s Digital Lab à Londres, à l’université de Liverpool et à l’université d’Aberystwyth.
Actuellement, Natasha Romanova est ingénieure de recherche dans le projet VOLI au CRISCO.
Rayan Ziane
Ingénieur d’études (12/2023-10/2024)
Après un M2 en Sciences du Langage et TAL à Orléans, Rayan Ziane a rejoint le CRISCO en 2021 en tant qu’ingénieur d’études sur le projet RIN High-TECH où il a développé la chaîne de traitement pour la lemmatisation et l’annotation en PoS des corpus en français en diachronie HT-CRISCO et le site de consultation des corpus diachroniques du CRISCO
En novembre 2024, Rayan Ziane commence une thèse en Linguistique à l’université d’Orléans.
Khensa DAOUDI
Ingénieure d’études (02/2025-08/2025)
Titulaire d’un Master de recherche en systèmes d’information et technologie, Khensa a rejoint le projet AUTOMATED en février 2025 après avoir travaillé sur le développement de l’outil d’annotation syntaxique ArboratorGrew à l’Inria de Nancy dans le cadre du projet ANR Autogramm entre octobre 2023 et janvier 2025.
En octobre 2025, Khensa a commencé une thèse en Traitement Automatique des Langues (TAL) à l’École des Mines de Saint-Étienne.
Stagiaires
2024 – Élisa Gouzonnat, Maxence Multin (évaluation des outils de parsing syntaxique)
202 5 – Théo Brillet (annotation syntaxique des textes normands du corpus AUTOMATED)
16-17 octobre 2025, Paris – N. Romanova, R. Ziane & B. Francioni. « Adaptation of models for parsing of Old Gascon » (poster). Lift2-2025 : Journées scientifiques du réseau thématique LIFT2 – linguistique informatique, formelle et de terrain, GDR LIFT. | Lire l’article dans les actes
13 septembre 2025, Varna, Bulgarie – K. Daoudi, M. Dehouck, R. Ziane & N. Romanova. « Explicit Edge Length Coding to Improve Long Sentence Parsing Performance. » (poster) First Workshop on Advancing NLP for Low-Resource Languages. | Lire l’article dans les actes
27 mai 2025, en ligne – B. Francioni, N. Romanova & R. Ziane « First steps towards building a treebank of Old Gascon. » Data in Historical Linguistics Seminar, King’s College London. | Consulter le résumé
14-15 novembre 2024, Orléans – R. Ziane & N. Romanova. « Pistes pour l’optimisation de modèles de parsing syntaxique. » LIFT 2 – 2024 : Journées de lancement. | Lire l’article dans les actes
7-8 novembre 2024, Lyon – N. Romanova & R. Ziane « Quelques pistes pour surmonter les contraintes pour l’annotation syntaxique de corpus en diachronie longue ». ConCorDiaL : Constitution de Corpus en Diachronie Longue. | Consulter le livret de résumés
26 septembre 2024, Caen – E. Gouzonnat, M. Multin, N. Romanova & R. Ziane « L’intelligence artificielle pour l’analyse syntaxique: évaluation et adaptation de modèles ». Séminaire du CRISCO. | Consulter le résumé
9-11 septembre 2024, Paris – N. Romanova & R. Ziane « (Vers) l’adaptation des modèles à des données hors du domaine d’entrainement pour l’analyse syntaxique du français en diachronie: Exemple du français des îles Anglo-Normandes du 16ème siècle ». WS12 : Traitement automatique du langage et analyse de la variation. Colloque LLcD : Langue et Langage à la Croisée des Disciplines.
4 avril 2024, Paris – R. Ziane & N. Romanova « Le français en diachronie comme langue peu dotée ». Séminaire du projet Autogramm.
