AUTOMATED

Accélérer l’AUTOMAtisation de l’annotation TExtuelle de haut niveau pour la génération et l’exploitation des mégaDonnées enrichies

RIN Projet émergent

Logo Région Normandie

Dates : décembre 2023 – novembre 2025

Porteur : Professeur Pierre Larrivée, CRISCO

L’objectif du projet a été de développer un protocole d’adaptation des outils d’analyse syntaxique (parsing) pour le traitement de corpus en diachronie longue et de le tester pour l’annotation des données d’intérêt patrimonial.

Dans le cadre du projet AUTOMATED, une procédure pour l’analyse syntaxique automatique, la correction des sorties du parsing automatique et le réentraînement de modèles en utilisant les outils existants librement disponibles a été élaboré. Un document détaillant un protocole adapté aux besoins des chercheurs en langues romanes a été mis à disposition de la communauté. Il s’agit d’un guide pratique pour les utilisateurs qui peut être appliqué sans compétences en informatique.

Romanova, N., Larrivée, P., & Ziane, R. (2025). Procedure for semi-automatic parsing of Romance corpora (Version 1). Zenodo. https://doi.org/10.5281/zenodo.17737727

En outre, une version abrégée du protocole, accompagnée d’une introduction au formalisme d’annotation Universal Dependencies et un exercice pratique pour le parsing d’un texte en français, a été testée en 2024 et en 2025 auprès des étudiants de M1 en Sciences du Langage à l’université de Caen.

Romanova, N., Larrivée, P., & Ziane, R. (2025, novembre 27). Introduction au parsing syntaxique automatique. Zenodo. https://doi.org/10.5281/zenodo.17728962

Le protocole a été mis en pratique lors de la constitution de deux collections de textes annotées syntaxiquement qui sont utilisables (1) pour la recherche en linguistique diachronique et (2) pour l’entraînement de modèles d’annotation syntaxique automatiques.

Il s’agit, premièrement, d’une collection de textes juridique normands (du quatorzième au seizième siècle) et, deuxièmement, d’un corpus de textes juridiques en ancien gascon (du treizième au quinzième siècle).

Les données sont consultables en ligne via la plateforme GrewMatch et les fichiers sont téléchargeables sur les dépôts GitHub du projet.

Le corpus AUTOMATED (textes juridiques normands) :

ALTM (Automated Legal Texts Medieval) Old French
Données : https://github.com/UniversalDependencies/UD_Middle_French-ALTM 

ALTM (Automated Legal Texts Medieval) Middle French
Données : https://github.com/UniversalDependencies/UD_Old_French-ALTM 

ALTS (Automated Legal Text Sixteenth Century)
Données : https://github.com/UniversalDependencies/UD_French-ALTS

Le corpus CorAG : Corpus d’ancien gascon (textes juridiques gascons) :

https://universal.grew.fr/?corpus=UD_Old_Occitan-CorAG@2.17
Données : https://github.com/UniversalDependencies/UD_Old_Occitan-CorAG

Un portail de parsing syntaxique facile à utiliser avec des modèles préentraînés pour le français en diachronie et le gascon ancien, élaboré dans le cadre du projet AUTOMATED en collaboration avec l’équipe ArboratorGrew à l’Inria Nancy va être disponible prochainement.

Projets antérieurs portés par Professeur Larrivée au CRISCO

Les corpus produits dans le cadre de ces trois projets sont déposés sur le portail TXM du CRISCO.

Les corpus MICLE-French et Chroniques (High-TECH) sont aussi consultables via le site des Corpus Diachroniques du CRISCO.

Pierre Larrivée

Pierre LARRIVÉE

Porteur du projet (12/2023-11/2025)

Doctorat (Université Laval, 1998), Habilitation (Strasbourg, 2001).

Avant de venir à Caen en 2011, Professeur Pierre Larrivée a travaillé à Birmingham (Aston University, 1998-2011). Ses recherches actuelles sont centrées sur l’établissement des déterminants contextuels du changement grammatique.

Plus d’information et liste de publications

Natalia Romanova
Natalia Romanova

Natasha Romanova

Ingénieure de recherche (06/2024-11/2025)

Doctorat (University College London, 2007)

Au CRISCO, Natasha Romanova a été coordinatrice du projet ANR franco-allemand

MICLE en 2021-2024. Avant elle a travaillé au King’s Digital Lab à Londres, à l’université de Liverpool et à l’université d’Aberystwyth.

Actuellement, Natasha Romanova est ingénieure de recherche dans le projet VOLI au CRISCO.

Plus d’information

Rayan Ziane

Ingénieur d’études (12/2023-10/2024)

Après un M2 en Sciences du Langage et TAL à Orléans, Rayan Ziane a rejoint le CRISCO en 2021 en tant qu’ingénieur d’études sur le projet RIN High-TECH où il a développé la chaîne de traitement pour la lemmatisation et l’annotation en PoS des corpus en français en diachronie HT-CRISCO et le site de consultation des corpus diachroniques du CRISCO

En novembre 2024, Rayan Ziane commence une thèse en Linguistique à l’université d’Orléans.

Plus d’information

Khensa DAOUDI

Ingénieure d’études (02/2025-08/2025)

Titulaire d’un Master de recherche en systèmes d’information et technologie, Khensa a rejoint le projet AUTOMATED en février 2025 après avoir travaillé sur le développement de l’outil d’annotation syntaxique ArboratorGrew à l’Inria de Nancy dans le cadre du projet ANR Autogramm entre octobre 2023 et janvier 2025.

En octobre 2025, Khensa a commencé une thèse en Traitement Automatique des Langues (TAL) à l’École des Mines de Saint-Étienne.

Stagiaires

2024 – Élisa Gouzonnat, Maxence Multin (évaluation des outils de parsing syntaxique)

202 5 – Théo Brillet (annotation syntaxique des textes normands du corpus AUTOMATED)

16-17 octobre 2025, Paris – N. Romanova, R. Ziane & B. Francioni. « Adaptation of models for parsing of Old Gascon » (poster). Lift2-2025 : Journées scientifiques du réseau thématique LIFT2 – linguistique informatique, formelle et de terrain, GDR LIFT. | Lire l’article dans les actes

13 septembre 2025, Varna, Bulgarie – K. Daoudi, M. Dehouck, R. Ziane & N. Romanova. « Explicit Edge Length Coding to Improve Long Sentence Parsing Performance. » (poster) First Workshop on Advancing NLP for Low-Resource Languages. | Lire l’article dans les actes

27 mai 2025, en ligne – B. Francioni, N. Romanova & R. Ziane « First steps towards building a treebank of Old Gascon. » Data in Historical Linguistics Seminar, King’s College London. | Consulter le résumé

14-15 novembre 2024, Orléans – R. Ziane & N. Romanova. « Pistes pour l’optimisation de modèles de parsing syntaxique. » LIFT 2 – 2024 : Journées de lancement. | Lire l’article dans les actes

7-8 novembre 2024, Lyon – N. Romanova & R. Ziane « Quelques pistes pour surmonter les contraintes pour l’annotation syntaxique de corpus en diachronie longue ». ConCorDiaL : Constitution de Corpus en Diachronie Longue. | Consulter le livret de résumés

26 septembre 2024, Caen – E. Gouzonnat, M. Multin, N. Romanova & R. Ziane « L’intelligence artificielle pour l’analyse syntaxique: évaluation et adaptation de modèles ». Séminaire du CRISCO. | Consulter le résumé

9-11 septembre 2024, Paris – N. Romanova & R. Ziane « (Vers) l’adaptation des modèles à des données hors du domaine d’entrainement pour l’analyse syntaxique du français en diachronie: Exemple du français des îles Anglo-Normandes du 16ème siècle ». WS12 : Traitement automatique du langage et analyse de la variation. Colloque LLcD : Langue et Langage à la Croisée des Disciplines.

4 avril 2024, Paris – R. Ziane & N. Romanova « Le français en diachronie comme langue peu dotée ». Séminaire du projet Autogramm.