AUTOMATED

Accélérer l’AUTOMAtisation de l’annotation TExtuelle de haut niveau pour la génération et l’exploitation des mégaDonnées enrichies

RIN Projet émergent

Dates : décembre 2023 – novembre 2025

Porteur : Professeur Pierre Larrivée, CRISCO

L’objectif du projet a été de développer un protocole d’adaptation des outils d’analyse syntaxique (parsing) pour le traitement de corpus en diachronie longue et de le tester pour l’annotation des données d’intérêt patrimonial.

Dans le cadre du projet AUTOMATED, une procédure pour l’analyse syntaxique automatique, la correction des sorties du parsing automatique et le réentraînement de modèles en utilisant les outils existants librement disponibles a été élaboré. Un document détaillant un protocole adapté aux besoins des chercheurs en langues romanes a été mis à disposition de la communauté. Il s’agit d’un guide pratique pour les utilisateurs qui peut être appliqué sans compétences en informatique.

Romanova, N., Larrivée, P., & Ziane, R. (2025). Procedure for semi-automatic parsing of Romance corpora (Version 1). Zenodo. https://doi.org/10.5281/zenodo.17737727

En outre, une version abrégée du protocole, accompagnée d’une introduction au formalisme d’annotation Universal Dependencies et un exercice pratique pour le parsing d’un texte en français, a été testée en 2024 et en 2025 auprès des étudiants de M1 en Sciences du Langage à l’université de Caen.

Romanova, N., Larrivée, P., & Ziane, R. (2025, novembre 27). Introduction au parsing syntaxique automatique. Zenodo. https://doi.org/10.5281/zenodo.17728962

Le protocole a été mis en pratique lors de la constitution de deux collections de textes annotées syntaxiquement qui sont utilisables (1) pour la recherche en linguistique diachronique et (2) pour l’entraînement de modèles d’annotation syntaxique automatiques.

Il s’agit, premièrement, d’une collection de textes juridique normands (du quatorzième au seizième siècle) et, deuxièmement, d’un corpus de textes juridiques en ancien gascon (du treizième au quinzième siècle).

Les données sont consultables en ligne via la plateforme GrewMatch et les fichiers sont téléchargeables sur les dépôts GitHub du projet.

Le corpus AUTOMATED (textes juridiques normands) :

ALTM (Automated Legal Texts Medieval) Old French
Données : https://github.com/UniversalDependencies/UD_Middle_French-ALTM

ALTM (Automated Legal Texts Medieval) Middle French
Données : https://github.com/UniversalDependencies/UD_Old_French-ALTM

ALTS (Automated Legal Text Sixteenth Century)
Données : https://github.com/UniversalDependencies/UD_French-ALTS

Le corpus CorAG : Corpus d’ancien gascon (textes juridiques gascons) :

https://universal.grew.fr/?corpus=UD_Old_Occitan-CorAG@2.17
Données : https://github.com/UniversalDependencies/UD_Old_Occitan-CorAG

Un portail de parsing syntaxique facile à utiliser avec des modèles préentraînés pour le français en diachronie et le gascon ancien, élaboré dans le cadre du projet AUTOMATED en collaboration avec l’équipe ArboratorGrew à l’Inria Nancy va être disponible prochainement.

Projets antérieurs portés par Professeur Larrivée au CRISCO

Les corpus produits dans le cadre de ces trois projets sont déposés sur le portail TXM du CRISCO.

Les corpus MICLE-French et Chroniques (High-TECH) sont aussi consultables via le site des Corpus Diachroniques du CRISCO.

Pierre LARRIVÉE

Porteur du projet (12/2023-11/2025)

Doctorat (Université Laval, 1998), Habilitation (Strasbourg, 2001).

Avant de venir à Caen en 2011, Professeur Pierre Larrivée a travaillé à Birmingham (Aston University, 1998-2011). Ses recherches actuelles sont centrées sur l’établissement des déterminants contextuels du changement grammatique.

Plus d’information et liste de publications

Natasha Romanova

Ingénieure de recherche (06/2024-11/2025)

Doctorat (University College London, 2007)

Au CRISCO, Natasha Romanova a été coordinatrice du projet ANR franco-allemand

MICLE en 2021-2024. Avant elle a travaillé au King’s Digital Lab à Londres, à l’université de Liverpool et à l’université d’Aberystwyth.

Actuellement, Natasha Romanova est ingénieure de recherche dans le projet VOLI au CRISCO.

Plus d’information

Rayan Ziane

Ingénieur d’études (12/2023-10/2024)

Après un M2 en Sciences du Langage et TAL à Orléans, Rayan Ziane a rejoint le CRISCO en 2021 en tant qu’ingénieur d’études sur le projet RIN High-TECH où il a développé la chaîne de traitement pour la lemmatisation et l’annotation en PoS des corpus en français en diachronie HT-CRISCO et le site de consultation des corpus diachroniques du CRISCO

En novembre 2024, Rayan Ziane commence une thèse en Linguistique à l’université d’Orléans.

Plus d’information

Khensa DAOUDI

Ingénieure d’études (02/2025-08/2025)

Titulaire d’un Master de recherche en systèmes d’information et technologie, Khensa a rejoint le projet AUTOMATED en février 2025 après avoir travaillé sur le développement de l’outil d’annotation syntaxique ArboratorGrew à l’Inria de Nancy dans le cadre du projet ANR Autogramm entre octobre 2023 et janvier 2025.

En octobre 2025, Khensa a commencé une thèse en Traitement Automatique des Langues (TAL) à l’École des Mines de Saint-Étienne.

Stagiaires

2024 – Élisa Gouzonnat, Maxence Multin (évaluation des outils de parsing syntaxique)

202 5 – Théo Brillet (annotation syntaxique des textes normands du corpus AUTOMATED)

16-17 octobre 2025, Paris – N. Romanova, R. Ziane & B. Francioni. « Adaptation of models for parsing of Old Gascon » (poster). Lift2-2025 : Journées scientifiques du réseau thématique LIFT2 – linguistique informatique, formelle et de terrain, GDR LIFT. | Lire l’article dans les actes

13 septembre 2025, Varna, Bulgarie – K. Daoudi, M. Dehouck, R. Ziane & N. Romanova. « Explicit Edge Length Coding to Improve Long Sentence Parsing Performance. » (poster) First Workshop on Advancing NLP for Low-Resource Languages. | Lire l’article dans les actes

27 mai 2025, en ligne – B. Francioni, N. Romanova & R. Ziane « First steps towards building a treebank of Old Gascon. » Data in Historical Linguistics Seminar, King’s College London. | Consulter le résumé

14-15 novembre 2024, Orléans – R. Ziane & N. Romanova. « Pistes pour l’optimisation de modèles de parsing syntaxique. » LIFT 2 – 2024 : Journées de lancement. | Lire l’article dans les actes

7-8 novembre 2024, Lyon – N. Romanova & R. Ziane « Quelques pistes pour surmonter les contraintes pour l’annotation syntaxique de corpus en diachronie longue ». ConCorDiaL : Constitution de Corpus en Diachronie Longue. | Consulter le livret de résumés

26 septembre 2024, Caen – E. Gouzonnat, M. Multin, N. Romanova & R. Ziane « L’intelligence artificielle pour l’analyse syntaxique: évaluation et adaptation de modèles ». Séminaire du CRISCO. | Consulter le résumé

9-11 septembre 2024, Paris – N. Romanova & R. Ziane « (Vers) l’adaptation des modèles à des données hors du domaine d’entrainement pour l’analyse syntaxique du français en diachronie: Exemple du français des îles Anglo-Normandes du 16ème siècle ». WS12 : Traitement automatique du langage et analyse de la variation. Colloque LLcD : Langue et Langage à la Croisée des Disciplines.

4 avril 2024, Paris – R. Ziane & N. Romanova « Le français en diachronie comme langue peu dotée ». Séminaire du projet Autogramm.

Cookie	Type	Durée	Description
__Secure-YEC	tiers	13 mois	Le cookie « __Secure-YEC » est utilisé pour détecter les spams, les fraudes et les abus afin de garantir que les annonceurs ne soient pas facturés à tort pour des impressions ou des interactions frauduleuses ou invalides avec les publicités, et que les créateurs YouTube participant au programme Partenaire YouTube soient rémunérés de manière équitable.
_pk_id.*	persistant	1 an 27 jours	Utilisé par Matomo pour stocker des informations sur l’utilisateur, telles que l’identifiant unique du visiteur.
_pk_ref*	persitant	6 mois	Utilisé par Matomo pour stocker les informations d’attribution, le référent initialement utilisé pour visiter le site Web.
_pk_ses.*	session	30 minutes	Cookies de courte durée utilisés par Matomo pour stocker temporairement les données de la visite.
_pk_testcookie_domain	session	moins d'une minute	Utilisé par Matomo pour vérifier si le navigateur du visiteur prend en charge les cookies.
affluenceswebapi_ga	tiers	session	Les widgets web (webAPI) ont pour objectif de diffuser les informations d'affluence (taux d'occupation, horaires, temps d'attente) sur des sites web tiers. Un tag Google Analytics est intégré à cette webAPI afin de mesurer le nombre de consultations des outils pour assurer leur bon fonctionnement et pertinence. - Aucune donnée personnelle n'est traitée, consultée ou stockée via l'utilisation des webAPIs et du tag Google Analytics - Les adresses IP des utilisateurs sont anonymisées afin de garantir leur confidentialité
affluenceswebapi_ga_0DZGM777JP	tiers	session	Les widgets web (webAPI) ont pour objectif de diffuser les informations d'affluence (taux d'occupation, horaires, temps d'attente) sur des sites web tiers. Un tag Google Analytics est intégré à cette webAPI afin de mesurer le nombre de consultations des outils pour assurer leur bon fonctionnement et pertinence. - Aucune donnée personnelle n'est traitée, consultée ou stockée via l'utilisation des webAPIs et du tag Google Analytics - Les adresses IP des utilisateurs sont anonymisées afin de garantir leur confidentialité
BIGipServer*	session	session	Le cookie BIGipServer* est principalement utilisé pour l'équilibrage de charge. Lorsqu'un utilisateur accède à un site web ou à une application qui utilise des dispositifs F5 BIG-IP, ce cookie aide à diriger les requêtes de l'utilisateur vers le même serveur backend pour la durée de la session. Cela assure la cohérence et la continuité de la session utilisateur.
cli_user_preference	persistant	1 an	Ce cookie est défini par le plugin GDPR Cookie Consent. L'objectif de ce cookie est d'enregistrer si l'utilisateur a donné ou non son consentement à l'utilisation des cookies. Il ne stocke aucune donnée personnelle.
cookielawinfo-checkbox-fonctionnel	persistant	1 an	Le cookie est défini par le consentement du cookie GDPR pour enregistrer le consentement de l'utilisateur pour les cookies dans la catégorie «Fonctionnel».
cookielawinfo-checkbox-necessaire	persistant	1 an	Ce cookie est défini par le plugin GDPR Cookie Consent. Les cookies sont utilisés pour stocker le consentement de l'utilisateur pour les cookies dans la catégorie «Nécessaire».
cookielawinfo-checkbox-publicite	persistant	1 an	Défini par le plugin de consentement aux cookies GDPR, ce cookie est utilisé pour stocker le consentement de l'utilisateur pour les cookies de la catégorie «Publicité».
CookieLawInfoConsent	persistant	1 an	CookieYes définit ce cookie pour enregistrer l'état du bouton par défaut de la catégorie correspondante et le statut du CCPA. Il fonctionne uniquement en coordination avec le cookie principal.
csrftoken	tiers	1 an	Ce cookie est associé à la plate-forme de développement Web Django pour python. Utilisé pour aider à protéger le site Web contre les attaques de falsification de requêtes entre sites.
dmvk	tiers	session	Clé vidéo aléatoire utilisée pour empêcher l’interruption de la vidéo regardée par un utilisateur final lorsqu’il navigue entre les réseaux de différents fournisseurs d’accès Internet.
PHPSESSID	session	session	Ce cookie est natif des applications PHP. Le cookie est utilisé pour stocker et identifier l'identifiant de session unique d'un utilisateur dans le but de gérer la session utilisateur sur le site Web. Le cookie est un cookie de session et est supprimé lorsque toutes les fenêtres du navigateur sont fermées.
pll_language	persistant	1 an	Le cookie pll _language est utilisé par Polylang pour se souvenir de la langue sélectionnée par l'utilisateur lorsqu'il revient sur le site web, et également pour obtenir des informations sur la langue lorsqu'elles ne sont pas disponibles d'une autre manière.
ts	tiers	13 mois	Il s'agit d'un cookie mis en place par Dailymotion. Cookie de segment de trafic utilisé principalement pour le déploiement progressif, une fonctionnalité technique critique qui empêche les pannes de service massives pendant la mise en œuvre de nouveaux développements ou de nouvelles fonctionnalités.
usprivacy	tiers	13 mois	Il s'agit d'un cookie de consentement mis en place par Dailymotion pour stocker la chaîne de consentement CCPA (informations obligatoires sur le fait qu'un utilisateur final est ou n'est pas un consommateur californien et qu'il exerce ou n'exerce pas son droit statutaire).
v1st	tiers	13 mois	Il s’agit de votre identifiant numérique unique sur le Service Dailymotion. Il est utilisé pour délivrer le Service Dailymotion, et, en particulier pour : – la détection et la prévention des fraudes ; – la sécurité du Service Dailymotion ; – le respect des obligations légales (par exemple, l’obligation de réponse aux réquisitions judiciaires en matière d’accès aux vidéos) ; – l’identification de l’âge d’un utilisateur final
viewed_cookie_policy	persistant	1 an	Le cookie est défini par le plugin GDPR Cookie Consent et est utilisé pour stocker si l'utilisateur a consenti ou non à l'utilisation de cookies. Il ne stocke aucune donnée personnelle.
VISITOR_PRIVACY_METADATA	tiers	6 mois	YouTube définit ce cookie pour enregistrer le consentement de l'utilisateur à l'utilisation de cookies pour le domaine actuel.
wordpress_test_cookie	session	session	Ce cookie est utilisé par WordPress pour vérifier si les cookies sont activés dans le navigateur de l’utilisateur.
wp_lang	session	session	Pour enregistrer les paramètres linguistiques.

Cookie	Type	Durée	Description
_42b19	session	session	Il permet de stocker des informations temporaires spécifiques à la session de l'utilisateur, telles que les préférences de navigation, les choix ou les paramètres spécifiques, afin de fournir une expérience utilisateur cohérente et personnalisée. Ce cookie est essentiel pour assurer le bon fonctionnement de certaines fonctionnalités du site web pendant la session active et est supprimé automatiquement lorsque l'utilisateur ferme son navigateur.
activeCollapseAside	session	session	Le cookie activeCollapseAside permet de sauvegarder l'état d'un panneau latéral ou d'une barre latérale.
NEXT_LOCALE	persitant	1 an	Il permet de stocker la langue locale préférée de l'utilisateur et de la récupérer lors de ses visites ultérieures sur le site.
yt-remote-cast-available	tiers	session	Le cookie yt-remote-cast-available est utilisé pour enregistrer les préférences de l'utilisateur concernant la disponibilité de la fonction de diffusion sur son lecteur vidéo YouTube.
yt-remote-cast-installed	tiers	session	Le cookie yt-remote-cast-installed est utilisé pour stocker les préférences de l'utilisateur en matière de lecteur vidéo à l'aide d'une vidéo YouTube intégrée.
yt-remote-connected-devices	tiers	jamais	YouTube définit ce cookie pour stocker les préférences vidéo de l'utilisateur à l'aide de la vidéo YouTube intégrée.
yt-remote-device-id	tiers	jamais	YouTube définit ce cookie pour stocker les préférences vidéo de l'utilisateur à l'aide de la vidéo YouTube intégrée.
yt-remote-fast-check-period	tiers	session	Le cookie yt-remote-fast-check-period est utilisé par YouTube pour enregistrer les préférences de l'utilisateur concernant le lecteur vidéo pour les vidéos YouTube intégrées.
yt-remote-session-app	tiers	session	Le cookie yt-remote-session-app est utilisé par YouTube pour stocker les préférences de l'utilisateur et les informations relatives à l'interface du lecteur vidéo YouTube intégré.
yt-remote-session-name	tiers	session	Le cookie yt-remote-session-name est utilisé par YouTube pour enregistrer les préférences de l'utilisateur concernant le lecteur vidéo à l'aide d'une vidéo YouTube intégrée.
ytidb::LAST_RESULT_ENTRY_KEY	tiers	jamais	Le cookie ytidb::LAST_RESULT_ENTRY_KEY est utilisé par YouTube pour stocker le dernier résultat de recherche sur lequel l'utilisateur a cliqué. Ces informations sont utilisées pour améliorer l'expérience utilisateur en fournissant des résultats de recherche plus pertinents à l'avenir.

Cookie	Type	Durée	Description
__Secure-ROLLOUT_TOKEN	tiers	6 mois	__Secure-ROLLOUT_TOKEN est utilisé par YouTube pour gérer le déploiement progressif de nouvelles fonctionnalités et mises à jour. Ce cookie permet d'affecter les utilisateurs à des groupes de test spécifiques pour des fonctionnalités expérimentales, telles que des modifications de l'interface utilisateur ou du lecteur vidéo. Le préfixe __Secure- indique que le cookie est uniquement transmis via une connexion HTTPS sécurisée, ce qui renforce la sécurité des données.
test_cookie	tiers	15 minutes	Le test_cookie est défini par doubleclick.net et est utilisé pour déterminer si le navigateur de l'utilisateur prend en charge les cookies.
VISITOR_INFO1_LIVE	tiers	5 mois 27 jours	Un cookie mis en place par YouTube pour mesurer la bande passante qui détermine si l'utilisateur obtient la nouvelle ou l'ancienne interface du lecteur.
YSC	tiers	session	Le cookie YSC est mis en place par Youtube et est utilisé pour suivre les vues des vidéos intégrées sur les pages Youtube.
yt.innertube::nextId	tiers	jamais	Ce cookie, défini par YouTube, enregistre un identifiant unique pour stocker des données sur les vidéos de YouTube que l'utilisateur a vues.
yt.innertube::requests	tiers	jamais	Ce cookie, défini par YouTube, enregistre un identifiant unique pour stocker des données sur les vidéos de YouTube que l'utilisateur a vues.