Axe 2 – Représentation, enrichissement et interrogation des données et métadonnées

Les travaux réalisés dans le cadre de l’axe 2 concernent avant tout la manière dont les données issues de l’acquisition, par exemple des données textuelles issues d’un effort de transcription manuelle ou automatisée, peuvent être représentées, pour permettre leur pérennisation, leur enrichissement, leur exploitation et leur exploration. Ces travaux nous amènent ainsi en particulier à interroger l’expressivité des modèles de représentation de l’information (modèles disponibles ou à élaborer, adossés en particulier à la nébuleuse XML et aux travaux relatifs à l’ingénierie des connaissances en lien avec le web sémantique), en considérant non seulement la nécessité d’encoder l’information matériellement présente dans les données acquises, mais aussi l’information résultant de l’enrichissement des données lors de processus d’annotation manuelle ou automatisée visant à les interpréter. Les travaux réalisés sur cet axe nous conduisent également à explorer le processus d’enrichissement des données en lui-même, processus d’annotation et de production de méta-données, en mettant en particulier l’accent sur la question de l’évaluation de la qualité des données produites, à travers notamment la question de la mesure d’accord inter-annotateurs. Enfin, cet axe fédère nos travaux relatifs à l’exploitation des données et des données enrichies à travers la question de l’interrogation des données, c’est-à-dire, en particulier, la question de l’identification, du repérage, au sein des données et métadonnées, de configurations, d’occurrences, de phénomènes vérifiant certaines propriétés particulières pouvant être spécifiées selon différents formalismes et langages de requête. Cette interrogation des données, à l’occasion de laquelle on cherche des occurrences de phénomènes répondant à des contraintes préalablement identifiées, doit être distinguée de la découverte de connaissances nouvelles au programme de l’axe 3.

Un exemple : le projet PLAO (Poste de Lecture Assistée par Ordinateur)

Le PLAO, qui concerne en réalité les quatre axes, est particulièrement nourri par l’axe 2. Ce projet vise à mettre en place de nouvelles façons d’accéder aux données, notamment textuelles, de les interroger, de les enrichir, de les voir et les faire voir en combinant des façons de travailler, des outils logiciels spécifiques et des matériels adaptés. Ce projet transversal doit être aussi l’occasion de mettre en évidence le cheminement et l’abstraction progressive menant des sources initiales aux connaissances extraites et produites, en multipliant les vues sur les données étudiées et les moyens de les interroger.

Le travail, entré dans une nouvelle phase en 2016, visant à permettre la lecture rapide des textes scientifiques en accédant à une représentation graphique des raisonnements qu’ils établissent, travail appliqué notamment à l’annotation des systèmes d’inférence et de représentation des raisonnements en archéologie, constitue une avancée significative dans le sens de la mise en place d’un tel poste de lecture assistée. La mise en place d’environnements d’annotation pour l’enrichissement des données textuelles, et par exemple leur expérimentation en cours en partenariat avec des psychologues et linguistes sur un corpus de transcriptions d’entretiens relatifs à l’apprentissage olfactif au sein duquel doivent être mises en évidences, annotées et explorées, les stratégies de désignation élaborées par des enfants lors de ces entretiens, contribuent également à cette refonte des dispositifs de lecture et de manipulation des données.