Pôle pluridisciplinaire de la MRSH de Caen
Construction et analyse de corpus en ligne avec la plateforme open-source TXM, Serge Heiden, UMR 5191 ICAR, ENS de Lyon
Résumé : La plateforme TXM a été initiée au cours du projet ANR 2007-2010 « Textométrie ». Elle propose un ensemble de fonctionnalités de recherches textométriques et intègre également des technologies de corpus et de statistique. La plateforme permet de constituer des corpus à partir de fichiers bruts ou balisés en XML TEI. Une fois le corpus, l'utilisateur peut lancer des recherches sur l'intégralité de son corpus ou sur un sous-ensemble. Il est ainsi possible de disposer de rapports de distance entre occurrences ou co-occurrences, de voir les résultats en contexte (KWIC) et à tout moment de revenir au texte avec une mise en surbrillance des résultats de recherche.
L'application est disponible pour Windows, Linux et Mac, mais aussi sous la forme d'un portail web.
Télécharger le support de communication
Liens : http://textometrie.ens-lyon.fr – TXM : Une plateforme logicielle open-source pour la textométrie - conception et développement
Exploration de données textuelles richement structurées et annotées – Application au corpus ProDescartes, Antoine Widlöcher, GREYC, Université de Caen Basse-Normandie
Résumé : le projet Corpus Descartes, projet d'édition en ligne des œuvres et de la correspondance de Descartes, intègre un certain nombre d'outils d'exploration visant à permettre l'exploitation scientifique du corpus cartésien. Parmi eux, un moteur de recherche présentant différents niveaux de fonctionnalités : de la recherche plein texte et à la mise en emphase de constituants de la requête dans la réponse ou encore à son expansion morphologique et multilingue. Ces fonctionnalités, en cours de développement, s'élaborent d'après des contraintes scientifiques fortes (travail sur des langues variées et peu dotées : français classique et latin, silence impossible, etc.) ou relaxées (corpus de taille limitée, évolution des documents lente et encadrée). Une de ces contraintes consiste en l'hétérogénéité de la provenance des données structurées à interroger, fortement réticulées (non strictement arborescentes). La question du mode de représentation de ces données a conduit à l'adoption globale du modèle de graphe (RDF) dont la communication a examiné les principes, les avantages et les limites.
Liens : https://prodescartes.greyc.fr/
BaseX, base de données XML, Maud Ingarao, UMR 5037 IHPC, ENS de Lyon
Résumé : BaseX est un serveur de base de données natives XML. Il gère donc n'importe quel fichier encodé en XML et n'est pas spécifiquement orienté TEI. L'outil fonctionne bien entendu en client /serveur mais propose aussi une interface utilisateur qui propose plusieurs modes de visualisation des données (nuages de points, arbres, cartes, etc.). BaseX propose des interfaces REST et WEBDAV pour l'accès aux données et le langage de requêtes Xquery.
Télécharger le support de communication
Liens : http://basex.org/ – http://hyperdonat.tge-adonis.fr/basex/basex.html
Statistiques lexicales sur documents structurés, le cas du dictionnaire, quelques faits dégagés du « Littré » (1863–1877) Frédéric Glorieux, École nationale des chartes
Résumé : L'exploitation statistiques du balisage permet d'aborder les textes encodés en XML TEI dans leur ensemble en donnant une vue synthétique éclairante des textes. À partir de calculs relativement simples (nombre d'occurrences de chaque balises, nombre de signes par balises, etc.) les textes présentent des spécificités révélatrices qui peuvent donner des pistes d'interprétation tout à fait convaincantes. L'exemple du Littré illustre ce type de fonctionnalités.–
Liens : L'application est disponible en ligne – Pour le Littré, la table des balises – Les mots les plus fréquents du texte – Les mots les plus fréquents des gloses (avec filtrage des mots grammaticaux) – Les locutions expliquent ces fréquences – Les mots significatifs des citations – Les auteurs expliquent ces fréquences.
Juxta – Outil de comparaison et de production d'apparats critiques, Marie Bisson, pôle Document numérique, MRSH de Caen
Résumé : Juxta est un outil de comparaison de texte et de production d'apparats critiques. Exploitant nativement le XML, l'outil dispose maintenant d'un système d'importation XML TEI. Juxta permet de choisir le texte de base et de mesurer les écarts soit avec des codes couleurs soit en affichant simultanément plusieurs versions du texte. L'utilisateur a aussi la possibilité d'ajouter des annotations aux variantes. Les interfaces de visualisation et de comparaison sont très bien faites, mais le document de synthèse exporté n'est pas assez configurable.
Liens : http://www.juxtasoftware.org/
Quantitative codicology, Matthew James Driscoll, Arnamagnæan Institute, Copenhagen University Professeur invité, Université de Caen Basse-Normandie, Silvia Hufnagel et Eric Haswell, Arnamagnæan Institute, Copenhagen University
Résumé : À partir d'un encodage XML TEI très précis des manuscrits et en particulier de leurs caractéristiques physiques, il est possible d'étudier, par exemple, quantitativement la densité de texte par page ou de localiser les lieux de production des manuscrits sur une carte et par période chronologique. Ce type d'approche (basé sur le principe de l'impossibilité de séparer le texte de son support) permet d'étudier la circulation et les évolutions (copies, reprises, etc.) des manuscrits ainsi que les relations entre ces manuscrits, les scribes et les lecteurs. Il s'agit aussi de tenter de lier les caractéristiques matérielles des manuscrits aux milieux socio-économiques des scribes.
Télécharger le support de communication
Annotation linguistique, Lou Burnard, TGE Adonis
Résumé : Il existe un très grand nombre de conventions ou de standards d'annotation (XML ou autre). Mais en quoi consiste précisément l'activité d'annotation ? À travers une typologie de textes et de différents systèmes d'annotation Lou Burnard montre qu'il s'agit d'une activité interprétative et que si un système simple permet de construire des annotations complexes, la norme de référence reste à construire.
Télécharger le support de communication