Axe 3 – Découverte de connaissances

La science des données en général et la fouille de données en particulier sont des éléments majeurs de la transformation de données pour la mise en évidence d’informations nouvelles ou mieux de découverte de connaissances avec souvent la volonté d’aider à la décision et/ou à l’action. Par exemple, à partir d’un corpus composé d’articles d’un journal, il s’agit de mettre en évidence des patrons linguistiques, non connus auparavant, pour caractériser une information spatiale. La découverte de connaissances se différencie de l’extraction d’information.

En extraction d’information, l’utilisateur sait ce qu’il recherche et le système fournit les occurrences de ce qui est recherché. Par exemple, l’utilisateur indique des caractéristiques de ce qu’est un crime contre l’humanité et le système recherche les passages de textes portant a priori sur un crime contre l’humanité. Le découverte de connaissances a en revanche pour but la découverte d’une information nouvelle et utile. En considérant toujours l’exemple sur les crimes contre l’humanité, en découverte de connaissances, il s’agit cette fois de découvrir les caractéristiques de ce qu’est un crime contre l’humanité.

Depuis l’émergence du « data mining » dans les années 90, ce champ de recherche a effectué d’importants efforts sur les aspects algorithmiques et nous disposons aujourd’hui d’une panoplie de méthodes dont la variété des données et les passages à l’échelle sont de mieux en mieux maîtrisés. La fouille de données ne remplace pas l’expert ou le chercheur en SHS, mais il s’agit de l’aider à mieux stocker et exploiter ses corpus et données, de l’aider à présenter et mieux comprendre les données pour ses recherches. En retour, cette démarche nécessite de lever de nouveaux verrous en informatique, comme la prise en compte de spécificités de données de SHS, la mise en place d’un processus de découverte de connaissances réellement interactif et itératif, la prise en compte d’une connaissance du domaine.

Un exemple : le projet Deep Mining

Le projet Deep Mining a étudié la construction d’un réseau convolutionnel auto-encodeur pour optimiser un compromis entre stockage, performance, temps de calcul pour la recherche d’images. Puis, différents types de motifs utilisés en fouille de données combinés avec ce type de réseau ont été testés pour la recherche d’images. Un article est soumis à la conférence ICIP. Des perspectives de ce projet sont la construction itérative de structures caractéristiques de catégories d’images pour la recherche d’images dans un contexte non supervisé (ce qui est une situation plus difficile que les contextes supervisés qui sont le plus souvent étudiés) ainsi que l’évaluation de la méthodologie sur des images issues de manuscrits anciens.