COllaboration, CLassification, Incrémentalité et COnnaissances

COllaboration, CLassification, Incrémentalité et COnnaissances

Coclico

De COllaboration, CLassification, Incrémentalité et COnnaissances
Aller à la navigation Aller à la recherche
 Présentation générale 
 Domaines D'applications 
 Objectifs scientifiques et caractère ambitieux/novateur du projet 
 Programme scientifique et structuration du projet 


Présentation générale

La fouille de données est un maillon important dans la chaîne de traitements des données vers les connaissances. Ainsi, par exemple, appréhender et comprendre les processus de fonctionnement et de développement des systèmes plus ou moins anthropisés à diverses échelles spatiales et temporelles (urbanisation et pression sur les terres, érosion de la biodiversité etc.) à partir de données satellites ou autres devient un élément majeur dans différents domaines tels l’étude de l’environnement ou les politiques publiques d’aménagement du territoire. Or les techniques d’analyse actuelles sont de plus en plus limitées face à l’avalanche actuelle de données hétérogènes souvent incomplètes voire imprécises et de plus en plus souvent fournies en continu au fil de l’eau.
Or si les caractéristiques des méthodes de fouille sont en général bien connues et appréhendées par l’analyste-statisticien ou par l’informaticien, il n’en est que rarement de même pour l’utilisateur. Ainsi, bien souvent, il est nécessaire d’essayer plusieurs algorithmes avec différents paramètres afin de déterminer lequel répond le mieux à la question. L’utilisateur doit attentif à l’indéterminisme de beaucoup de méthodes de classification non supervisée. De plus, il est nécessaire de tenir compte de la qualité variable des données brutes et prétraitées, de la robustesse des méthodes d’apprentissage face au bruit et de la sensibilité des résultats à des changements dans les méthodes ou les paramètres d’acquisition/construction des données afin de proposer des stratégies de nettoyage et de prétraitement des données plus adéquates. Enfin, les données étant fournies en continue, s’ajoutent une dimension dynamique et le besoin d’une capacité d’apprentissage incrémental dans un contexte changeant.


Il n’existe pas à ce jour de moyen infaillible permettant de choisir au mieux la méthode et ses paramètres car ce choix est fortement lié au domaine d’application et à des connaissances a priori sur celui-ci et sur les données à traiter. Une approche de plus en plus proposée pour contourner ce problème est basée sur l’intuition que les méthodes sont complémentaires ou du moins peuvent se corroborer. Ainsi, des mécanismes de confrontation et d’unification des résultats, provenant de méthodes et de données diverses peuvent permettre de proposer à l’utilisateur une synthèse pertinente de ceux-ci. Une voie prometteuse dans ce domaine se base sur la collaboration entre différentes méthodes.


Néanmoins, on apprend d’autant mieux que ce qu’on aborde se rattache à ce qu’on connaît déjà et que l’objectif de la tâche est connu et compris : il n’est pas souhaitable que l’interprétation des données soit faite par une personne ignorante de la thématique. Ainsi, le processus d’interprétation nécessite bien souvent la présence d’un expert-thématicien mais est, malheureusement, très gourmand en temps. Faciliter cette implication en introduisant directement la connaissance de cet expert dans ce processus nécessite de modéliser et formaliser les classes/objets du monde réel, de définir leurs représentations possibles dans l’espace des données et enfin d’étudier et construire les mécanismes d’extraction et de labellisation de ces objets par rapport à ces connaissances.



Le projet Coclico

Coclico est un projet de recherche visant à étudier et proposer une méthode générique innovante permettant une analyse multi-échelle de grands volumes de données spatio-temporelles fournies en continue de qualité très variable, mettant en œuvre une approche multistratégie incrémentale dans laquelle la collaboration entre les différentes méthodes de fouille de données sera guidée par des connaissances du domaine thématique (Géosciences, Géographie, Géomatique et Télédétection) formalisées en ontologies et du domaine de l’analyse (connaissances sur les méthodes), et garantissant un objectif de qualité finale prenant en compte la qualité des données et celles des connaissances.