COllaboration, CLassification, Incrémentalité et COnnaissances

COllaboration, CLassification, Incrémentalité et COnnaissances

Objectifs

De COllaboration, CLassification, Incrémentalité et COnnaissances
Aller à la navigation Aller à la recherche
 Présentation générale 
 Domaines D'applications 
 Objectifs scientifiques et caractère ambitieux/novateur du projet 
 Programme scientifique et structuration du projet 

Objectifs scientifiques et caractère ambitieux/novateur du projet

Le projet COCLICO vise à développer des méthodes automatiques ou semi-automatiques adaptées à la complexité et à l’évolution rapide de grandes masses de données spatiotemporelles multisources, en s’appuyant sur des méthodes avancées issues de la fouille des données et de l’apprentissage artificiel pour l’analyse et le suivi de phénomènes complexes. Il se doit donc de répondre à nombreux défis dont entre autres :

  • Les données constituent d’énormes volumes et le problème du passage à l’échelle des algorithmes est primordial notamment pour le développement des approches incrémentales permettant une mise à jour continue des modèles.
  • Les données peuvent contenir des aberrations ou des erreurs dont la détection et la prise en compte dans le processus d’analyse sont complexes.
  • Les processus naturels et anthropiques sont complexes et en constante évolution, les données utilisées sont dynamiques.
  • L’analyse se fait à plusieurs niveaux sémantiques : il faut en effet être en mesure de mener une analyse à un niveau global autant que local et d’articuler ces niveaux.
  • Les connaissances à la fois sur les phénomènes et processus à étudier et sur les méthodes à mettre en œuvre dans ce but sont complexes et peu formalisées.


Dans ce contexte, notre projet se fixe l’objectif ambitieux de concevoir une méthode globale répondant au mieux à ces différents défis. Pour cela, nous proposons une approche innovante, basée sur la collaboration entre méthodes d’analyse « classiques » monostratégies, présentant quatre facettes originales (qui seront reprises et développées dans la description des tâches associées) :

  • Elle sera multistratégie et multi-échelle. Classiquement, les méthodes collaboratives se basent sur un seul paradigme d’analyse, généralement soit la classification supervisée, soit la classification non supervisée. Nous proposons d’étendre ces méthodes collaboratives afin d’une part, de pourvoir utiliser conjointement comme méthode monostratégie, toutes types de classification (supervisée ou non, mais aussi active, guidée, semi-supervisée ou autre) et d’autre part, d’autoriser l’utilisation de nouvelles familles d’algorithmes d’analyse telle que des algorithmes de segmentation, ou de rankingpar exemple. L’objectif est d’améliorer la qualité des résultats mais aussi de permettre une analyse multi-échelle des données.
  • Elle sera incrémentale. Lorsque les données sont fournies de façon continue par une multitude de sources, leur prise en compte (intégration) dans le domaine de l’analyste doit être elle même continue : devant la masse des données produites, il n’est plus envisageable de reconstruire ex nihilo la connaissance sur le phénomène étudié. Nous proposons d’étudier et mettre en œuvre une méthode incrémentale permettant la confrontation de la connaissance extraite (« acquise ») à de nouveaux résultats d’expériences ou à de nouvelles hypothèses sur les données. L’objectif est de permettre la remise en question continue de ces connaissances extraites afin de répondre précisément aux besoins des scientifiques et thématiciens.
  • Elle sera guidée par la connaissance. Pour réduire l’implication de l’utilisateur dans le processus, il est nécessaire d’étudier, modéliser et utiliser ses connaissances sur le entités participantes au phénomène étudié, et leur relations mutuelles,indépendamment de leurs représentations dans les données ; de définir leurs représentations possibles dans l’espace des données et de définir les mécanismes, utilisant cette connaissance, nécessaires à leur extraction et de leur reconnaissance. Nous proposons d’étudier et mettre en œuvre une base de connaissance opérable suffisamment formalisée pour que son utilisation dans des traitements informatiques soit directe. L’objectif est permettre de guider mais aussi de remettre en cause le processus collaboratif en fonction de cette connaissance.
  • Elle sera guidée par la qualité des données et des connaissances  : Alors que la qualité des données et des connaissances du domaine influe fortement sur la qualité des résultats, aucune méthode actuelle ne permet de guider un processus collaboratif en fonction de celle-ci. Nous proposons d’étudier et mettre en œuvre une méthode intégrant une base de connaissance sur le processus collaboratif lui-même et permettant de choisir au mieux les données à traiter en fonction de leurs qualités propres et relatives mais aussi de sélectionner les méthodes de prétraitement les plus adaptées ainsi que les « meilleures » méthodes monostratégies et la meilleure configuration de collaboration multistratégie en fonction de celles-ci. L’objectif est de rendre la méthode robuste face au bruit dans les données et aux erreurs de formalisation dans les connaissances du domaine.


Par rapport à l’existant qui s’est souvent focalisé sur l’emploi de méthodes classiques de la fouille de données dans un cadre supervisé ou non supervisé, le projet COCLICO attaque le problème de la modélisation de données selon ces quatre axes dont l’étude conjointe nous permettra des avancées significatives sur l’état de l’art de chacune des thématiques développées. Une autre originalité du projet est de tester d’emblée les méthodes sur des différents champs disciplinaires utilisant les mêmes types de sources de données. Ces tests seront aussi effectués comme préparation à une généralisation des techniques développées.