close

Вход

Забыли?

вход по аккаунту

ьы Ёыр ттжс ся р вщя сп уы ь рыя ж уы тсыж п сы пп срр

код для вставкиСкачать
Étude d'une approhe ombinée symbolique et numérique
pour la fouille de données spatio-temporelles
Jean-François Mari, Florene Le-Ber, Amedeo Napoli
27 août 2008
1 Informations générales
Enadrants : J.-F. Mari F. Le Ber, A. Napoli
Téléphones : 03 83 59 20 00 (LORIA)
email : jfmariloria.fr, leberloria.fr, napoliloria.fr
2 Motivations
On dispose de plus en plus de bases de données hétérogènes qu'il faut analyser pour
aider à l'établissement de onnaissanes dans de nombreux domaines omme la médeine, la
biologie ou l'environnement. C'est pourquoi l'équipe Orpailleur a développé depuis quelques
années des travaux en matière de fouille de données ave des méthodes symboliques (treillis
de Galois) et numériques (modèles de Markov ahés).
Les treillis de Galois, ou treillis de onepts, sont des strutures mathématiques onstruites sur une relation entre un ensemble d'objets et un ensemble de propriétés. Ces
strutures permettent de visualiser un ensemble ordonné de onepts ; un onept étant
onstitué d'un ensemble d'objets son extension et d'un ensemble de propriétés son
intension et de mettre à jour des règles d'assoiations entre propriétés.
Les modèles de Markov ahés (HMM pour Hidden Markov Models en anglais) sont des
modèles stohastiques utilisés primitivement en reonnaissanes de formes et atuellement
pour la fouille de donnés, partiulièrement en biologie, mais également en agronomie. Il
permettent de segmenter un signal temporel ou spatial en zones stationnaires et transitoires.
Plutt que d'opposer symbolique et numérique, il est bien plus intéressant de ombiner
les deux approhes et 'est e qui est proposé dans e sujet. En partiulier il s'agit d'appliquer des méthodes symboliques pour aider à l'analyse des résultats issus de méthodes
numériques.
3 Sujet
CarrotAge
L'équipe a développé un logiiel,
, qui utilise les modèles de Markov ahés
pour fouiller des données temporelles ou spatiales. Les données sont aratérisées par un
ensemble d'états et une matrie de transitions entre états. Les résultats du traitement sont
ahés sous forme de graphes d'états et de transitions entre états, lisibles par l'utilisateur.
Pour failiter l'exploitation de es résultats, il est néessaire de pouvoir omparer les graphes
obtenus sur diérents jeux de données.
Pour ela, on voudrait onstruire un treillis de Galois où les objets sont des jeux de
données (des ultures dans une région, l'ADN d'une batérie, et.), et les propriétés les
1
aratéristiques des modèles de Markov onstruits sur es données, omme : les dates ou
les séquenes où ont été trouvées, les zones stationnaires, leur nombre, les seuils retenus
pour l'ahage ... Deux questions se présentent alors, qu'il faudra traiter durant e stage :
omment aratériser les propriétés utiles à extraire des modèles de Markov pour permettre
la omparaison des données, et quelle méthode de onstrution de treillis hoisir, en rapport
ave les aratéristiques des propriétés et les besoins de visualisation.
Deux domaines d'appliation sont traités par l'équipe, le domaine agriole et le domaine
biologique. L'un ou l'autre pourra servir de support à l'étude. Une interation ave des
experts du domaine (agronomes ou biologistes) est prévue.
4 Cadre de travail
Compétenes en fouille de données symboliques par treillis de Galois. Les ompétenes
en modélisation stohastiques pourront s'aquérir pendant le post-do.
Environnement de programmation : Java et C++.
Données disponibles : données omposites d'oupation du sol (photos satellite, résultats d'enquêtes) pour l'agriulture et hromosome d'Atinomyètes pour la biologie.
Travail de reherhe ave des herheurs agronomes et biologistes dans le adre de
projets état-régions ou de programmes ANR.
Référenes
[1℄ Sébastien Hergalant, Bertrand Aigle, Pierre Leblond, and Jean-Franois Mari. Fouille
de données du génome à l'aide de modèles de markov ahés. In Extration et Gestion
de Connaissanes - EGC 2005, Paris, Frane, pages 141148, Jan 2005. Atelier fouille
de données omplexes dans un proessus d'extration de onnaissanes.
[2℄ F. Le Ber, M. Benoit, C. Shott, J.-F. Mari, and C. Mignolet. Studying rop sequenes
with CarrotAge, a HMM-based data mining software. Eologial Modelling, 191(1) :170
185, Jan 2006. http ://www.sienediret.om/siene/artile/B6VBS-4HF5KPY1/2/3bf8278b179e990f2277755d262.
[3℄ J.-F. Mari and F. Le Ber. Temporal and spatial data mining with seond-order hidden
models. Soft Computing, 10(5) :406 414, Marh 2006. http ://hal.inria.fr/inria00000197.
[4℄ A.B. Poritz.
Hidden Markov Models : A Guided Tour.
In
Proeedings of IEEE-
, pages 7 13,
International Conferene On Aoustis, Speeh, and Signal Proessing
New York, 1988.
1/--страниц
Пожаловаться на содержимое документа