Rulemining pour BASE

Résumé

Rulemning pour BASE : développement d'un module de fouilles de données pour la plateforme BASE.

Description

BioArray Software Environment ( BASE ) est une plate-forme WEB pour gérer les données issues d'analyses de puces à ADN . Plusieurs caractéristiques de cette plate-forme sont propices aux développement de nouveaux outils. Cette solution est libre et gratuite. Par conséquent, elle est utilisée dans de nombreuses plate-formes de transcriptomique (2 sur Lille). De plus, sa distribution sous licence GNU permet d'avoir un code ouvert aux modifications et aux developpements. Enfin, la plate-forme dispose en natif d'un système de gestion de plugins (modules supplémentaires) avancé. Un tel système permet aux développeurs de fournir des outils innovants sans changer les méthodes de travail et interface habituelles des utilisateurs biologistes.

Jusqu'à présent, on trouve pour BASE des plugins de visualisation de données, de normalisation de données et d'analyse statistiques de données. Peu de développement de plugins dans BASE portent sur la fouilles de données (datamining).

La thése fouilles de données de Mohammed KHABZAOUI au LIFL ( Règles d’association pour données issues de biopuces : application aux maladies cardiovasculaires ) a été la base du développement de ce plugin. Fouiller les données transcriptomiques contenues dans BASE pour en extraire des régles d'associations est une piste qui peut s'avérer fructueuse à exploiter.

En effet, une régle d'association se présente ainsi :

SI (evénement 1) ET (evénement 2) ... ET (evénement i) ALORS (evénement x)

Pour la transcriptomique, on obtient donc des règles du type de l'exemple suivant :

SI (gene1 sur-exprimé) ET (gene2 sous-exprimé) ... ET (geneI sous-exprimé | sur-exprimé) ALORS (geneZ sur-exprimé)

Ces informations pourraient être particuliérment intéressantes pour rechercher des relations entre les expressions des génes.

L'algorithme a été adapté pour la plateforme BASE sous forme d'un plugin. Il n'a pas encore été rendu disponible à la communauté BASE. En effet, les résultats doivent être validés d'un point de vue biologique. De plus, actuellement, la sortie du module est une simple liste des régles trouvées. Un travail pour la présentation des resultats sera indispensable. Des perspectives de parallélisation sont envisageables dans le futur. L'utilisation du framework Evoluting Object ( EO ) dans l'algorithme initial peuvent être parallélisés de façon transparente grace à ParadisEO .

Cadre

Pour l'écriture du module, le code initial de Mohammed KHABZAOUI a été fortement amélioré (et rendu plus propre par la même occasion) par Sébastien CAHON.

Technologies

Langage : C++
Environnement : BASE, EO, Autoconf, Automake, Anjuta

Ressources