1 mars 2008

Le datawarehouse et le datamining

" Ce n'est pas en immergeant un individu dans un océan d'informations qu'on le rend plus intelligent et plus apte à détecter la bonne information ".
Partant de ce constat, force est de constater le risque majeur de déception à l'égard des datawarehouses ("entrepôt de données" ) et, plus généralement, de l'informatique décisionnelle. En effet, il ne suffit pas de mettre en place un datawarehouse ; encore faut-il en tirer le meilleur parti avec des outils d'analyse sophistiqués : c'est le but du data mining. Ou comment donner un sens à une montagne d'informations.
Le data mining est une technique récente qui consiste à extraire d'un grand volume de données (bases de données, textes...) des corrélations entre celles-ci. Elle permet par exemple de créer des profils d'utilisateurs de services, de prédire leur comportement, de déceler un changement de leurs habitudes, etc.
Cette technologie peut se révéler utile pour la légistique matérielle. Lors des étapes de la détermination des objectifs et des moyens à adopter pour corriger une situation sur laquelle on veut agir par une loi, l'exploitation de données par le data mining pourrait permettre une analyse de la situation existante et de ses tendances.
Développement sur la data mining
1996 a marqué le début de l'explosion des outils d'analyse et particulièrement de ceux capables de donner un sens à des volumes considérables d'informations.
Le datawarehouse est une application d'informatique décisionnelle qui récupère les données dans les bases existantes, stocke ces données -figées et référencées-, et les met à disposition à l'aide d'outils d'interrogation, d'analyse relationnelle ou multidimentionnelle, ou de visualisation.
La valorisation d'un datawarehouse (stockage des données) passe par la mise à disposition de l'utilisateur des moyens qui lui permettront de détecter la bonne information. Un exercice difficile, surtout lorsqu'il s'agit de rapprocher plusieurs types d'informations disséminées dans les gigantesques gisements de données déjà constitués, parfois de façon hétéroclite.
Le data mining est un concept né du courant de l'intelligence artificielle et qui emploie des techniques sophistiquées pour dégager des tendances et des modèles par une analyse de données.
L'offre de produits s'est largement étoffée avec l'engouement pour l'aide à la décision. De plus en plus d'environnements de datawarehouse incluent des outils de data mining ou s'interfacent avec ceux-ci. Certains produits ont l'ambition de pousser l'analyse jusqu'aux données récoltées sur Internet, ou de faire appel à des agents intelligents qui automatisent les procédures de recherche de l'information.
Les outils de data mining se divisent fonctionnellement en deux catégories principales :
Les outils de filtrage :
Ces outils trient l'information en fonction de critères définis par l'utilisateur (exemple de produit : Detect and Alert, de Comshare).
Les outils d'analyse et d'enquête :
Cette seconde famille d'outils, de loin la plus dynamique, englobe des outils de requête et d'analyse (avec des mécanismes de "drill-down", c'est-à-dire de "descente assistée dans l'information") sur les bases de données qui font émerger des corrélations entre les informations, et les présentent à l'utilisateur.
A partir de la base de données, ces logiciels se chargent de calculer toutes les corrélations possibles entre les différentes informations, et de les classer par ordre d'importance, sous la forme d'arbres de décision. L'utilisateur a également la possibilité de forcer certains critères et de déclencher des itérations débouchant sur la production de variables. (exemples de produits: Gentium, de Planning Sciences; KnowledgeSeeker, de Cognos).

Sponsor