Introduction à l'exploration de données
Introduction à l'exploration de données
Découverte de valeur cachée dans votre entrepôt de données
La plupart des entreprises collectent déjà et affinent des quantités massives de données. les techniques d'extraction de données peuvent être rapidement mises en œuvre sur les plates-formes logicielles et matérielles existantes pour accroître la valeur des ressources d'information existantes, et peuvent être intégrés à de nouveaux produits et systèmes, ils sont mis en ligne. Lorsque mis en œuvre sur les ordinateurs client haute performance / serveur ou de traitement parallèle, des outils d'exploration de données peuvent analyser des bases de données massives pour fournir des réponses à des questions telles que « Quels clients sont les plus susceptibles de répondre à mon prochain envoi promotionnel, et pourquoi? »
Ce livre blanc offre une introduction aux technologies de base de l'exploration de données. Des exemples d'applications rentables illustrent sa pertinence aujourd'hui # 146; l'environnement commercial, ainsi qu'une description sommaire de la façon dont les architectures d'entrepôt de données peuvent évoluer pour fournir la valeur de l'exploration de données pour les utilisateurs finaux.
Les fondements de Data Mining
techniques d'exploration de données sont le résultat d'un long processus de recherche et de développement de produits. Cette évolution a commencé lorsque les données d'entreprise a d'abord été stockées sur des ordinateurs, a poursuivi l'amélioration de l'accès aux données, et plus récemment, a généré des technologies qui permettent aux utilisateurs de naviguer dans leurs données en temps réel. L'exploration de données prend ce processus évolutif au-delà de l'accès aux données rétrospectives et navigation à la livraison de l'information prospective et proactive. L'exploration de données est prête pour une application dans le milieu des affaires parce qu'il est soutenu par trois technologies qui sont maintenant suffisamment matures:- la collecte massive de données
- puissants ordinateurs multiprocesseurs
- algorithmes d'exploration de données
Dans l'évolution des données commerciales à l'information commerciale, chaque nouvelle étape a construit sur le précédent. Par exemple, l'accès aux données dynamique est essentielle pour l'accès au détail dans les applications de navigation de données, et la capacité de stocker de grandes bases de données est essentielle pour l'exploration de données. De l'utilisateur # 146; s point de vue, les quatre étapes énumérées dans le tableau 1 ont été révolutionnaires car ils ont permis de nouvelles questions d'affaires à répondre rapidement et avec précision.
Prospective, prestation proactive de l'information
Tableau 1. Les étapes de l'évolution des mines de données.
La portée des mines de données
les techniques d'extraction de données peuvent obtenir les avantages de l'automatisation sur les plates-formes logicielles et matérielles existantes, et peuvent être mis en œuvre sur les nouveaux systèmes de plates-formes existantes sont mises à jour et de nouveaux produits développés. Lorsque les données des outils d'extraction sont mises en œuvre sur les systèmes de traitement parallèle haute performance, ils peuvent analyser des bases de données massives en quelques minutes. Un traitement plus rapide signifie que les utilisateurs peuvent automatiquement expérimenter plusieurs modèles pour comprendre les données complexes. Haute vitesse rend pratique pour les utilisateurs d'analyser d'énormes quantités de données. grandes bases de données, à leur tour, amélioration du rendement des prévisions.
Comment fonctionne Data Mining
Comment exactement est l'exploration de données capable de vous dire des choses importantes que vous ne saviez pas ou ce qui va se passer ensuite? La technique qui est utilisée pour réaliser ces exploits dans l'exploration de données est appelée modélisation. La modélisation est tout simplement l'acte de construire un modèle dans une situation où vous connaissez la réponse, puis l'appliquer à une autre situation que vous ne le faites pas. Par exemple, si vous recherchez un galion espagnol coulé en haute mer la première chose que vous pourriez faire est à la recherche de l'époque où le trésor espagnol avait été trouvé par d'autres dans le passé. Vous pouvez noter que ces navires ont souvent tendance à être situées au large des côtes des Bermudes et qu'il ya certaines caractéristiques aux courants océaniques, et certaines routes qui ont probablement été prises par le navire # 146; s capitaines à cette époque. Vous notez ces similitudes et de construire un modèle qui comprend les caractéristiques communes aux lieux de ces trésors engloutis. Avec ces modèles à la main que vous naviguez au large à la recherche d'un trésor où votre modèle l'indique le plus probable pourrait envisager une situation similaire dans le passé. Si tout va bien, si vous avez un bon modèle, vous trouverez votre trésor.
Tableau 3 - Exploration de données pour les prévisions
Si quelqu'un vous a dit qu'il avait un modèle qui pourrait prédire l'utilisation du client comment voulez-vous savoir s'il avait vraiment un bon modèle? La première chose que vous pourriez essayer serait de lui demander d'appliquer son modèle à votre base de clients - où vous saviez déjà la réponse. Avec l'exploration de données, la meilleure façon d'y arriver est en mettant de côté certaines de vos données dans un coffre-fort pour l'isoler du processus d'extraction. Une fois l'extraction terminée, les résultats peuvent être testés contre les données contenues dans la voûte pour confirmer le modèle # 146; s validité. Si le modèle fonctionne, ses observations doivent tenir les données voûtés.
Une architecture pour l'exploration de données
Pour appliquer ces meilleures techniques de pointe, ils doivent être pleinement intégrés à un entrepôt de données ainsi que des outils d'analyse d'affaires interactifs flexibles. De nombreuses données outils d'extraction fonctionnent actuellement en dehors de l'entrepôt, ce qui nécessite des mesures supplémentaires pour l'extraction, l'importation et l'analyse des données. De plus, lorsque de nouvelles perspectives nécessitent la mise en œuvre opérationnelle, l'intégration avec l'entrepôt simplifie l'application des résultats de l'exploration de données. L'entrepôt de données analytique résultant peut être appliquée pour améliorer les processus d'affaires dans toute l'organisation, dans des domaines tels que la gestion des campagnes de promotion, la détection des fraudes, le nouveau déploiement de produits, et ainsi de suite. La figure 1 illustre une architecture d'analyse avancée dans un grand entrepôt de données.
Figure 1 - Architecture Data Mining intégré
1 Groupe META Application Development Strategies: "Data Mining pour les entrepôts de données: Dévoiler modèles cachés.", 13.07.95.
2 Gartner Group Advanced Technologies et applications Note de recherche, 01.02.95.
3 High Performance Computing Gartner Research Group note, 31.01.95.
Glossaire des termes Data Mining