Concepts d'exploration de données, Microsoft Docs

Dans cet article

L'exploration de données est le processus de découverte des informations exploitables à partir de grands ensembles de données. L'exploration de données utilise l'analyse mathématique pour calculer les modèles et les tendances qui existent dans les données. En règle générale, ces modèles ne peuvent pas être découverts par l'exploration de données traditionnelles, car les relations sont trop complexes ou parce qu'il ya trop de données.

Ces modèles et les tendances peuvent être collectées et définies comme un modèle d'exploration de données. Les modèles d'exploration peuvent être appliqués à des scénarios spécifiques, tels que:

Prévision. L'estimation des ventes, la prévision des charges de serveur ou les temps d'arrêt du serveur

Risque et probabilité. Choisir les meilleurs clients pour les envois ciblés, la détermination du point de rentabilité probable des scénarios de risque, l'attribution de probabilités de diagnostics ou d'autres résultats

Recommandations. Déterminer quels produits sont susceptibles d'être vendus ensemble, générer des recommandations

séquences trouver. L'analyse des sélections des clients dans un panier, la prévision des événements à venir probables

Regroupement. La séparation des clients ou des événements en groupe d'éléments connexes, l'analyse et la prévision des affinités

La construction d'un modèle d'exploration fait partie d'un processus plus vaste qui comprend tout de poser des questions sur les données et la création d'un modèle pour répondre à ces questions, de déployer le modèle dans un environnement de travail. Ce processus peut être défini en utilisant les six étapes de base suivantes:

Le schéma ci-dessous décrit les relations entre chaque étape du processus et les technologies dans Microsoft SQL Server que vous pouvez utiliser pour terminer chaque étape.

Data Mining Microsoft SQL Server fournit un environnement intégré pour créer et travailler avec des modèles d'exploration. Cet environnement comprend le développement SQL Server Management Studio, qui contient des algorithmes d'exploration de données et outils de recherche qui le rendent facile de construire une solution complète pour une variété de projets et de SQL Server Management Studio, qui contient des outils pour la navigation des modèles et la gestion des objets d'exploration de données. Pour plus d'informations, consultez Création de modèles multidimensionnels Utilisation des outils de données SQL Server # 40; # 41 ;. SSDT

Pour un exemple de la façon dont les outils SQL Server peuvent être appliquées à un scénario d'affaires, consultez le Data Mining Tutoriel de base.

Définition du problème

La première étape dans le processus d'extraction de données, comme l'a souligné dans le schéma ci-dessous, est de définir clairement le problème et examiner les moyens que les données peuvent être utilisées pour fournir une réponse au problème.

Cette étape comprend l'analyse des besoins d'affaires, la définition de la portée du problème, la définition des mesures qui sera évalué le modèle et la définition des objectifs spécifiques du projet d'exploration de données. Ces tâches se traduisent par des questions telles que les suivantes:

Que cherchez-vous? Quels types de relations que vous essayez de trouver?

Est-ce que le problème que vous essayez de résoudre reflètent les politiques ou les processus de l'entreprise?

Est-ce que vous voulez faire des prédictions du modèle d'exploration de données, ou tout simplement rechercher des modèles intéressants et les associations?

Quels sont les résultats ou l'attribut voulez-vous essayer de prédire?

Quel type de données avez-vous et quel type d'information est dans chaque colonne? S'il y a plusieurs tables, comment les tableaux liés? Avez-vous besoin d'effectuer une purification, l'agrégation ou le traitement pour rendre les données utilisables?

Comment les données sont-ils distribués? Les données sont-saison? Est-ce que les données représentent fidèlement les processus de l'entreprise?

Pour répondre à ces questions, vous pourriez avoir à mener une étude de disponibilité des données, pour enquêter sur les besoins des utilisateurs professionnels en ce qui concerne les données disponibles. Si les données ne prend pas en charge les besoins des utilisateurs, vous pourriez avoir à redéfinir le projet.

Vous devez également considérer la façon dont les résultats du modèle peuvent être incorporés dans les principaux indicateurs de performance (KPI) qui sont utilisés pour mesurer les progrès des entreprises.

préparation des données

La deuxième étape dans le processus d'extraction de données, comme l'a souligné dans le schéma ci-dessous, est de consolider et de nettoyer les données qui ont été identifiées dans la définition de l'étape de problème.

Le nettoyage des données est non seulement sur la suppression des données erronées ou manquantes interpoler des valeurs, mais de trouver des corrélations cachées dans les données, l'identification des sources de données qui sont les plus précises, et déterminer les colonnes sont les plus appropriés pour une utilisation dans l'analyse. Par exemple, si vous utilisez la date d'expédition ou la date de commande? Est le meilleur influenceur de vente la quantité, le prix total, ou un prix réduit? Données incomplètes, données erronées, et les entrées qui apparaissent séparés mais en fait sont fortement corrélées tous peuvent influer sur les résultats du modèle de façon que vous ne penserez pas.

Il est important de noter que les données utilisées pour l'extraction de données n'a pas besoin d'être stocké dans un cube, ou même dans une base de données relationnelle Traitement analytique en ligne (OLAP), bien que vous pouvez utiliser ces deux sources de données. Vous pouvez effectuer l'extraction de données à l'aide d'une source de données qui a été défini comme une source de données Analysis Services. Ceux-ci peuvent inclure des fichiers texte, des classeurs Excel, ou des données provenant d'autres fournisseurs externes. Pour plus d'informations, reportez-vous pris en charge des sources de données # 40; SSAS - # 41 ;. Multidimensional

Les données explorer

La troisième étape dans le processus d'exploration de données, comme souligné dans le schéma ci-dessous, est d'explorer les données préparées.

Vous pouvez utiliser des outils tels que Master Data Services pour démarcher les sources de données disponibles et de déterminer leur disponibilité pour l'exploration de données. Vous pouvez utiliser des outils tels que SQL Server Data Services, la qualité ou le Générateur de profils de données dans les services d'intégration, d'analyser la distribution de vos données et les questions de réparation telles que les données erronées ou manquantes.

Après avoir défini vos sources, vous les combiner dans une vue de source de données en utilisant la vue de source de données Designer dans Outils de données SQL Server. Pour plus d'informations, voir Vues des sources de données dans les modèles multidimensionnels. Ce concepteur contient aussi quelques plusieurs outils que vous pouvez utiliser pour explorer les données et vérifier qu'il fonctionnera pour la création d'un modèle. Pour plus d'informations, consultez Explorer les données dans une vue de source de données # 40; Analysis Services # 41 ;.

Modèles de construction

La quatrième étape dans le processus d'extraction de données, comme l'a souligné dans le schéma ci-dessous, est de construire le modèle d'exploration ou modèles. Vous utiliserez les connaissances que vous avez acquises dans l'étape de données Explorer pour définir et créer les modèles.

Vous définissez les colonnes de données que vous souhaitez utiliser en créant une structure minière. La structure minière est liée à la source de données, mais ne contient pas réellement de données jusqu'à ce que vous le traiter. Lorsque vous traitez la structure minière, Analysis Services génère des agrégats et d'autres informations statistiques qui peuvent être utilisées pour l'analyse. Ces informations peuvent être utilisées par un modèle d'exploration basé sur la structure. Pour plus d'informations sur la façon dont les structures minières sont liées aux modèles d'exploitation, voir Architecture Logique # 40; Analysis Services - Exploration de données # 41 ;.

Vous pouvez définir un nouveau modèle en utilisant l'Assistant Data Mining dans Outils de données SQL Server, ou en utilisant la langue Data Mining Extensions (DMX). Pour plus d'informations sur la façon d'utiliser l'Assistant d'exploration de données, voir Assistant Data Mining # 40; Analysis Services - Exploration de données # 41 ;. Pour plus d'informations sur l'utilisation de DMX, voir Data Mining Extensions # 40; DMX # 41; Référence.

L'exploration et la validation des modèles

La cinquième étape dans le processus d'extraction de données, comme l'a souligné dans le schéma ci-dessous, est d'explorer les modèles d'exploitation que vous avez construit et tester leur efficacité.

Avant de déployer un modèle dans un environnement de production, vous voulez tester à quel point le modèle fonctionne. En outre, lorsque vous créez un modèle, vous créez généralement plusieurs modèles avec différentes configurations et tester tous les modèles pour voir ce qui donne les meilleurs résultats pour votre problème et vos données.

Analysis Services fournit des outils qui vous aident à séparer vos données dans des ensembles de données de formation et de test afin que vous puissiez évaluer avec précision les performances de tous les modèles sur les mêmes données. Vous utilisez l'ensemble de données de formation pour construire le modèle et l'ensemble de données de test pour tester la précision du modèle en créant des requêtes de prédiction. Cette partition peut être fait automatiquement lors de la construction du modèle d'exploration. Pour plus d'informations, voir Test et validation # 40; Data Mining # 41 ;.

Si aucun des modèles que vous avez créés dans les modèles de construction étape bien performer, vous pourriez avoir à revenir à une étape antérieure du processus et de redéfinir le problème ou les données dans une nouvelle enquête sur l'ensemble de données d'origine.

Déploiement et mise à jour des modèles

La dernière étape dans le processus d'extraction de données, comme l'a souligné dans le schéma ci-dessous, est de déployer les modèles qui ont effectué le mieux pour un environnement de production.

Après les modèles d'exploration existent dans un environnement de production, vous pouvez effectuer de nombreuses tâches, en fonction de vos besoins. Voici quelques-unes des tâches que vous pouvez effectuer:

Créer des requêtes de contenu pour obtenir des statistiques, des règles ou formules du modèle. Pour plus d'informations, consultez Data Mining Requêtes.

Intégrer les données des fonctionnalités d'extraction directement dans une application. Vous pouvez inclure des objets AMO (Analysis Management), qui contient un ensemble d'objets que votre application peut utiliser pour créer, modifier, traiter et supprimer des structures minières et des modèles d'exploration. Vous pouvez également envoyer des messages XML pour l'analyse (XMLA) directement à une instance de Analysis Services. Pour plus d'informations, voir Développement (Analysis Services - Exploration de données).

Créer un rapport qui permet aux utilisateurs directement des requêtes sur un modèle minier existant. Pour plus d'informations, consultez Reporting Services dans SQL Server Data Tools # 40; # 41 ;. SSDT

Mettre à jour les modèles après examen et analyse. Toute mise à jour nécessite que vous retraiter les modèles. Pour plus d'informations, consultez Traitement des objets d'exploration de données.

Mettre à jour les modèles dynamiquement, comme plus de données entre dans l'organisation, et des changements constants afin d'améliorer l'efficacité de la solution devrait faire partie de la stratégie de déploiement. Pour plus d'informations, voir Gestion des Solutions et objets Data Mining

Articles Liés