Processus d'extraction de données

Ce chapitre décrit le processus d'extraction de données en général et la façon dont il est pris en charge par Oracle Data Mining. L'exploration de données nécessite la préparation des données, la construction de modèles, les essais de modèle et un ascenseur informatique pour un modèle, le modèle d'application (notation) et le déploiement de modèle. La base de données Oracle et Oracle Data Mining fournissent des installations pour effectuer toutes les étapes d'exploration de données. Ce chapitre traite des sujets suivants:

5.1 Comment Data Mining est fait?

CRISP-DM est une méthode largement acceptée pour les données des projets miniers. Pour plus de détails, voir htttp: //www.crisp-dm.org. Les étapes du processus sont les suivants:

Comprendre l'activité: Comprendre les objectifs du projet et les exigences d'un point de vue commercial, puis transformer ces connaissances en une définition du problème de l'exploration de données et un plan préliminaire visant à atteindre les objectifs.

La compréhension des données: Commencez par la collecte de données, puis se familiariser avec les données, pour identifier les problèmes de qualité des données, de découvrir un premier aperçu dans les données, ou pour détecter des sous-ensembles intéressants pour former des hypothèses sur des informations cachées.

Préparation des données: Comprend toutes les activités nécessaires à la construction de l'ensemble de données final (données qui seront intégrés dans l'outil de modélisation) à partir des données brutes initiales. Les tâches comprennent table, cas, et la sélection d'attributs ainsi que la transformation et le nettoyage des données pour les outils de modélisation.

Modélisation: Choisir et appliquer une variété de techniques de modélisation et calibrer les paramètres de l'outil à des valeurs optimales. En règle générale, il existe plusieurs techniques pour le même type de problème d'extraction de données. Certaines techniques ont des exigences spécifiques sur la forme de données. Par conséquent, pas en arrière à la phase de préparation des données est souvent nécessaire.

Déploiement: Organiser et présenter les résultats de l'exploration de données. Le déploiement peut être aussi simple que la génération d'un rapport ou aussi complexe que la mise en œuvre d'un processus d'extraction de données reproductibles.

L'exploration de données est itérative. Procédé d'extraction de données se poursuit après une solution est déployée. Les leçons apprises au cours du processus peuvent déclencher de nouvelles questions d'affaires. Modification de données peuvent nécessiter de nouveaux modèles. Les données ultérieures des processus d'exploitation minière bénéficient de l'expérience des précédentes.

Oracle Data Mining (ODM) suppo rts les trois dernières étapes du processus CRISP-DM. La première étape, la compréhension des affaires, est unique à votre entreprise. Les étapes restantes sont pris en charge par une combinaison d'ODM et la base de données Oracle, en particulier dans le contexte d'un entrepôt de données Oracle. Les installations de la base de données Oracle peuvent être très utiles lors de la compréhension des données et la préparation des données.

5.2 Comment fonctionne Oracle Data Mining support Data Mining?

ODM intègre l'extraction de données avec la base de données Oracle et expose l'exploration de données à travers les interfaces suivantes:

Interface Java: Java Data Mining interface compatible (JSR-73) qui permet aux utilisateurs d'intégrer l'exploration de données dans les applications Java.

Interface PL / SQL: Les paquets DBMS_DATA_MINING et DBMS_DATA_MINING_TRANSFORM permettent aux utilisateurs d'intégrer l'extraction de données dans les applications PL / SQL.

data mining automatisé: Le package DBMS_PREDICTIVE_ANALYTICS PL / SQL, décrit brièvement dans "Data Mining automatisé". automatise l'ensemble du processus d'extraction de données de pré-traitement de données à travers la construction de modèles de données de notation.

Data mining fonctions SQL: Les fonctions d'exploration de données SQL (CLUSTER_ID, CLUSTER_PROBABILITY, CLUSTER_SET, FEATURE_ID, FEATURE_SET, FEATURE_VALUE, Prédiction, PREDICTION_COST, PREDICTION_DETAILS, PREDICTION_PROBABILITY et PREDICTION_SET) déploiement de support des modèles dans le contexte des applications existantes, d'améliorer les performances de notation, et permettre pipelining des résultats portant sur les prévisions d'exploration de données. Pour plus d'informations, consultez la section « Fonctions Data Mining ».

Les interfaces graphiques: Oracle Data Miner et Oracle Spreadsheet Add-In pour l'analyse prédictive sont des interfaces graphiques qui permettent de résoudre des problèmes d'exploration de données. Consultez la section « Interfaces graphiques » pour un bref aperçu.

Le résultat final de l'extraction de données est un modèle. Souvent, ce modèle est déployé pour que ses résultats puissent être intégrés dans une application. ODM fournit des installations pour le déploiement décrites dans « modèle de déploiement ».

5.2.1 Java et PL / SQL Interfaces

Les interfaces de programmation Java et PL / SQL fournissent les installations pour faire la préparation des données de base (binning, normalisation, winsorizing, coupure, et manquant de traitement des valeurs). Les deux interfaces fournissent également des appels construire, tester et appliquer les modèles décrits au chapitre 3 et le chapitre 4.

L'interface ODM Java et l'interface ODM PL / SQL ont les mêmes capacités. Les modèles produits par deux interfaces sont interopérables, par exemple, un modèle peut être construit en utilisant une interface et appliqué à l'aide de l'autre interface.

5.2.2 Data Mining automatisé

Le paquet PL / SQL DBMS_PREDICTIVE_ANALYTICS automatise le processus d'extraction de données à partir de prétraitement des données à travers la construction de modèles de marquer les nouvelles données. Cette automatisation fournit une interface simple et intuitive. Le paquet fournit un outil important qui simplifie l'exploration de données pour les utilisateurs qui ne sont pas données des experts miniers.

DBMS_PREDICTIVE_ANALYTICS offre les fonctionnalités suivantes:

EXPLIQUEZ - Rang attributs afin d'influence dans l'explication d'une colonne cible

PREDICT - Prédire la valeur d'un attribut

Pour des informations détaillées sur DBMS_PREDICTIVE_ANALYTICS. voir la base de données Oracle packages PL / SQL et les types de référence.

La feuille de calcul Oracle Add-In pour Predictive Analytics fournit une interface utilisateur graphique pour DBMS_PREDICTIVE_ANALYTICS; le Add-In est brièvement décrit dans la section "Interfaces graphiques".

5.2.3 Fonctions de données minières

Les fonctions d'exploration de données sont des fonctions SQL qui appliquent les modèles existants ODM; ils retournent également des informations sur les modèles existants ODM. Les fonctions sont les suivantes:

CLUSTER_ID. Renvoie l'identificateur de grappe de la grappe prédite avec la probabilité la plus élevée pour un ensemble spécifié de valeurs prédites.

CLUSTER_PROBABILITY. Retourne une mesure du degré de confiance de l'appartenance à une ligne d'entrée dans un cluster associé au modèle spécifié.

CLUSTER_SET. Retourne un varray d'objets contenant tous les groupes possibles et les probabilités pour les grappes renvoyées qu'une ligne donnée appartient à soumettre à certains critères de filtrage.

FEATURE_ID. Renvoie l'identifiant de la fonction (dans un modèle d'extraction de caractéristiques) avec la plus haute valeur de coefficient.

JEU DE FONCTIONNALITÉS. Retourne un varray d'objets contenant toutes les fonctions possibles et les valeurs de caractéristiques dans un modèle d'extraction de caractéristiques sous réserve de certains critères de filtrage.

FEATURE_VALUE. Renvoie la valeur d'une caractéristique donnée dans un modèle d'extraction de caractéristiques.

PRÉDICTION. Renvoie la meilleure prédiction pour un modèle de classification ou de régression étant donné un ensemble de facteurs prédictifs.

PREDICTION_PROBABLILITY. Renvoie la probabilité d'une prédiction faite au moyen d'un modèle de classification ODM.

Les fonctions d'exploration de données ont de nombreux avantages, dont les plus importants sont les suivants:

Les fonctions rendent le déploiement de modèles dans le contexte des applications existantes simples puisque les instructions SQL existantes peuvent être facilement améliorées avec eux.

Les fonctions améliorent considérablement les performances notation (modèle applicable).

Les fonctions permettent pipelining des résultats portant sur les prévisions d'exploration de données; cela permet, entre autres, la possibilité de retourner quelques résultats rapidement à un utilisateur final.

Pour plus d'informations sur les fonctions d'exploration de données SQL, consultez la base de données Oracle SQL Reference.

5.2.4 Interfaces graphiques

ODM a deux interfaces graphiques, qui sont tous deux disponibles en téléchargement sur Oracle Technology Network:

Oracle Data Miner i est une interface utilisateur ODM qui aide les analystes de données et les développeurs d'applications de créer des applications d'intelligence d'affaires de pointe basées sur ODM. ODM Java Code Generator est une extension Oracle JDeveloper qui exporte les modèles créés à l'aide Data Miner Oracle pour le code Java.

Oracle Spreadsheet Add-In pour Predictive Analytics permet aux utilisateurs de Microsoft Excel aux données des mines dans les tableaux Oracle ou des feuilles de calcul Excel à l'aide des fonctions du package DBMS_PREDICTIVE_ANALYTICS PL / SQL.

5.2.5 Modèle de déploiement

Il est co Mmon de construire des modèles sur un système, puis déployer les modèles à un système de production. L'ODM Scoring Engine, décrit dans le chapitre 7. prend en charge les scénarios de déploiement communs.

ODM soutient l'exportation du modèle d'exploration de données et l'importation au format natif entre les bases de données Oracle ou des schémas de fournir un moyen de déplacer les modèles.

export / import modèle est pris en charge à différents niveaux, comme suit:

Base de données import / export. Lorsqu'un DBA exporte une base de données complète à l'aide de l'utilitaire expdp, tous les modèles d'exploration de données existantes dans la base de données seront exportés. Lorsqu'un DBA importe un vidage de base de données en utilisant l'utilitaire impdp, tous les modèles d'exploration de données dans la décharge seront restaurés.

Schéma d'import / export. Lorsqu'un utilisateur ou DBA exporte un schéma à l'aide expdp. tous les modèles d'exploration de données dans le schéma seront exportés. Lorsque l'utilisateur ou DBA importe le vidage de schéma à l'aide impdp. tous les modèles de la décharge seront importées.

modèle choisi import / export. Les deux interfaces ODM incluent les appels qui exportent ou importent des modèles spécifiques, par exemple, l'interface PL / SQL comprend DBMS_DATA_MINING.export_model () et DBMS_DATA_MINING.import_model ().

ODM exportation de modèle et l'importation de modèles sont basés sur la pompe de données SGBD Oracle. Lorsque vous exportez un modèle, les tableaux qui constituent le modèle et les métadonnées associées sont écrites dans un ensemble de fichiers de vidage qui se compose d'un ou plusieurs fichiers. Lorsque vous importez un modèle, les tables et les métadonnées sont extraites du fichier et restauré dans la nouvelle base de données.

Pour des informations détaillées sur l'exportation voir modèle / importation, Guide de l'administrateur Oracle Data Mining.

Script sur cette page améliore la navigation du contenu, mais ne modifie pas le contenu de quelque façon.

Articles Liés