Outil de binning optimale pour l'analyse prédictive - Alteryx communautaire

Je continuais à lire et voici la meilleure solution:

Considérant monotonicité et / ou les cas de convexité que nos contraintes de la pratique idéale serait en cours d'exécution d'un algorithme d'optimisation constarained pour chaque variable. Faire cela pour plusieurs variables à la fois sera la clé de l'outil à générer.

Une capacité similaire existe dans l'outil de notation SAS qui semble c'est pourquoi outil SAS est surtout utilisé par les institutions financières

Alors maintenant, je crois certainement qu'il ne prendra pas beaucoup d'efforts pour inclure dans la prochaine version.

Il y a une perte d'information avec binning Je suis d'accord.

Mais les relations non linéaires peuvent être capturées aussi. que nous ne pouvons pas le faire dans le journal reg avec des variables continues.

Aussi Dan, ne pensez-vous pas les interactions peuvent être capturées en considérant 2 combinaisons de prédiction par rapport à la cible (Binning en utilisant CHAID)?

De toute évidence, en termes de interprétabilité c'est vraiment une chose difficile à aller expliquer un modèle de forêt aléatoire à un régulateur bancaire.

Voici une documentation modèle FICO scores Experian même, ils le font délibérément binning sur mesure après la binning automatique pour corriger les biais et les contraintes buisiness match, donc environ. 1,2 milliard de personnes dans le monde ont marqué le crédit de cette façon. Et une documentation sur le modèle LGD de SAS sur une base similaire.

Outre les avantages et les inconvénients analytcal du processus la plupart des banques et des entreprises d'assurance sont à la recherche en avant pour les outils binning optimal ou visuels pour leurs binning applications d'analyse avancées. Ce que nous avons largement utilisé dans SAS et SPSS Stat. Négligeant automatique ou de rejeter le fait qu'il est d'usage courant dans plusieurs secteurs vous ne pensez pas que gagne du terrain dans ces industries sera un peu plus difficile?

C'est un bon point. Dans mon ancienne vie en tant que professeur, j'étais toujours suspcious d'analyse des facteurs pour une raison similaire. Venant d'un arrière-plan de l'économétrie, j'ai montré comment l'analyse des facteurs conduirait à des résultats erronés au milieu des modèles endogènes complexes.

Cependant, dans la pratique, je me trouve souvent avoir à faire des compromis. Par exemple, mon entreprise ne sait absolument qu'une partie de notre activité d'engagement est très appréciée par certains de nos clients. Le modèle « correct » identifierait les seuils optimaux engagment entre les différents groupes de clients. Une combinaison de regroupement et des modèles hiérarchiques pourrait permettre de découvrir ce modèle « correct ». Mais, nous avons deux grands barrages routiers à démêler un tel modèle élégant: 1) le manque d'observations (nous sommes une entreprise B2B et ne pas des milliers / des dizaines de milliers d'observations à utiliser de telles approches algorithmiques avec confiance), et 2) nous avoir des signaux bruyants de données d'engagement.

Mettre tout cela, même si je suis un économètre formé, je me trouve dans la nécessité de ces outils rudimentaires comme des algorithmes de binning simplistes optimales. Mes conseillers en thèse seraient grincer des dents à ce poste par moi, je souhaite que je l'aurais utilisé un nom d'utilisateur plus énigmatiques!