Tester des solutions prédictives
L’explosion de la data-science donne lieu à l’émergence de start-ups proposant des solutions prédictives susceptibles d’aider les entreprises dans l’amélioration de la satisfaction de leurs clients. Dans ce cadre, le comité scientifique de la chaire D-CC a inscrit parmi ses missions le test de solutions prédictives originales, de manière à proposer des reviews en dehors de toute contrainte commerciale. Ainsi, le test du logiciel Model Producer de Predicsis se fait en toute indépendance, Predicsis n’étant pas mécène de la chaire.
Des scores au service de la décision
La relation entre l’entreprise et le client repose en grande partie sur la capacité de proposer le bon produit au bon client au bon moment. Un des enjeux quotidiens des data-miners est donc d’estimer la probabilité qu’a chaque client d’une entreprise de présenter un comportement donné. Soit un comportement qu’on désire -l’achat, la souscription- soit un comportement qu’on redoute -le départ à la concurrence, la fraude, le défaut de paiement. Cette probabilité, traduite par un score, est un support quantitatif à la prise de décision des experts métiers, qu’il s’agisse de marketing, de distribution, de gestion du risque ou de tout autre domaine de la relation client.
Prédire bien, mais aussi prédire vite
Dans un marché toujours plus concurrentiel, produire un score de bonne qualité ne suffit plus : il faut le produire rapidement ! Une grande partie du travail des data-miners aujourd’hui consiste à nettoyer les données, discrétiser des variables pour prendre en compte des effets non linéaires, tester un grand nombre de prédictrices potentielles pour choisir le modèle le plus pertinent. Toutes ces tâches sont consommatrices de temps.
Model Producer : du bagging de classifieurs bayésiens
Les classifieurs bayésiens naïfs permettent d’estimer séparément le pouvoir prédictif de chaque variable. Mais il repose sur l’idée que ces variables influent indépendamment les unes des autres sur le comportement à prédire. Le Model Producer de Predicsis propose d’agréger des sous modèles qui respectent cette hypothèse pour trouver un compromis entre la qualité de prédiction d’une part, et la robustesse et la capacité de traiter des gros jeux de données d’autre part.
Une interface conviviale pour construire un modèle de bonne qualité
L’utilisateur accède à l’interface du Model Producer avec un simple navigateur web. Il peut alors choisir le nombre de variables du modèles, choisir de forcer l’exclusion ou l’intégration d’une
variable dans le modèle.
Minimiser le data-management pour se concentrer sur l’essentiel
La discrétisation des variables continues est opérée de manière automatique et quasi-optimale. De plus, les variables qui sont mesurées plusieurs fois, par exemple lorsqu’on dispose de plusieurs commandes pour un même client, sont prises en compte automatiquement par la construction d’un certain nombre d’indicateurs agrégés (nombre de mesures, moyenne de leur valeurs, mode etc.).
Produire des rapports pour communiquer avec les experts métiers
L’interface permet de choisir les variables qu’on intègre dans le rapport. Un graphique permet alors de comprendre leur contribution au score qu’on a construit. L’utilisateur peut ajouter un commentaire pour chacune des variables et le tout est exportable au format pdf pour une transmission rapide aux experts métiers concernés.
Conclusion
Les scores produits par Model Producer ne sont pas forcément plus performants que ceux qu’on peut construire à l’aide de méthodes plus classiques (régression logistique, arbres de décision) , mais pour une qualité comparable, ils sont beaucoup plus rapides à produire. Dans le cas de notre fichier test, on a mis près de dix fois moins de temps à construire le score d’appétence avec el model producer de Predicsis qu’à construire une régression logistique donnant la même courbe de ROC.
Si quelques détails d’ergonomie et quelques problèmes avec des jeux de données de quelques dizaines de Go sont encore présents, Model Producer de Predicsis est un outil convaincant en termes de production rapide de scores comportementaux de bonne qualité.
Un rapport court peut être consulté en cliquant sur le lien suivant : RapportPredicsisCourtV2.
Une version un peu plus détaillée permet d’appréhender sans équation le modèle statistique sous-jacent et de consulter les spécification techniques du serveur utilisé pour notre test : RapportUtilisationPredicsisV2.0.