Data mining et statistique décisionnelle, S. Tufféry - Editions Ophrys

Page 1



Stéphane TUFFÉRY

Responsable statistique dans un grand groupe bancaire français Université de Rennes 1 stephane.tuffery@univ-rennes1.fr

Data Mining et Statistique décisionnelle La science des données Cinquième édition actualisée et augmentée

2017

Éditions TECHNIP

5 avenue de la République, 75011 PARIS


CHEZ LE MÊME ÉDITEUR • Modélisation prédictive et apprentissage statistique avec R S. TUFFÉRY

• Étude de cas en statistique décisionnelle S. TUFFÉRY

• Probabilités, analyse des données et statistique G. SAPORTA

• Les techniques de sondage P. ARDILLY

• Économie générale O. HUEBER

• Approche pragmatique de la classification J.P. NAKACHE, J. CONFAIS

• Statistique explicative appliquée J.P. NAKACHE, J. CONFAIS

• Modèles statistiques pour données qualitatives J.-J. DROESBEKE, M. LEJEUNE, G. SAPORTA, Eds.

• Plans d’expériences. Applications à l’entreprise J.-J. DROESBEKE, J. FINE, G. SAPORTA, Eds.

• Méthodes bayésiennes en statistique J.-J. DROESBEKE, J. FINE, G. SAPORTA, Eds.

• Approches non paramétriques en régression J.-J. DROESBEKE, G. SAPORTA, Eds.

• Analyse statistique des données spatiales J.-J. DROESBEKE, M. LEJEUNE, G. SAPORTA, Eds.

Tous droits de traduction, de reproduction et d’adaptation réservés pour tous pays. Toute représentation, reproduction intégrale ou partielle faite par quelque procédé que ce soit, sans le consentement de l’auteur ou de ses ayants cause, est illicite et constitue une contrefaçon sanctionnée par les articles 425 et suivants du Code pénal. Par ailleurs, la loi du 11 mars 1957 interdit formellement les copies ou les reproductions destinées à une utilisation collective.

© Éditions Technip, Paris, 2017. ISBN 978-2-7108-1180-0


Préface

Cinq éditions pour ce best-seller dont le succès ne se dément pas ! Il est rare qu’un ouvrage de ce type connaisse cinq éditions en si peu de temps. Depuis 2012, date de la quatrième édition, un changement fondamental, certes déjà en germe, s’est produit dans le monde de la statistique et des données : la révolution numérique connue sous le nom de Big Data. On dit que les données sont à l’économie de ème XXI siècle ce qu’étaient la vapeur et le pétrole aux XIXème et XXème siècles. L’homme du XXIème siècle baigne dans un flot d’informations statistiques (résultats économiques, sondages, prévisions sur le climat, la population, les ressources, etc.) dont il ne voit que l’écume sans en soupçonner les lames de fond. En amont de ces résultats, se trouve une production continue de données de toutes formes (numériques, textuelles, images, etc.) que l’on compare à un déluge qu’il importe de maîtriser. Ce déluge est alimenté par les traces numériques que nous laissons lors de nos navigations sur Internet, les objets connectés que nous utilisons consciemment ou non, et pour les entreprises par les innombrables capteurs des processus industriels. Le traitement de ces données aboutit à une nouvelle « science », la science des données, alliant connaissance du domaine, statistique et informatique. Le chapitre 1 profondément remanié est à cet égard particulièrement instructif. Le data mining est né dans les années 1990 de la nécessité de valoriser les bases de données d’entreprise et conduit à analyser et prévoir les comportements individuels des consommateurs. Dès le premier chapitre, l’auteur aborde la question de la protection des données personnelles, montrant que la science des données doit s’accompagner d’une prise de conscience (cf. Rabelais). Comme dans d’autres domaines, telle l’industrie pharmaceutique (mise au point de nouveaux médicaments), la réglementation n’a pas pour but de freiner les ardeurs des statisticiens ; elle stimule aussi leur activité comme actuellement en ingénierie bancaire : réforme dite de « Bâle III » suite à la crise financière qui a montré la nécessité d’une plus grande régulation et d’une meilleure évaluation des risques. Une fois de plus, Stéphane Tufféry a enrichi le contenu de son ouvrage pour tenir compte de ces transformations. Ce livre, unique dans son genre en français, est le fruit d’un travail de réflexion, d’enseignement et d’une expérience professionnelle permanente depuis plusieurs années. Ce traité pratique contient l’essentiel (et au-delà) de ce qu’il faut savoir pour bien comprendre et bien appliquer les techniques du data mining et de la statistique décisionnelle. Dans les éditions précédentes on notait l’accroissement de la place accordée au logiciel libre R, les développements sur les SVM, le bootstrap et les techniques d’ensemble (forêts aléatoires, combinaisons de modèles). Je note dans cette édition l’introduction du « deep learning », renaissance des réseaux de neurones, qui connaît des succès spectaculaires dans certains problèmes de reconnaissance d’images grâce à une puissance de calcul inégalée mais à condition d’avoir des bases d’apprentissage énormes. Les méthodes « classiques » n’ont pas dit


VI

Préface

leur dernier mot et on trouve au chapitre 8 une belle illustration de l’efficacité de l’analyse en composantes principales comme prétraitement d’un deep learning. Comme dans les éditions précédentes, les questions techniques sont abordées avec la rigueur voulue, mais sans formalisme excessif, de sorte que tout lecteur puisse en tirer du fruit mais aussi du plaisir. Les chapitres sont illustrés par de nombreux exemples, traités avec différents logiciels. Au-delà des méthodes classiques que sont l’analyse factorielle, la régression linéaire, l’analyse discriminante de Fisher, la régression logistique, les arbres de décision, la classification automatique hiérarchique ou par partitionnement, les méthodes les plus récentes sont évoquées : régressions robustes, réseaux de neurones, séparateurs à vaste marge (support vector machines), algorithmes génétiques, boosting et arcing, etc. La détection des associations, technique propre au data mining et très utilisée dans la grande distribution pour l’analyse des tickets de caisse, est aussi décrite. L’évaluation et la comparaison des modèles de scoring, avec l’utilisation de la courbe ROC et de la courbe de lift, sont également bien expliquées. Chaque fois, l’ouvrage contient juste ce qu’il faut de rappels théoriques pour pouvoir comprendre les méthodes, les utiliser au mieux et bien en interpréter les résultats. Si passionnantes soient toutes ces techniques, il ne faut pas oublier que l’exploration, le contrôle et la préparation des données sont un préalable indispensable à toute bonne modélisation. L’ouvrage a le mérite de les traiter en détail, avec sérieux, en tirant parti de tous les tests statistiques à la portée de l’utilisateur. Un apport essentiel de cet ouvrage, par rapport aux cours classiques de statistique, est de montrer par le menu et l’exemple comment le data mining s’insère dans une problématique d’entreprise, quels sont ses liens, d’une part avec l’informatique, d’autre part avec le marketing de bases de données ou d’autres commanditaires. Au sujet de la gestion de la relation client, l’auteur rappelle justement que le data mining n’en est qu’une brique, et qu’il est important d’obtenir un fonctionnement harmonieux de l’ensemble. Il aborde donc des questions rarement traitées : que faire quand on manque de données (avec un paragraphe amusant sur le « scoring prénom ») ? Qu’est-ce qu’un score générique ? Quelles sont les conditions d’un bon déploiement en entreprise ? Comment évaluer le retour sur investissement ? Pour guider le lecteur, le deuxième chapitre résume d’ailleurs le déroulement d’un projet de data mining, que le chapitre 19 complète en revenant sur les critères de succès d’une étude. Autre chapitre utile, celui sur les logiciels : outre son aspect pratique, il contient un intéressant comparatif des trois principaux concurrents : R, SAS et SPSS. Enfin, le lecteur trouvera d’utiles considérations sur le text mining et le web mining. Pour conclure, je suis certain que ce livre agréable à lire et riche d’enseignements sera utile à tous les praticiens de la statistique décisionnelle et du data mining et à tous les data scientists qui font le métier le plus « sexy » du XXIème siècle, comme l’écrivait en 2015 la Harvard Business Review.

Gilbert Saporta Professeur émérite de statistique appliquée Conservatoire national des arts et métiers


Avant-propos

« And time future contained in time past » Thomas Stearns Eliot (Burnt Norton, 1936) « All models are wrong but some are useful » George E. P. Box (Robustness in the strategy of scientific model building, 1979) « [L’analyse des données] est un outil pour dégager de la gangue des données le pur diamant de la véridique nature. » Jean-Paul Benzécri (Histoire et préhistoire de l’analyse des données, 1976)

Cet ouvrage traite du data mining (littéralement « fouille de données » ou « forage de données »), qui est l’application des techniques de statistique, d’analyse des données et d’apprentissage automatique (statistical learning et machine learning) à l’exploration et l’analyse sans a priori de grandes bases de données, en vue d’en extraire des informations nouvelles et utiles pour le détenteur de ces données. Il étend son propos vers la data science en en montrant la nouveauté et les spécificités, avec l’apport grandissant du machine learning. Élément essentiel de systèmes d’aide à la décision dans de nombreux domaines économiques, financiers, industriels, scientifiques et médicaux, le data mining a des applications de plus en plus variées. Parmi les plus connues : l’analyse du ticket de caisse dans la grande distribution (pour déterminer les produits souvent achetés simultanément, et agencer les rayons et organiser les promotions en conséquence), le scoring dans les établissements financiers (pour prédire le risque de défaillance d’un demandeur de crédit), les études d’appétence dans les sociétés commerciales (pour concentrer les mailings et les appels téléphoniques sur les clients les plus susceptibles d’y répondre favorablement), la prédiction de l’attrition (départ d’un client chez un fournisseur concurrent) dans la téléphonie mobile, la détection de la fraude, la recherche des facteurs expliquant des défauts de fabrication, l’analyse des accidents de la circulation, l’aide au pronostic médical, le décryptage du génome, l’analyse sensorielle dans l’industrie agro-alimentaire, etc. L’essor actuel du data mining, aussi bien dans le monde industriel qu’universitaire, où il est l’objet d’enseignements et de recherches en plein développement, justifiait l’ambition de rendre accessible dans un ouvrage de synthèse cette technologie, pourvoyeuse de métiers d’avenir et présentée en 2001 par le Massachusetts Institute of Technology


VIII

Avant-propos

comme l’une des dix technologies émergentes qui « changeront le monde » au ème XXI siècle1. Il est aussi un tremplin vers la data science et ses méthodes novatrices (régression en grande dimension, graphes, apprentissage profond ou Deep LearningT) de traitement des Big Data : données de l’Internet, des réseaux sociaux, des capteurs et objets connectés, des images, des vidéos, de la parole, etc. L’objectif de cet ouvrage est de présenter le data mining et la data science et leur apport aux individus, aux organisations et aux entreprises, en agrémentant l’exposé d’exemples variés. Il détaille, d’une part les techniques et algorithmes, d’autre part les méthodologies et principes de mise en œuvre du data mining et de la data science. Nous montrons en quoi leurs techniques, que nous passons en revue, englobent et prolongent les techniques classiques de statistique et d’analyse des données, sur lesquelles nous revenons assez longuement. Nous embrassons donc les techniques traditionnelles (classification, analyse factorielle, régression linéaire, régression ridge, analyse discriminante, régression logistique, modèle linéaire généraliséT) et plus récentes (arbres de décision, réseaux de neurones, support vector machines, algorithmes génétiquesT). Des aperçus sont donnés sur des techniques récentes et toujours plus sophistiquées, telles que l’agrégation de modèles par boosting, bagging ou forêts aléatoires, ou le lasso et l’elastic net. Les techniques sont comparées les unes aux autres, en présentant leurs avantages, leurs inconvénients, leurs contraintes d’utilisation et les domaines où elles s’appliquent le mieux. Nous accordons une attention particulière au scoring, qui reste l’application la plus courante des techniques prédictives de data mining dans le secteur des services (banque, assurance, télécommunications), et nous consacrons une cinquantaine de pages à une étude de cas complète en credit scoring. Bien entendu, nous nous intéressons également aux autres techniques prédictives, ainsi qu’aux techniques descriptives, qui vont de l’analyse du ticket de caisse, c’est-à-dire de la détection des règles d’associations, jusqu’à la classification automatique connue en marketing sous le nom de segmentation de clientèle. Nous portons une attention particulière aux questions primordiales d’exploration, de vérification et d’analyse des données, de tests et d’inférence statistiques, d’échantillonnage et de traitement des grands volumes de données. Nos propos sont illustrés par de nombreux exemples mettant en œuvre, selon les cas, les logiciels commerciaux SAS, IBM SPSS ou le logiciel libre R, tandis que les bases statistiques nécessaires sont rappelées dans une annexe en fin d’ouvrage. Dans un chapitre spécifique, nous indiquons les critères de choix d’un logiciel de statistique ou de data mining, les principaux logiciels disponibles, puis nous présentons et nous comparons de façon approfondie les trois déjà cités : R, SAS et IBM SPSS. La partie méthodologique de l’ouvrage décrit toutes les étapes d’un projet, de la définition des objectifs jusqu’à l’utilisation des modèles et à l’évaluation des résultats. Sont indiqués les facteurs de succès d’un projet, le retour sur investissement à en attendre dans le domaine des affaires, certaines difficultés particulières, ainsi que les erreurs à ne pas commettre.

1

Outre le data mining, les neuf autres technologies majeures du XXI

ème

siècle selon le MIT sont : la

biométrie, la reconnaissance vocale, l’interface cérébrale, la gestion numérique des droits d’auteur, la programmation « orientée aspect », la microfluidique, l’optoélectronique, l’électronique flexible et la robotique.


Avant-propos

IX

Une présentation du text mining et du web mining complète le panorama de ces nouvelles techniques d’analyse des données. Enfin, une bibliographie commentée et un index achèvent l’ouvrage. Cet ouvrage se veut être un ouvrage de référence et un ouvrage pratique, contenant plus d’explications techniques et de fondements théoriques que les ouvrages généralistes sur le data mining, les Big Data ou les ouvrages orientés « informatique décisionnelle » ou « marketing de bases de données », et contenant plus d’exemples et de conseils de mise en œuvre que les ouvrages de pure statistique. Le présent ouvrage a été écrit en partant du constat suivant. Les purs statisticiens éprouvent parfois des réticences à mettre en œuvre des techniques de data mining dans un cadre qui sort de celui de la statistique traditionnelle, par ses méthodes, sa philosophie et la nature de ses données, souvent volumineuses et surtout imparfaites. De leur côté, les spécialistes des bases de données et les analystes n’utilisent pas toujours au mieux les outils de statistique et data mining qu’ils ont entre les mains, faute d’en connaître les principes et le fonctionnement exact. Le présent ouvrage s’adresse à ces deux familles de lecteurs, en abordant les questions techniques d’une façon suffisamment accessible pour être utilisable avec un minimum de bagage mathématique, mais suffisamment précise et rigoureuse pour permettre à l’utilisateur de ces techniques de les maîtriser et d’en tirer le meilleur parti, sans occulter les problématiques rencontrées dans l’exercice quotidien de la statistique. Fruit de la double expérience d’un théoricien et d’un praticien, ce livre est donc destiné à un assez large public : aux statisticiens des entreprises privées et publiques, auxquels il pourra servir d’ouvrage de référence ; aux étudiants et enseignants en statistique, en data science et en économétrie, qui y verront un support, un complément et une application concrète de leurs cours ; aux analystes et aux chargés d’étude des directions concernées (risque, finance, marketing, logistiqueT), qui verront ce que peut leur apporter le data mining et ce qu’ils peuvent demander aux data scientists et autres statisticiens ; aux directions générales et informatiques, qui pourront y découvrir l’opportunité d’investissements productifs dans l’analyse de leurs bases de données, ainsi que les conditions de succès des projets de data mining ; à tout lecteur curieux, qui découvrira quelques coulisses de la société de l’information et du monde digital dans laquelle nous vivons, et la façon dont sont exploitées nos données personnelles. L’ambition de ce livre est d’être utile au spécialiste tout en restant lisible par le néophyte.

Remerciements Je tiens à remercier tout particulièrement Gilbert Saporta, qui a bien voulu me faire l’honneur de préfacer mon ouvrage, pour son soutien amical et les échanges toujours enrichissants que je peux avoir avec lui. Je remercie vivement Jean-Pierre Nakache et Ludovic Lebart pour leurs suggestions et leurs encouragements constants et chaleureux.


X

Avant-propos

Je remercie Olivier Decourt pour ses remarques pertinentes sur la statistique en général et sur le logiciel SAS en particulier. Je remercie Brigitte Gelein pour sa relecture attentive et ses observations avisées sur le chapitre consacré aux arbres de décision. Je remercie David Hand, Hervé Abdi et Stéphane Colas pour leurs avis utiles sur mon manuscrit. Je remercie Hervé Mignot et Grégoire de Lassence qui ont relu mon manuscrit et m’ont fait part de maintes précisions opportunes. Je n’oublie pas non plus mes amis statisticiens, mes collègues de l’Université de Rennes 1 et mes étudiants, même si la liste en serait trop longue pour figurer dans ce petit avant-propos. Je réserve enfin une pensée particulière à mon épouse et mes enfants pour leur patience et leur soutien précieux pendant l’écriture de cet ouvrage.


Table des matières

Préface ............................................................................................................................... V Avant-propos .................................................................................................................. VII Panorama du data mining et de la data science ............................................................. 1 1.1. 1.2.

1.3. 1.4.

Du data mining à la data science ......................................................................................... 1 Applications du data mining et de la data science................................................................ 8 1.2.1.

Par secteur d’activité ................................................................................................................ 8

1.2.2.

Par type d’application .............................................................................................................15

Data mining, data science et informatique ......................................................................... 19 Data science et protection des données personnelles ....................................................... 28

Le déroulement d’une étude de data mining ................................................................. 33 2.1. 2.2. 2.3. 2.4. 2.5. 2.6. 2.7. 2.8. 2.9. 2.10. 2.11. 2.12. 2.13. 2.14. 2.15. 2.16.

Définition des objectifs ....................................................................................................... 33 Inventaire des données existantes .................................................................................... 34 Collecte des données ........................................................................................................ 35 Exploration et préparation des données ............................................................................ 38 Segmentation de la population .......................................................................................... 40 Élaboration et validation des modèles prédictifs ................................................................ 42 Synthèse des modèles prédictifs des différents segments ................................................. 44 Itération des étapes précédentes ....................................................................................... 44 Déploiement des modèles ................................................................................................. 45 Formation des utilisateurs des modèles ............................................................................. 46 Suivi des modèles ............................................................................................................. 46 Enrichissement des modèles ............................................................................................. 49 Remarques ........................................................................................................................ 49 Cycle de vie d’un modèle ................................................................................................... 50 Charges pour un projet pilote............................................................................................. 50 Facteurs de succès et modalités de mise en œuvre .......................................................... 51

L’exploration et la préparation des données................................................................. 53 3.1. 3.2. 3.3. 3.4. 3.5.

Les différents types de données ........................................................................................ 53 L’examen de la distribution des variables .......................................................................... 55 La détection des valeurs rares ou manquantes.................................................................. 56 La détection des valeurs aberrantes .................................................................................. 63 La détection des valeurs extrêmes .................................................................................... 65


XII 3.6. 3.7. 3.8.

3.9. 3.10. 3.11. 3.12. 3.13. 3.14. 3.15.

Table des matières Les tests de normalité........................................................................................................ 66 Homoscédasticité et hétéroscédasticité ............................................................................. 71 La détection des variables les plus discriminantes............................................................. 72 3.8.1.

Variables explicatives qualitatives, discrètes ou découpées en classes ...............................73

3.8.2.

Variables explicatives continues ............................................................................................76

3.8.3.

Précisions sur les tests non-paramétriques à un facteur .......................................................81

3.8.4.

L’automatisation de la sélection des variables discriminantes ..............................................85

La transformation des variables ......................................................................................... 88 La discrétisation des variables continues ........................................................................... 92 La création de nouvelles variables ..................................................................................... 97 La détection des interactions ............................................................................................. 99 La sélection des variables ............................................................................................... 101 La détection de la colinéarité ........................................................................................... 105 L’échantillonnage............................................................................................................. 108 3.15.1. L’utilisation de l’échantillonnage ..........................................................................................108 3.15.2. Les méthodes d’échantillonnage aléatoire ..........................................................................109 3.15.3. Exemples d’échantillonnage ................................................................................................111

3.16. Le traitement des grands volumes de données................................................................ 118

L’utilisation des données commerciales et géodémographiques ............................. 123 4.1. 4.2.

4.3.

4.4.

Le data mining dans la gestion de la relation client .......................................................... 123 Les données utilisées dans les applications commerciales .............................................. 126 4.2.1.

Données sur les transactions et données RFM ...................................................................126

4.2.2.

Données sur les produits et contrats ...................................................................................127

4.2.3.

Anciennetés .........................................................................................................................127

4.2.4.

Données sur les canaux ......................................................................................................129

4.2.5.

Données relationnelles, attitudinales et psychographiques .................................................129

4.2.6.

Données sociodémographiques ..........................................................................................130

4.2.7.

Quand on manque de données ...........................................................................................131

4.2.8.

Données techniques ............................................................................................................132

Des données particulières ............................................................................................... 132 4.3.1.

Les données géodémographiques ......................................................................................132

4.3.2.

La rentabilité.........................................................................................................................140

Les données utilisées dans certains secteurs d’activité ................................................... 142 4.4.1.

Les données utilisées dans la banque .................................................................................142

4.4.2.

Les données utilisées dans l’assurance ..............................................................................144

4.4.3.

Les données utilisées dans la téléphonie ............................................................................145

4.4.4.

Les données utilisées dans la vente par correspondance ...................................................146

Les logiciels de statistique, data mining et machine learning................................... 147 5.1. 5.2.

Typologie des logiciels de data mining et de statistique ................................................... 147 Les caractéristiques importantes des logiciels ................................................................. 150 5.2.1.

Points de comparaison ........................................................................................................150

5.2.2.

Méthodes implémentées ......................................................................................................151

5.2.3.

Fonctions de préparation des données ...............................................................................152

5.2.4.

Autres fonctions ...................................................................................................................152

5.2.5.

Caractéristiques techniques.................................................................................................153


Table des matières 5.3.

5.4. 5.5.

XIII

Les principaux logiciels .................................................................................................... 154 5.3.1.

Vue d’ensemble ...................................................................................................................154

5.3.2.

IBM SPSS ............................................................................................................................156

5.3.3.

SAS ......................................................................................................................................159

5.3.4.

R ...........................................................................................................................................163

5.3.5.

Éléments de langage R ........................................................................................................174

Comparaison des logiciels R, SAS et IBM SPSS ............................................................. 177 Conseils pour diminuer les temps de traitement .............................................................. 202

Panorama des méthodes de statistique et de data mining ........................................ 207 6.1. 6.2. 6.3.

Un point de terminologie .................................................................................................. 207 Classification des méthodes ............................................................................................ 208 Comparatif des méthodes ................................................................................................ 208

L’analyse factorielle....................................................................................................... 213 7.1.

7.2.

7.3.

7.4.

L’analyse en composantes principales ............................................................................ 213 7.1.1.

Principe de l’analyse en composantes principales ..............................................................213

7.1.2.

Représentation des variables ..............................................................................................219

7.1.3.

Représentation des individus ...............................................................................................225

7.1.4.

Utilisation de l’analyse en composantes principales............................................................225

7.1.5.

Choix du nombre d’axes factoriels .......................................................................................228

7.1.6.

En bref ..................................................................................................................................231

Les variantes de l’analyse en composantes principales ................................................... 231 7.2.1.

ACP avec rotation ................................................................................................................231

7.2.2.

ACP des rangs .....................................................................................................................233

7.2.3.

ACP sur variables qualitatives .............................................................................................234

L’analyse factorielle des correspondances ...................................................................... 234 7.3.1.

Principe de l’analyse factorielle des correspondances ........................................................234

7.3.2.

La distance du χ²..................................................................................................................236

7.3.3.

L’inertie du nuage de points et des axes factoriels ..............................................................236

7.3.4. 7.3.5.

Représentation graphique et interprétation .........................................................................237 Mise en œuvre de l’AFC avec le package FactoMineR ....................................................238

L’analyse des correspondances multiples........................................................................ 242 7.4.1.

Principe de l’analyse des correspondances multiples .........................................................242

7.4.2.

Valeurs propres et inertie .....................................................................................................244

7.4.3.

Représentation graphique et interprétation .........................................................................246

7.4.4.

Récapitulatif sur l’analyse factorielle des correspondances et l’analyse des

correspondances multiples ................................................................................................................249 7.4.5.

7.5.

Mise en œuvre de l’ACM et de l’AFC avec le logiciel SAS ..................................................250

Méthodes plus générales de l’analyse factorielle ............................................................. 259

Les réseaux de neurones artificiels ............................................................................. 265 8.1. 8.2. 8.3.

Généralités sur les réseaux de neurones......................................................................... 265 Structure d’un réseau de neurones .................................................................................. 267 Choix de l’échantillon d’apprentissage ............................................................................. 270


XIV 8.4. 8.5. 8.6.

8.7. 8.8. 8.9.

Table des matières Quelques règles empiriques pour le dimensionnement d’un réseau ................................ 270 Les algorithmes d’apprentissage ..................................................................................... 271 Les principaux réseaux de neurones ............................................................................... 272 8.6.1.

Le perceptron multicouche ...................................................................................................272

8.6.2.

Le réseau à fonction de base radiale ...................................................................................276

8.6.3.

Le réseau de Kohonen .........................................................................................................279

8.6.4.

Les réseaux de neurones en Deep Learning .......................................................................282

Illustration dans la reconnaissance de l’écriture manuscrite ............................................ 284 Avantages des réseaux de neurones............................................................................... 292 Inconvénients des réseaux de neurones ......................................................................... 293

Les méthodes de classification automatique .............................................................. 295 9.1. 9.2. 9.3. 9.4.

9.5.

9.6. 9.7. 9.8.

9.9.

Définition de la classification ............................................................................................ 295 Applications de la classification ....................................................................................... 296 Complexité de la classification ......................................................................................... 296 Structures de classification .............................................................................................. 297 9.4.1.

Structure des données à classer .........................................................................................297

9.4.2.

Structure des classes obtenues ...........................................................................................297

Quelques points méthodologiques ................................................................................... 298 9.5.1.

Le nombre optimum de classes ...........................................................................................298

9.5.2.

L’utilisation de certains types de variables ..........................................................................299

9.5.3.

L’utilisation de variables illustratives ....................................................................................300

9.5.4.

L’évaluation de la qualité de la classification .......................................................................301

9.5.5.

L’interprétation des classes obtenues .................................................................................301

9.5.6.

Les critères de bonne classification .....................................................................................303

Comparaison de l’analyse factorielle et de la classification .............................................. 303 Inerties intraclasse et interclasse ..................................................................................... 304 Mesures de qualité d’une classification ............................................................................ 305 9.8.1.

Pour tous types de classification..........................................................................................306

9.8.2.

Pour la classification hiérarchique ascendante....................................................................309

Les méthodes de partitionnement .................................................................................... 310 9.9.1. 9.9.2.

La méthode des centres mobiles .........................................................................................310 Les k-means et les nuées dynamiques ...............................................................................311

9.9.3. 9.9.4.

Traitement des données qualitatives ...................................................................................312 Les k-medoids et leurs variantes .........................................................................................312

9.9.5.

Avantages des méthodes de partitionnement .....................................................................313

9.9.6.

Inconvénients des méthodes de partitionnement ................................................................314

9.9.7.

Sensibilité au choix des centres initiaux ..............................................................................315

9.10. La classification ascendante hiérarchique........................................................................ 316 9.10.1. Principe de la classification ascendante hiérarchique .........................................................316 9.10.2. Les principales distances utilisées .......................................................................................317 9.10.3. Avantages de la classification ascendante hiérarchique .....................................................322 9.10.4. Inconvénients de la classification ascendante hiérarchique ................................................322

9.11. Les méthodes basées sur la densité................................................................................ 323 9.11.1. Principe ................................................................................................................................323 9.11.2. L’algorithme DBSCAN .........................................................................................................325 9.11.3. L’algorithme OPTICS ...........................................................................................................330


Table des matières

XV

9.12. Les méthodes mixtes de classification ............................................................................. 334 9.12.1. Principe ................................................................................................................................334 9.12.2. Illustration avec le logiciel SAS ............................................................................................335

9.13. La classification neuronale .............................................................................................. 345 9.13.1. Les cartes de Kohonen ........................................................................................................345 9.13.2. Avantages de la classification neuronale .............................................................................346 9.13.3. Inconvénients de la classification neuronale .......................................................................346

9.14. La classification de variables ........................................................................................... 346 9.15. Vue d’ensemble des méthodes de classification .............................................................. 361

La détection des règles d’associations ....................................................................... 365 10.1. 10.2. 10.3. 10.4. 10.5. 10.6. 10.7.

Principes.......................................................................................................................... 365 Utilisation de la taxinomie ................................................................................................ 368 Utilisation de variables supplémentaires .......................................................................... 369 Applications ..................................................................................................................... 370 Exemple d’utilisation ........................................................................................................ 370 Avantages de la détection des règles d’associations ....................................................... 376 Inconvénients de la détection des règles d’associations .................................................. 376

Les méthodes de classement et de régression .......................................................... 377 11.1. Introduction...................................................................................................................... 377 11.2. Méthodes inductives et transductives .............................................................................. 378 11.3. Vue d’ensemble des méthodes de classement et de régression...................................... 380 11.3.1. Les qualités attendues d’une méthode de classement ou de régression ............................380 11.3.2. Le pouvoir de généralisation ................................................................................................382 11.3.3. La théorie de l’apprentissage de Vapnik ..............................................................................383 11.3.4. Le sur-apprentissage ...........................................................................................................386

11.4. Estimateurs et estimation des paramètres d’un modèle ................................................... 390 11.4.1. Les caractéristiques d’un estimateur ...................................................................................390 11.4.2. L’estimateur du maximum de vraisemblance ......................................................................393 11.4.3. Algorithmes de recherche du maximum de vraisemblance .................................................401 11.4.4. Critères d’ajustement d’un modèle ......................................................................................401 11.4.5. Autres estimateurs ...............................................................................................................403 11.4.6. L’estimateur bootstrap .........................................................................................................404 11.4.7. L’utilisation du bootstrap ......................................................................................................407

11.5. L’amélioration des performances d’un modèle prédictif ................................................... 409 11.5.1. Le clustering de modèles .....................................................................................................409 11.5.2. L’agrégation de modèles ......................................................................................................412 11.5.3. La combinaison de modèles ................................................................................................413

11.6. Mise en œuvre des méthodes de classement et régression ............................................ 416 11.6.1. Le choix des méthodes de modélisation ..............................................................................416 11.6.2. La phase d’apprentissage d’un modèle ...............................................................................420 11.6.3. L’inférence des refusés ........................................................................................................423 11.6.4. La phase de test d’un modèle ..............................................................................................430 11.6.5. Courbe ROC, courbe de lift et indice de Gini .......................................................................432


XVI

Table des matières 11.6.6. La table de classification d’un modèle .................................................................................444 11.6.7. La phase de validation d’un modèle ....................................................................................445 11.6.8. La phase d’application d’un modèle.....................................................................................446

L’analyse discriminante linéaire et ses généralisations ............................................ 447 12.1. 12.2. 12.3. 12.4. 12.5.

Problématique ................................................................................................................. 447 L’analyse discriminante géométrique descriptive (analyse factorielle discriminante)........ 448 L’analyse discriminante géométrique prédictive ............................................................... 454 L’analyse discriminante probabiliste ................................................................................ 457 Les mesures de la qualité du modèle .............................................................................. 460 12.5.1. Le lambda de Wilks ..............................................................................................................461 12.5.2. Le coefficient de détermination R² .......................................................................................465 12.5.3. Le coefficient de détermination R² ajusté ............................................................................465

12.6. 12.7. 12.8. 12.9.

Syntaxe de l’analyse discriminante dans le logiciel SAS .................................................. 465 L’analyse discriminante sur variables qualitatives (méthode DISQUAL) .......................... 468 Avantages de l’analyse discriminante linéaire .................................................................. 469 Inconvénients de l’analyse discriminante linéaire............................................................. 470

Le modèle linéaire et ses généralisations ................................................................... 471 13.1. 13.2. 13.3. 13.4. 13.5. 13.6. 13.7. 13.8. 13.9. 13.10. 13.11. 13.12. 13.13.

La régression linéaire simple ........................................................................................... 471 Régression linéaire multiple et régression pénalisée ....................................................... 475 Les tests en régression linéaire ....................................................................................... 481 Les tests sur les résidus .................................................................................................. 488 Influence d’observations .................................................................................................. 495 Exemple de régression linéaire........................................................................................ 497 Compléments sur la syntaxe SAS de la régression linéaire ............................................. 505 Problèmes de colinéarité en régression linéaire : un exemple avec le logiciel R .............. 508 Problèmes de colinéarité en régression linéaire : diagnostic et solutions ......................... 516 La régression PLS ........................................................................................................... 519 Traitement de la régression régularisée avec SAS et R ................................................... 522 La régression robuste ...................................................................................................... 555 Le modèle linéaire général .............................................................................................. 560

Le modèle logistique et ses généralisations ............................................................... 565 14.1. Le classement par régression logistique .......................................................................... 565 14.1.1. Principes de la régression logistique binaire .......................................................................566 14.1.2. Les régressions logistiques logit, probit et log-log ...............................................................570 14.1.3. Les odds-ratios.....................................................................................................................573 14.1.4. Illustration du découpage en classes ...................................................................................575 14.1.5. Estimation des paramètres ..................................................................................................576 14.1.6. Déviance et mesure de qualité d’un modèle ........................................................................581 14.1.7. Séparation complète ............................................................................................................585 14.1.8. Tests statistiques de la régression logistique ......................................................................591 14.1.9. Effet du découpage en modalités et du choix de la modalité de référence .........................595 14.1.10. Effet de la colinéarité ...........................................................................................................596 14.1.11. Influence de l’échantillonnage sur la régression logit ..........................................................597 14.1.12. Syntaxe de la régression logistique dans le logiciel SAS ....................................................598


Table des matières

XVII

14.1.13. Exemple de modélisation par régression logistique ............................................................600 14.1.14. Régression logistique avec le logiciel R ..............................................................................613 14.1.15. Avantages de la régression logistique .................................................................................616 14.1.16. Avantages du modèle logit sur le modèle probit ..................................................................616 14.1.17. Inconvénients de la régression logistique ............................................................................616

14.2. Développements de la régression logistique.................................................................... 617 14.2.1. La régression logistique sur individus de poids différents ...................................................617 14.2.2. La régression logistique sur données corrélées ..................................................................617 14.2.3. La régression logistique ordinale .........................................................................................618 14.2.4. La régression logistique multinomiale ..................................................................................620 14.2.5. La régression logistique PLS ...............................................................................................621 14.2.6. La régression logistique pénalisée.......................................................................................623

14.3. Le modèle linéaire généralisé .......................................................................................... 627 14.3.1. Le cadre théorique ...............................................................................................................627 14.3.2. La régression de Poisson ....................................................................................................631 14.3.3. La modélisation des données longitudinales .......................................................................635 14.3.4. Le modèle additif généralisé ................................................................................................646

Les arbres de décision .................................................................................................. 649 15.1. Le classement par arbre de décision ............................................................................... 649 15.1.1. Principe de l’arbre de décision .............................................................................................649 15.1.2. Définitions – première étape de la construction de l’arbre ..................................................650 15.1.3. Critère de séparation ...........................................................................................................653 15.1.4. Répartition dans les nœuds – deuxième étape de la construction de l’arbre ......................657 15.1.5. Élagage – troisième étape de la construction de l’arbre ......................................................658 15.1.6. Piège à éviter .......................................................................................................................661

15.2. Les principaux arbres de décision ................................................................................... 661 15.2.1. CART ...................................................................................................................................661 15.2.2. C5.0 ......................................................................................................................................665 15.2.3. CHAID ..................................................................................................................................667

15.3. 15.4. 15.5. 15.6. 15.7.

Le classement d’une variable ordinale par arbre de décision ........................................... 669 La régression par arbre de décision................................................................................. 670 Avantages des arbres de décision ................................................................................... 672 Inconvénients des arbres de décision .............................................................................. 672 L’algorithme MARS .......................................................................................................... 676

Les autres modèles prédictifs ...................................................................................... 679 16.1. Les méthodes bayésiennes ............................................................................................. 679 16.1.1. Le classifieur bayésien naïf ..................................................................................................680 16.1.2. Les réseaux bayésiens ........................................................................................................684

16.2. Le classement par « support vector machines » (SVM) ................................................... 687 16.2.1. Introduction aux SVM ...........................................................................................................687 16.2.2. Implémentation.....................................................................................................................693 16.2.3. Exemple d’application : reconnaissance de l’écriture manuscrite .......................................693 16.2.4. Avantages des SVM ............................................................................................................696


XVIII

Table des matières 16.2.5. Inconvénients des SVM .......................................................................................................697

16.3. Les algorithmes génétiques ............................................................................................. 697 16.3.1. Mécanisme des algorithmes génétiques .............................................................................697 16.3.2. Applications des algorithmes génétiques ............................................................................700 16.3.3. Inconvénients des algorithmes génétiques ..........................................................................701

Les méthodes d’agrégation de modèles...................................................................... 703 17.1. 17.2. 17.3. 17.4. 17.5. 17.6.

Le recours au bootstrap ................................................................................................... 703 Le bagging....................................................................................................................... 705 Les forêts aléatoires et les Extra-Trees ........................................................................... 706 Le boosting ...................................................................................................................... 710 Quelques applications ..................................................................................................... 719 Conclusion....................................................................................................................... 723

Une application du data mining : le scoring ................................................................ 725 18.1. Les différents types de scores ......................................................................................... 725 18.2. L’utilisation des scores d’appétence et de risque ............................................................. 727 18.3. La méthodologie .............................................................................................................. 728 18.3.1. Détermination des objectifs ..................................................................................................729 18.3.2. Inventaire et préparation des données ................................................................................729 18.3.3. Constitution de la base d’analyse ........................................................................................730 18.3.4. Élaboration d’un modèle prédictif.........................................................................................731 18.3.5. Utilisation du score ...............................................................................................................731 18.3.6. Déploiement du score ..........................................................................................................732 18.3.7. Suivi des outils mis à disposition .........................................................................................732

18.4. Mise en œuvre d’un score stratégique ............................................................................. 733 18.5. Mise en œuvre d’un score opérationnel ........................................................................... 734 18.6. Les différentes solutions de scoring pour une entreprise ................................................. 735 18.6.1. Score en interne ou externalisé ...........................................................................................735 18.6.2. Score générique ou personnalisé ........................................................................................738 18.6.3. Résumé des différentes solutions possibles ........................................................................739

18.7. 18.8. 18.9. 18.10.

Un exemple de credit scoring (préparation des données) ................................................ 740 Un exemple de credit scoring (modélisation par régression logistique) ............................ 768 Un exemple de credit scoring (modélisation par analyse discriminante DISQUAL) .......... 779 Une brève histoire du credit scoring................................................................................. 790

Les facteurs de succès d’un projet de data mining .................................................... 793 19.1. 19.2. 19.3. 19.4. 19.5. 19.6.

Le sujet ............................................................................................................................ 793 Les hommes .................................................................................................................... 794 Les données .................................................................................................................... 795 L’informatique .................................................................................................................. 795 La culture d’entreprise ..................................................................................................... 796 Sept idées fausses sur le data mining ............................................................................. 798 19.6.1. Aucun a priori n’est nécessaire ............................................................................................798 19.6.2. On n’a plus besoin de spécialistes du métier ......................................................................798 19.6.3. On n’a plus besoin de statisticiens.......................................................................................799 19.6.4. Le data mining permet de faire des découvertes incroyables .............................................800


Table des matières

XIX

19.6.5. Le data mining est révolutionnaire .......................................................................................800 19.6.6. Il faut utiliser toutes les données disponibles ......................................................................800 19.6.7. Il ne faut jamais échantillonner ............................................................................................801

19.7. Le retour sur investissement ............................................................................................ 801

Le text mining ................................................................................................................ 805 20.1. 20.2. 20.3. 20.4.

Définition du text mining .................................................................................................. 805 Les sources de textes utilisées ........................................................................................ 807 Utilisations du text mining ................................................................................................ 807 Les étapes de l’analyse textuelle ..................................................................................... 809 20.4.1. Collecte des données textuelles ..........................................................................................809 20.4.2. Identification de la langue ....................................................................................................809 20.4.3. Reconnaissance des mots composés et locutions (entités nommées) ...............................810 20.4.4. Segmentation (tokenisation) ................................................................................................810 20.4.5. Identification des catégories grammaticales (étiquetage grammatical) ...............................812 20.4.6. Désambiguïsation ................................................................................................................813 20.4.7. Simplifications ......................................................................................................................813 20.4.8. Analyse syntaxique ..............................................................................................................816 20.4.9. Racinisation..........................................................................................................................816 20.4.10. Lemmatisation ......................................................................................................................817 20.4.11. Suppression des mots-outils ................................................................................................818 20.4.12. Représentation vectorielle ...................................................................................................818 20.4.13. Analyses sur la matrice « documents x termes » ................................................................820 20.4.14. Pondération TF-IDF .............................................................................................................829 20.4.15. Analyse sémantique latente .................................................................................................830 20.4.16. Allocation de Dirichlet latente...............................................................................................832 20.4.17. Représentation Word2Vec ...................................................................................................833 20.4.18. Quelques méthodes statistiques en text mining ..................................................................835

20.5. Recherche d’information .................................................................................................. 837 20.6. Extraction d’information ................................................................................................... 838

Le web mining ................................................................................................................ 841 21.1. Les objectifs du web mining ............................................................................................. 841 21.2. Analyses globales............................................................................................................ 842 21.2.1. À quoi servent-elles ? ..........................................................................................................842 21.2.2. La structure du fichier « log »...............................................................................................842 21.2.3. L’utilisation du fichier « log » ................................................................................................843

21.3. Analyses individuelles...................................................................................................... 846 21.4. Analyses nominatives ...................................................................................................... 846 21.5. Mesures d’audience des sites web .................................................................................. 847

Annexe : Rappels de statistique ................................................................................... 849 22.1. Aperçu historique............................................................................................................. 849 22.2. Rappels de statistique ..................................................................................................... 851 22.2.1. Caractéristiques statistiques ................................................................................................851


XX

Table des matières 22.2.2. La boîte à moustaches .........................................................................................................853 22.2.3. Les tests d’hypothèses ........................................................................................................854 22.2.4. Tests asymptotiques, exacts, paramétriques et non-paramétriques ...................................856 22.2.5. Intervalle de confiance d’une moyenne : le test de Student ................................................857 22.2.6. Intervalle de confiance d’une fréquence (ou proportion) .....................................................858 22.2.7. Liaison entre deux variables continues : coefficient de corrélation linéaire .........................860 22.2.8. Liaison entre deux variables numériques ou ordinales : coefficient de corrélation des rangs de Spearman, τ de Kendall, D de Somers et γ de Goodman et Kruskal ...........................................862 22.2.9. Liaison entre n ensembles de plusieurs variables continues ou binaires : l’analyse de corrélation canonique.........................................................................................................................865 22.2.10. Liaison entre deux variables nominales : le test du χ² .........................................................866 22.2.11. Exemple d’utilisation du test du χ² .......................................................................................867 22.2.12. Liaison entre deux variables nominales : le coefficient de Cramer .....................................869 22.2.13. Liaison entre deux variables nominales : le test exact de Fisher ........................................870 22.2.14. Cadre général de la loi hypergéométrique ...........................................................................874 22.2.15. Liaison entre deux tests : le test de Mc Nemar....................................................................876 22.2.16. Liaison entre variables nominales : le paradoxe de Simpson .............................................877 22.2.17. Liaison entre une variable nominale et une variable numérique : le test de la variance (ANOVA à 1 facteur) ..........................................................................................................................879 22.2.18. Liaison entre une variable nominale et une variable numérique : complément sur le test nonparamétrique de Kruskal-Wallis .........................................................................................................882 22.2.19. Modèle de survie semi-paramétrique de Cox ......................................................................882

22.3. Tables statistiques ........................................................................................................... 883 22.3.1. Table de la loi normale centrée réduite ...............................................................................883 22.3.2. Table de la loi de Student ....................................................................................................884 22.3.3. Table de la loi du χ²..............................................................................................................884 22.3.4. Table de la loi de Fisher-Snedecor au seuil de probabilité 0,05 ..........................................884 22.3.5. Table de la loi de Fisher-Snedecor au seuil de probabilité 0,10 ..........................................884

Bibliographie .................................................................................................................. 893 23.1. 23.2. 23.3. 23.4. 23.5. 23.6. 23.7. 23.8. 23.9.

Sur la statistique et l’analyse des données ...................................................................... 893 Sur le data mining et la data science ............................................................................... 896 Sur les applications du data mining ................................................................................. 899 Sur le text mining ............................................................................................................. 899 Sur le web mining ............................................................................................................ 900 Sur le logiciel R................................................................................................................ 900 Sur le logiciel SAS ........................................................................................................... 902 Sur le logiciel IBM SPSS ................................................................................................. 903 Sites Internet ................................................................................................................... 903

Index .............................................................................................................................. 907


Chapitre 1

Panorama du data mining et de la data science

Le premier chapitre définit le data mining et la data science, et en décrit les principales applications et les apports à différents domaines financiers, industriels, marketing, médicaux et scientifiques. Il situe en outre le data mining et la data science par rapport à la statistique, qui leur fournit bon nombre de ses méthodes et concepts théoriques, et par rapport à l’informatique, qui leur fournit sa matière première (les données), ses moyens de calcul et son vecteur de communication (la restitution des résultats) vers les autres applications informatiques et vers les utilisateurs. Il montre l’évolution du data mining vers la data science. Il évoque enfin les limites légales inhérentes au traitement de données à caractère personnel, limites érigées pour protéger les libertés individuelles des personnes dont on manipule les données.

1.1. Du data mining à la data science La statistique, jadis confinée dans les études de laboratoire, les expérimentations cliniques, l’actuariat et certaines analyses de risque, a envahi avec le data mining de nombreux domaines, qui vont de l’infini petit (génomique) à l’infiniment grand (astrophysique), du plus quotidien (reconnaissance de l’écriture manuscrite) au plus technologique (aide au pilotage aéronautique), du plus ouvert (e-commerce) au plus sécuritaire (prévention du terrorisme, détection de la fraude dans la téléphonie mobile ou l’utilisation des cartes bancaires), du plus industriel (contrôle qualité, pilotage de la production) au plus théorique (enquêtes en sciences humaines, études biologiques, médicales et pharmaceutiques), et du plus alimentaire (études agronomiques et agroalimentaires) au plus divertissant (prédictions d’audience à la télévision et systèmes de recommandation de films et de musique). Elle envahit désormais avec la data science de nouveaux domaines : les transports aujourd’hui (fixation dynamique du prix des billets d’avion, amélioration du trafic routier par géolocalisation T) et demain (voiture sans conducteur), l’assurance (tarification adaptée au comportement en temps réel de l’assuré), la sécurité, le marketing digital, les domaines scientifiques (météorologie, génomique, épidémiologie, imagerie médicale, astronomie, physique nucléaireT) et même sportifs, avec l’analyse des données collectées sur le déplacement et les gestes des joueurs tout au long d’une compétitionT jusqu’au jeu de go, qui a vu son champion du monde humain


2

1. Panorama du data mining

vaincu pour la première fois en mars 2016 par AlphaGo, un programme d’intelligence artificielle basé sur l’apprentissage profond (Deep Learning)2. À cette simple énumération, on devine que le spectre des applications du data mining et de la data science est très large. Les plus concernés sont les secteurs où d’importants volumes de données doivent être analysés, parfois en vue de prendre des décisions rapides comme le montrent certains des exemples précédents. L’aide à la décision devient une finalité du data mining et de la data science, dont on n’attend plus seulement (ou plus nécessairement) qu’ils aident à comprendre le réel en le modélisant. Cette démarche n’est pas absolument nouvelle et se rencontre en médecine, où certains traitements ont pu être mis au point sur la base d’analyses statistiques, alors que le mécanisme biologique de la maladie, un cancer par exemple, demeurait mal connu du fait de sa complexité. Le data mining permet de limiter la subjectivité humaine dans les processus de décision, et aussi, grâce à la puissance grandissante des outils informatiques, de traiter de plus en plus rapidement de grands nombres de dossiers. Plus encore, la data science exploite de nouvelles sources de données pour proposer de nouveaux services innovants au consommateur et au citoyen, comme ceux qui s’appuient sur la géolocalisation. Elle ambitionne aussi d’améliorer les processus opérationnels, comme par exemple en déclenchant une opération de maintenance sur une machine ou un véhicule, non pas sur la base d’un calendrier préétabli, mais de l’analyse en temps réel et en continu de données issues de nombreux capteurs permettant de déceler l’usure et la fragilité d’une pièce. Tous ces exemples ont en commun de nécessiter l’exploration et l’analyse de bases de données souvent grandes, qui sont stockées informatiquement, en vue de détecter dans ces données des règles, des associations, des tendances inconnues ou cachées, des structures particulières restituant l’essentiel de l’information utile tout en réduisant la quantité de données. Pour cela, des méthodes scientifiques et des outils de calcul ont été développés et regroupés dans la discipline appelée data mining, terme que l’on traduit parfois en français par fouille de données, et qui a récemment évolué vers la data science avec l’apport de nouvelles méthodes théoriques et l’arrivée de nouvelles problématiques et de nouvelles données. En bref, le data mining est l’art d’extraire des informations, voire des connaissances, à partir des données. Il s’agit bien d’extraction « intelligente » et non de simple présentation de résultats chiffrés, de statistiques3, de sondages, d’états des ventes, de cours de bourse, d’indicateurs macro-économiques, de relevés météorologiquesT Il ne s’agit pas de statistique descriptive élémentaire. En revanche, le data mining intervient dès que, partant de certaines de ces données brutes, on tente d’aller du connu vers l’inconnu et de se livrer à des prédictions ou des analyses de tendance plus fouillées. Le data mining dépasse le constat pour aller jusqu’à l’inférence et la modélisation. Une partie du data mining consiste d’ailleurs à modéliser le passé afin de prédire l’avenir : on souhaite par exemple trouver des règles recelées dans les masses de données dont on dispose sur les anciens clients, afin de les appliquer à de nouveaux clients et prendre les meilleures décisions possibles. Au lieu des clients d’une entreprise, on peut aussi s’intéresser à des souches bactériennes dans un laboratoire, des types d’engrais dans une plantation, des molécules chimiques dans un tube à essai, des 2

Silver D. et al. (2016). Mastering the game of Go with deep neural networks and tree search, Nature

529, 484–489. 3

Au pluriel, pour distinguer ces résultats de la discipline elle-même, dont le nom s’écrit au singulier.


Chapitre 2

Le déroulement d’une étude de data mining

Avant de revenir en détail dans les chapitres suivants sur les points importants d’une étude ou d’un projet de data mining, nous en décrivons rapidement, dans ce chapitre, les différentes phases et les facteurs de succès. Toutes sont évoquées, sachant que certaines sont facultatives (2.5 et 2.7), et que la plupart peuvent être confiées à un cabinet spécialisé (sauf bien sûr 2.1, et en partie 2.2). Nous compléterons et nous illustrerons certaines de ces étapes dans le chapitre spécifiquement consacré au scoring. Nous supposons ici le logiciel de statistique ou de data mining acquis, en renvoyant au chapitre sur les logiciels pour les critères de choix et les comparaisons. Généralement, les phases d’un projet de data mining sont les suivantes : définition des objectifs, inventaire des données existantes, collecte des données, exploration et préparation des données, segmentation de la population, élaboration et validation des modèles prédictifs, déploiement des modèles, formation des utilisateurs des modèles, suivi des modèles, enrichissement des modèles.

2.1. Définition des objectifs Il faut commencer par choisir le sujet, définir la population cible (les prospects et les clients, seulement les clients, seulement les clients fidèles, tous les malades, seulement les malades curables par le traitement testéT), définir l’entité statistique étudiée (la personne, le foyer réduit aux conjoints, le foyer étendu aux enfants à charge, l’entreprise avec ou sans ses filialesT), définir certains critères essentiels et en particulier le phénomène à prédire, planifier le projet, prévoir l’utilisation opérationnelle des informations extraites et des modèles produits, et spécifier les résultats attendus. Pour cela, il faut réunir autour de la table, à la fois la maîtrise d’ouvrage (selon les cas, directions des risques, du développement, experts métiers, futurs utilisateursT) et la maîtrise d’œuvre (statisticiens et informaticiens). Certains projets de data mining étant largement transversaux et concernant plusieurs directions, il est bon que la direction générale soit représentée dans cette étape pour pouvoir procéder aux inévitables arbitrages. Elle a


34

2. Le déroulement d’une étude de data mining

aussi le pouvoir de promouvoir ce nouvel outil qu’est le data mining, au cas où son introduction — avec les changements de processus qu’elle peut engendrer — rencontrerait des oppositions dans l’entreprise. Les interlocuteurs présents à cette étape se retrouveront ensuite périodiquement dans un comité de pilotage pour faire un point d’avancement du projet. Cette étape conditionne en partie le choix des outils de data mining qui seront utilisés. À titre d’exemple, si le but est de fournir des règles explicites à un service marketing ou de découvrir les facteurs de rémission d’une maladie, les réseaux de neurones seront exclus. Les objectifs doivent être précis et conduire à des actions concrètes, comme l’affinement d’un ciblage pour une campagne de marketing direct. Dans le domaine commercial, les objectifs doivent aussi être réalistes (voir section 19.1) et tenir compte des réalités économiques, des actions marketing déjà menées, du taux de pénétration, de la saturation du marchéT

2.2. Inventaire des données existantes La seconde étape est le recensement des données utiles, accessibles (internes ou externes à l’entreprise ou à l’organisation), légalement et techniquement exploitables, fiables et suffisamment à jour sur les caractéristiques et le comportement des individus étudiés : clients, patients, usagersT Ces données proviennent du système d’information de l’entreprise, ou alors sont stockées dans l’entreprise hors du système d’information centralisé (fichiers Excel, Access...), ou bien sont achetées ou récupérées à l’extérieur de l’entreprise (prestataires, open data, Web, réseaux sociaux), ou encore sont calculées à partir des données précédentes (indicateurs, ratios, évolutions au cours du temps). Lorsque l’on cherche à construire un modèle prédictif, il faut de plus rechercher un second type de données, qui sont les historiques sur le phénomène à prédire. Il faut donc avoir des résultats d’expériences médicales, de campagnes commercialesT afin de savoir comment des patients, des clientsT dont on connaissait les caractéristiques, ont réagi à un médicamentT ou un mailing commercial. Dans le second cas, les effets secondaires sont plus rares, et l’on veut seulement savoir si le client sollicité a acheté ou non ce qu’on lui proposait, ou quelque chose d’autre, ou rien du tout. Le modèle à construire devra donc corréler l’acte d’achat ou la guérison aux autres données détenues sur l’individu. Un problème se pose parfois lorsque l’entreprise ne dispose pas des données nécessaires, soit parce qu’elle ne les a pas historisées, soit parce qu’elle crée une nouvelle activité, ou tout simplement parce qu’elle a peu de contacts directs avec sa clientèle. Dans ce cas, elle procédera à des enquêtes auprès d’échantillons de clients, au besoin en les incitant à répondre à des questionnaires en leur proposant des cadeaux. Elle pourra aussi tirer parti du géomarketing, des mégabases de données (Acxiom, Wegener Direct Marketing), des données des médias sociaux ou d’outils tels que le « scoring prénom » (voir le chapitre 4). L’entreprise pourra enfin recourir à des modèles standards préétablis par des sociétés spécialisées. Il existe par exemple dans le domaine bancaire des scores génériques de risque (voir section 18.6.2). Il arrive que l’entreprise dispose de données, mais sous une forme malheureusement impropre à une utilisation en data mining, lorsque ces données sont :


Chapitre 4

L’utilisation des données commerciales et géodémographiques

Ce chapitre commence par rappeler le rôle central du data mining dans la gestion de la relation client, avant de décrire les principales données étudiées dans les utilisations commerciales du data mining. Il s’arrête sur les données géodémographiques et de rentabilité très utiles dans certains contextes. Il énumère enfin les principales données utilisées dans les secteurs de la banque, de l’assurance de dommages, de la téléphonie et de la vente par correspondance.

4.1. Le data mining dans la gestion de la relation client Nous avons constaté dans le premier chapitre à quel point sont nombreuses les applications économiques et commerciales du data mining, notamment dans le domaine de la « gestion de la relation client », où il joue un rôle central que nous expliquons à présent. L’idée initiale est que la richesse des entreprises réside aujourd’hui beaucoup dans leurs clients. La part de client a remplacé la part de marché. De grandes entreprises ont été valorisées sur la base de leur fichier clientèle, en considérant que chaque client vaut tant (beaucoup) d’euros ou de dollars. Dans ce contexte, la compréhension des attentes des clients et l’anticipation de leurs besoins deviennent un objectif majeur de nombreuses entreprises, qui souhaitent augmenter la rentabilité et la fidélité de leurs clients, tout en maîtrisant les risques et en utilisant les bons canaux au bon moment pour leur vendre le bon produit. Pour y parvenir, la maîtrise de l’information, fournie par les clients ou détenue sur eux, est un élément primordial de succès. C’est à cet objectif que souhaite répondre ce que l’on appelle Gestion de la Relation Client (GRC) ou Customer Relationship Management (CRM). Le CRM se décompose en deux principaux éléments : le CRM opérationnel et le CRM analytique. L’objet du CRM analytique est l’extraction, le stockage, l’analyse et la restitution des informations pertinentes permettant de fournir une vision complète et unifiée du client dans l’entreprise et de mieux comprendre son profil et ses besoins. La matière première du CRM analytique est la donnée, et ses composants sont l’entrepôt de données (data warehouse40), l’analyse multidimensionnelle (OLAP41), le data mining et les outils de reporting.

40

Un data warehouse est un ensemble de bases de données ayant des propriétés adaptées à

l’informatique décisionnelle : les données sont transversales à l’entreprise, consolidées à partir des différents


124

4. L’utilisation des données commerciales et géodémographiques

La gestion des différents canaux (forces commerciales, centres d’appels téléphoniques, serveurs vocaux, bornes interactives, téléphonie mobile, InternetT) et la gestion des campagnes marketing pour une mise en œuvre optimale des stratégies identifiées grâce au CRM analytique relèvent du CRM opérationnel. De plus en plus, les outils de CRM opérationnel s’interfacent avec les applicatifs métiers de back-office, les progiciels de gestion intégrés, les outils de work-flow, de gestion des agendas et des alertes commerciales. Le CRM opérationnel, qui s’appuie sur les résultats du CRM analytique, alimente en retour le CRM analytique en données à analyser. Comme le montre la Figure 4.1, il y a donc une noria de données entre les CRM opérationnel et analytique, d’autant plus que la multiplication des canaux de communication fait que l’information client est de plus en plus riche et complexe à capter et analyser.

gestion des canaux

collecte des informations clients

gestion des campagnes

CRM OPÉRATIONNEL

analyse des informations clients

CRM ANALYTIQUE

Figure 4.1 – La chaîne de la relation client

L’accroissement des expertises et de la technicité oblige à stocker de plus en plus de données pour les besoins opérationnels de la gestion quotidienne, et fait perdre l’approche globale du client. Le nombre de rapports et de tableaux de bord explose, mais « trop de données tue la donnée » et les entreprises risquent de connaître de moins en moins leurs clients. Le data mining a pour ambition d’aider à tirer parti de cette complexité. Il s’appuie sur des bases de données, ou, de plus en plus souvent, sur des entrepôts de données qui permettent de stocker le profil de chaque client, c'est-à-dire l’ensemble de ses caractéristiques propres, et l’ensemble de ses accords et de ses échanges passés et présents avec l’entreprise. Cette connaissance globale et historisée de chaque client systèmes d’information de production, orientées utilisateur, historisées, documentées, éventuellement agrégées. 41 Stockage de données dans un cube à n dimensions (« hypercubes ») dont tous les croisements sont précalculés, de façon à fournir une réponse très rapide à des questions portant sur plusieurs axes, tel le chiffre d’affaires par type de client et ligne de produit.


Chapitre 6

Panorama des méthodes de statistique et de data mining

Ce chapitre introduit les douze chapitres qui forment le cœur technique de l’ouvrage. Ils restent d’un niveau plus accessible que certains ouvrages spécialisés sur la statistique, l’analyse des données et le machine learning, et nous avons souhaité que leur lecture soit agréable. Toutefois, elle n’est pas indispensable au lecteur qui ne s’intéresse qu’aux applications du data mining et aux aspects méthodologiques de sa mise en œuvre dans une entreprise. Elle est en revanche nécessaire à qui veut, non seulement comprendre le fonctionnement des outils qu’il emploie pour mieux les utiliser, mais simplement savoir dans quels cas recourir préférentiellement à telle ou telle méthode. Par méthode, ou algorithme, nous entendons la procédure qui permet, à partir de données en entrée, d’obtenir en sortie un résultat sous la forme d’un modèle prédictif ou descriptif. Le premier permettra d’effectuer des prédictions sur d’autres données. Le second permettra de synthétiser l’information et d’identifier les « patterns » ou formes présentes dans les données. Dans ce premier chapitre technique, nous présentons les méthodes descriptives et prédictives de data mining et de statistique dans leur ensemble et nous comparons leurs principales caractéristiques, que nous détaillerons dans les chapitres suivants.

6.1. Un point de terminologie Il y a trois techniques de data mining dont nous parlons plus loin, et au sujet desquelles se rencontrent dans la littérature trois terminologies différentes. Tableau 6.1 – Terminologie

Auteurs anglo-saxons

Certains auteurs francophones

Analyse des données à la française

clustering

segmentation

classification

classification

classification

classement, analyse discriminante

decision trees

arbres de décision

segmentation

Dans la suite, nous employons la terminologie en grisé ci-dessus, la plus répandue en France.


208

6. Panorama des méthodes de statistique et de data mining

6.2. Classification des méthodes Comme indiqué dans le premier chapitre de l’ouvrage, les principales méthodes de data mining et d’analyse des données se répartissent en deux grandes familles : les méthodes descriptives et les méthodes prédictives. Dans les méthodes descriptives, qui réduisent, résument, synthétisent les données, il n’y a pas de variable à expliquer, à prédire : pas de variable privilégiée. Dans les méthodes prédictives, qui expliquent les données, il y a une variable privilégiée, une variable à expliquer. Nous affinons cette classification dans le Tableau 6.2, où apparaissent grisées les méthodes ressortissant à la statistique et l’analyse des données traditionnelle. Si l’on se concentre sur les méthodes prédictives, on peut être plus précis en les distinguant (Tableau 6.3) selon le type des variables traitées, explicatives (en lignes) et à expliquer (en colonnes). Bien entendu, les lignes « n quantitatives » (représentant des quantités différentes) et « n qualitatives » ne présentent un intérêt que lorsque les variables à expliquer sont corrélées entre elles. Sinon, il suffit de faire n analyses du type « 1 quantitative » ou « 1 qualitative ». Les méthodes descriptives de classification, quant à elles, sont présentées plus en détail dans un tableau récapitulatif à la fin du chapitre 9. Nota Bene : dans ce livre, le logarithme utilisé est toujours le logarithme népérien.

6.3. Comparatif des méthodes Nous récapitulons dans le Tableau 6.4 les avantages et inconvénients des méthodes les plus courantes de data mining au vu de trois qualités essentielles attendues : l’absence d’hypothèses restrictives sur le problème à résoudre ; la capacité de traiter toujours exhaustivement les données en un temps raisonnable ; la possibilité de manier des données lacunaires et de types hétérogènes, numériques ou non (s’agissant des variables explicatives, pour les techniques de classement et prédiction).


Chapitre 12

L’analyse discriminante linéaire et ses généralisations

Avant la diffusion de la régression logistique, l’analyse discriminante de Fisher fut longtemps la grande méthode de classement, utilisée dans de nombreux contextes allant de la biologie, avec les travaux fondateurs de Fisher en 1936166, jusqu’au credit scoring. Cette méthode, initialement limitée à un cadre que nous verrons plus loin, excelle à l’intérieur de ce cadre, en fournissant des prédictions explicites, précises et robustes, pourvu que l’on ait bien préparé les données. Ce cadre a connu dans les dernières décennies de profondes généralisations. Un prolongement inventé par Gilbert Saporta, sous le nom de méthode DISQUAL, a ainsi permis à l’analyse discriminante d’étendre son cadre hors des variables explicatives quantitatives pour traiter aussi les variables qualitatives. Plus récemment, les travaux de Hastie, Tibshirani et Friedman, exposés dans leur célèbre ouvrage167, ont produit l’analyse discriminante régularisée (inspirée de la régression ridge), l’analyse discriminante flexible (avec passage dans un espace de dimension plus grande comme pour les SVM) et l’analyse discriminante avec mélange de gaussiennes pour la loi P(x/G=i). Achevons, pour convaincre de l’importance de l’analyse discriminante, en disant qu’elle se trouve au carrefour des méthodes paramétriques, semiparamétriques (régression logistique) et non-paramétriques (estimation de densité de probabilité), et qu’elle a aussi à voir avec l’analyse en composantes principales.

12.1. Problématique Voici la situation-type traitée par l’analyse discriminante : on a un ensemble d’individus appartenant chacun à un groupe, le nombre de groupes étant fini et > 1. Deux problèmes se posent à nous : trouver une représentation des individus qui sépare le mieux les groupes (analyse discriminante descriptive) et trouver des règles d’affectation des individus à leur groupe (analyse discriminante prédictive). Une autre formulation est la suivante : on a un ensemble d’individus caractérisés par une variable à expliquer Y qualitative et des variables explicatives Xi quantitatives. On peut vouloir trouver une représentation des liaisons entre Y et les Xi (analyse

166

Fisher, R.A. : « The Use of Multiple Measurements in Taxonomic Problems », Annals of Eugenics, 7,

179-188, 1936. 167 Trevor Hastie, Robert Tibshirani, Jerome H. Friedman: The Elements of Statistical Learning, Springer Verlag, 2nd edition, 2009.


448

12. L’analyse discriminante linéaire et ses généralisations

discriminante descriptive), ou vouloir trouver des règles de prédiction des modalités de Y à partir des valeurs des Xi (analyse discriminante prédictive). L’analyse discriminante offre plusieurs approches à cette double problématique. Méthode descriptive (représenter les groupes) Approche géométrique

Méthode prédictive (prédire l’appartenance à un groupe)

OUI Analyse factorielle discriminante

OUI Analyse discriminante linéaire

NON

OUI Analyse discriminante linéaire Analyse discriminante quadratique Analyse discriminante non paramétrique Régression logistique

Approche probabiliste

12.2. L’analyse discriminante factorielle discriminante)

géométrique

multinormalité homoscédasticité équiprobabilité

descriptive

(analyse

On a une variable à expliquer Y qualitative à k modalités, correspondant à k groupes Gi dont on note ni les effectifs. L’effectif total est n. On a d’autre part p variables explicatives Xj continues. L’analyse factorielle discriminante consiste à remplacer les Xj par des axes discriminants, c’est-à-dire des combinaisons linéaires des Xj prenant les valeurs les plus différentes possible pour des individus différant sur la variable à expliquer. On reconnaîtra dans ce mécanisme une analyse en composantes principales du nuage des k centres de gravité des classes (pondérés par ni/n). Les axes sont au nombre de k–1 ou p, le plus petit des deux. L’exemple historique d’analyse discriminante est celui des iris de Fisher, répartis en trois espèces et décrits par quatre variables : longueur et largeur des pétales et des sépales (Figure 12.4). La Figure 12.1 illustre simplement l’approche géométrique descriptive : Dans cet exemple, on voit que : l’axe « x » sépare bien les groupes « B » et « C » mais non les groupes « A » et « B », l’axe « y » sépare bien les groupes « A » et « B » mais non les groupes « B » et « C », mais l’axe « z », combinaison linéaire de « x » et « y », sépare bien les trois groupes. La droite d’équation z = 1 sépare les « B » et les « C », tandis que la droite d’équation z = – 1 sépare les « A » et les « B » : donc « z » est une fonction de score.

Mathématiquement, les n individus forment un nuage de n points dans ℝp, formé des k sous-nuages Gi à différencier. La variance interclasse (« between ») est par définition la variance des barycentres gi (« centroïdes ») des classes Gi, et la matrice des covariances « between » est B = 1/n Σni(gi – g)(gi – g)’. La variance intraclasse (« within ») est par définition la moyenne pondérée des variances des classes Gi, et la matrice des




Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.