Les forêts aléatoires avec R de Robin GENUER et Jean-Michel POGGI (2019)
Résumé
Robin Genuer, Maître de Conférences en Statistique à l’Université de Bordeaux, et Jean-Michel Poggi, Professeur en Statistique à l’Université Paris-Descartes, proposent à travers cet ouvrage de 112 pages de s’approprier une méthode d’apprentissage statistique essentielle pour tout-e praticien-ne des données : les forêts aléatoires (random forests).
Comme la plupart des ouvrages de la collection Pratique de la Statistique des Presses Universitaires de Rennes dans laquelle celui-ci est paru en ce début 2019, la présentation des concepts se fait par le point de vue des applications, en particulier à travers un exemple « fil rouge » de données publiques traitant de la détection de pourriels dans la messagerie électronique de George, un employé de l’entreprise américaine HP. Cette approche permet de dérouler les différentes étapes de la méthode, pas à pas. Pour favoriser l’assimilation d’un concept, rien ne vaut la pratique : le logiciel R, outil libre et open-source, offre un terrain tout trouvé pour reproduire – et s’approprier – la méthodologie des forêts aléatoires sur cet exemple, et d’autres. Ainsi, les données et les codes R (formats : scripts et fichiers Rmarkdown) associés à ces exemples sont disponibles en ligne.