Claude GRASLAND
Professeur des Universités en géographie Université de Paris (Diderot) |
Camille SIGNORETTO
Maître de conférences en économie Université de Paris (Diderot) |
Objectif pédagogique :
L’objectif de cet enseignement est d’apprendre aux étudiants à collecter, explorer, transformer et visualiser des données hétérogènes issus aussi bien de la statistique publique que des entreprises privées. Il combine les apprentissages fondamentaux du data mining (acquisition et nettoyage des données, analyse multidimensionnelle, modélisation…) avec des enseignements plus ciblés (analyse, spatiale, analyse textuelle, analyse prédictive…). L’ensemble des traitements et analyse sera réalisée sous la forme de programmes informatiques reproductibles réalisés en langage R (ou Python) et remis sous la forme de documents .html générés à partir de notebooks créés dans un environnement Rstudio ou Jupyter.
Plan de cours :
- Installation des outils d’analyse (R, Notebook, …)
- Collecte et agrégation de données individuelles
- Analyse spatiale (C. Grasland)
- Analyse textuelle (C. Grasland)
- Classification et modélisation (C. Signoretto)
- Analyse prédictive (C. Signoretto)
- Invitation de professionnels
- Soutenance orale des dossiers
Contrôle des connaissances :
Le contrôle des connaissances résultera d’exercices individuels de contrôle continu (40%) et de la constitution et présentation orale d’un dossier réalisé en binômes (60%) combinant des sources de données variées sur un territoire (individus, ménages, entreprises, transactions, …).
Bibliographie indicative :
- Husson F., 2018, R pour la statistique et la science des données, Presses Universitaires de Rennes, 415 p.
- Lemberger P., Batty M., Morel M. et Raffaëlli J.-L., 2015, Big Data et Machine Learning. Manuel du data scientist, Dunod, 219 p.