Analyse des données

Le coeur d’une étude Big Data est très logiquement concentré dans l’étape d’analyse des données. Beaucoup de chercheurs sur le sujet développent des algorithmes permettant d’analyser les données ayant été préalablement nettoyées. Cependant, il n’est pas nécessairement de savoir coder pour mettre en place une étude Big Data puisque de nombreux codes sont proposés en open source afin que tout le monde puisse en bénéficier et y apporter des modifications. De plus, cet accès permet la reproductibilité des codes et des données. Par ailleurs, les meilleurs data scientists ainsi que les passionnés s’affrontent dans des compétitions mathématiques d’analyse de bases de données grâce au site Kaggle, qui propose aussi un grand nombre de tutoriaux. Les codes produits lors des compétitions sont souvent accessibles à tous. Nous disposons d’outils mathématiques et informatiques (R, SAS, Python, SPAD…) plus ou moins techniques pour le traitement des données. Les méthodes d’analyse, supervisée ou non, sont multiples et peuvent être combinées : l’analyse exploratoire décrit la structure des données, l’analyse inférentielle vérifie leur adéquation à une loi connue et l’analyse prédictive se base sur des faits passés pour donner une vision du futur. Après l’application d’une méthode aux données, plusieurs critères de validation peuvent être appliqués tels que la courbe ROC, les tables de confusion, la validation croisée ou les tests statistiques. Concernant l’interprétation des résultats, il est nécessaire de bien distinguer les notions de corrélation, de dépendance et de causalité. Les algorithmes de machine learning et les réseaux de neurones permettent maintenant aux ordinateurs de reconnaître des photographies ou d’analyser les sentiments exprimés dans des données textes.