Nos articles Big Data

Questions générales

L’actuelle explosion des volumes de données soulève la question des limites de la structure classique de l’informatique, au profit d’un nouveau concept connu sous le nom de Big Data. “Volume, Variété, Vélocité, Véracité, Valeur”, tels sont les caractéristiques de ce dernier. Cette évolution affecte tous les secteurs et entraîne la création de nouveaux métiers au sein des entreprises. Pour répondre à la demande croissante, les grandes écoles et les universités françaises orientent leurs recherches et développent des formations spécialisées. Bien que le concept de data science ne soit pas récent, son implantation dans les entreprises engendre de profondes transformations des principes d'apprentissage, notamment grâce aux algorithmes de machine learning.

Stratégie d’entreprise

L’émergence du Big Data pousse les entreprises à établir leurs stratégies afin de tirer profit des volumes croissants de données inhérentes à leur activité. L’étude de ces données massives permet la mise en évidence de smart data qui deviennent les données clés de l’aide à la décision. Les stratégies d’adaptation sont diverses : instauration d’une culture data driven, recours à des entreprises spécialisées, approche top-down ou bottum-up. Cependant, le big data soulève encore de nombreuses questions telles que le coût engendré ou le risque de se retrouver face à une bulle comparable à la bulle internet. L’un des secteurs les plus concernés par l’émergence de ces technologies est l’assurance. Il est légitime de se demander si les changements dûs à l'arrivée du big data constituent une menace pour le métier de l’assureur tel qu’on le connaît actuellement ou si au contraire ils renforceront son rôle. En effet, les nouveaux outils mis à leur disposition permettront une meilleure identification des fraudeurs ainsi qu’une réduction de risque d’anti-sélection. Malgré l’émergence des métiers propres au big data, le rôle de l’actuaire n’en demeure pas moins important et en sortira même renforcé grâce à la transversalité de ses compétences et à son bagage technique. Le big data apporte de plus des opportunités nouvelles telles que la mise en place de l’assurance connectée, notamment en assurance automobile par le biais d’objets connectés. De plus, le développement de ces technologies pousse certains groupes internationaux comme Google vers l’assurance ou vers la monétisation des données à l’instar de Facebook.

Source des données

La première étape de la mise en place d’une étude Big Data est la collecte des données. Une grande rigueur est alors requise de part l’extrême variété des données générées au quotidien par chaque individu. Pour cela, plusieurs alternatives sont possibles : les données privées appartenant aux entreprises, les données publiques gratuites ou payantes (open data) ou les données privées d’autres acteurs. D’autant que les ressources restant inexploitées sont encore importantes : 90% des données possédées par les entreprises le sont sous forme de dark data. De plus, l’influence des méthodes (sondages, objets connectés, questionnaires,...) et des formats (papier, numérique,...) de collecte sur les résultats ne doit pas être négligée. Concernant les données provenant d’Internet, de nouvelles techniques telles que le crawling et le scraping ont vu le jour, tout comme de nouveaux algorithmes permettant d’exploiter plus facilement les données des réseaux sociaux. Toutefois, malgré une législation encore floue sur le sujet, les questions de l’éthique et de l’atteinte à la vie privée ne doivent pas être occultées par des préoccupations commerciales.

Nettoyage des données

Consécutivement à l’étape de collecte des données, le nettoyage de ces dernières constitue un palier déterminant pour la qualité de la poursuite de l’étude. Il a pour objectif l’amélioration de la qualité des données. Cette étape peut être longue à cause de la diversité des types de problèmes auxquels il faut remédier pour faire de nos données collectées une base de données structurée. En particulier, le besoin d’extraire de l’information des textes a entraîné l’élaboration de nouvelles techniques de nettoyage comprenant plusieurs étapes afin de transformer des mots et des phrases (données non structurées) en valeurs numériques exploitables (données structurées).

Stockage des données

Dans la majorité des cas, le nettoyage des données les formate en bases SQL. La manipulation de ces dernières en est facilitée. Il convient ensuite de s’interroger sur la manière de les stocker, d’autant plus que les volumes traités dépassent souvent la capacité des disques durs actuels. Pour répondre à cette problématique, les développeurs ont mis au point des systèmes de stockage parallèle comme Hadoop. Par ailleurs, l’échantillonnage apparaît aussi être une bonne alternative pour palier au problème de l’explosion des volumes. La législation limite cependant les durées de stockage des données personnelles par les entreprises.

Analyse des données

Le coeur d’une étude Big Data est très logiquement concentré dans l’étape d’analyse des données. Beaucoup de chercheurs sur le sujet développent des algorithmes permettant d’analyser les données ayant été préalablement nettoyées. Cependant, il n’est pas nécessairement de savoir coder pour mettre en place une étude Big Data puisque de nombreux codes sont proposés en open source afin que tout le monde puisse en bénéficier et y apporter des modifications. De plus, cet accès permet la reproductibilité des codes et des données. Par ailleurs, les meilleurs data scientists ainsi que les passionnés s’affrontent dans des compétitions mathématiques d’analyse de bases de données grâce au site Kaggle, qui propose aussi un grand nombre de tutoriaux. Les codes produits lors des compétitions sont souvent accessibles à tous. Nous disposons d’outils mathématiques et informatiques (R, SAS, Python, SPAD…) plus ou moins techniques pour le traitement des données. Les méthodes d’analyse, supervisée ou non, sont multiples et peuvent être combinées : l’analyse exploratoire décrit la structure des données, l’analyse inférentielle vérifie leur adéquation à une loi connue et l’analyse prédictive se base sur des faits passés pour donner une vision du futur. Après l’application d’une méthode aux données, plusieurs critères de validation peuvent être appliqués tels que la courbe ROC, les tables de confusion, la validation croisée ou les tests statistiques. Concernant l’interprétation des résultats, il est nécessaire de bien distinguer les notions de corrélation, de dépendance et de causalité. Les algorithmes de machine learning et les réseaux de neurones permettent maintenant aux ordinateurs de reconnaître des photographies ou d’analyser les sentiments exprimés dans des données textes.

Visualisation des données

Dans le but de rendre accessible les résultats de l’étude à tous les membres de l’entreprise, l’étape de visualisation est cruciale. C’est le rôle du data minder ou data viz, qui dispose d’un panel d’outils de création de visualisations très large. R et Excel proposent des solutions adéquates, entre autres, les plus utilisées sont les package Rmarkdown et Shiny de R et les graphiques comme le Bubble Chart d’Excel.

Outils de production

De nombreux outils sont disponibles afin de réaliser des études Big Data. Certains de ces outils sont apparus en réponse au besoin soulevé par les volumes croissants des bases de données, tandis que d'autres, dont les domaines d'applications sont plus vastes, se sont adaptés à cette tendance.