Source des données

La première étape de la mise en place d’une étude Big Data est la collecte des données. Une grande rigueur est alors requise de part l’extrême variété des données générées au quotidien par chaque individu. Pour cela, plusieurs alternatives sont possibles : les données privées appartenant aux entreprises, les données publiques gratuites ou payantes (open data) ou les données privées d’autres acteurs. D’autant que les ressources restant inexploitées sont encore importantes : 90% des données possédées par les entreprises le sont sous forme de dark data. De plus, l’influence des méthodes (sondages, objets connectés, questionnaires,...) et des formats (papier, numérique,...) de collecte sur les résultats ne doit pas être négligée. Concernant les données provenant d’Internet, de nouvelles techniques telles que le crawling et le scraping ont vu le jour, tout comme de nouveaux algorithmes permettant d’exploiter plus facilement les données des réseaux sociaux. Toutefois, malgré une législation encore floue sur le sujet, les questions de l’éthique et de l’atteinte à la vie privée ne doivent pas être occultées par des préoccupations commerciales.