Bengs Lab

La donnée, nouvel épicentre de l’innovation

1 La donnée ? Un actif !

Le Big Data

Le terme Big Data apparaît pour la première fois en 1997 dans un article scientifique présentant les défis technologiques à relever pour visualiser « les grands ensembles de données » Le Big Data résulte de l’accroissement rapide de la quantité de données générées chaque jour. L’impossibilité de traiter des jeux de données du fait de leur taille via les infrastructures et les capacités technologiques en place en fait un vrai défi à relever :

« Le domaine de la visualisation fournit un challenge intéressant pour les systèmes informatiques : les jeux de données sont généralement très grands et mettent à mal la mémoire vive et les disques durs locaux et distants d’un ordinateur. Nous appelons cela le problème du Big Data. Quand les jeux de données sont plus larges que la mémoire de l’ordinateur, ou quand ces jeux dépassent également le disque local la solution communément admise est d’acquérir plus de ressources. »

Les technologies de l’information (dont Internet) sont ce que nous pourrions appeler un « pharmakon ». C’est le philosophe Bernard Stiegler qui emprunte cette notion à Jacques Derrida, lui-même l’empruntant à Platon. Pour Stiegler, toute technologie est pharmakon, elle est à la fois poison et remède, ce qui ne signifie pas qu’elle soit neutre. Car, comme les remèdes et les poisons, les technologies n’agissent pas toutes au même endroit. Le traitement du Big Data s’invente pour répondre à un problème technologique créé par le progrès technologique lui-même.

Ce progrès a conduit à une accumulation de données au sein des entreprises et a fait émerger des problématiques techniques liées à la collecte, au stockage et au traitement de celles-ci. Difficile d’être en mesure de traiter des données hétérogènes et non structurées produites dans des quantités de plus en plus grandes !

Le domaine de la visualisation fournit un challenge intéressant pour les systèmes informatiques

 

DES PROGRES TECHNIQUES QUI ONT PARTICIPE A L’AVENEMENT DE LA DONNEE MASSIVE

Les progrès techniques conduisant au Big Data se sont fait sur 4 plans, chacun décrit sous la forme d’une loi, dont la plus connue est celle de Moore pour les capacités de traitement.  Les autres portent sur la densité de stockage (loi de Kryder), la capacité des réseaux (loi de Nielsen), l’énergie requise par calcul (loi de Koomey). A ces lois s’ajoute le paradoxe de Jevon sur la consommation des ressources.

 

LA LOI DE MOORE

En 1965, Gordon E. Moore, co-fondateur d’Intel, constate que « la complexité des semi-conducteurs proposés en entrée de gamme » double à coût constant tous les deux ans. C’est la première loi de Moore.

En 1975, Moore reformule sa première loi en posant que le nombre de transistors des microprocesseurs sur une puce de silicium double tous les deux ans.

Il ne s’agit aucunement d’une loi physique mais d’une observation qui s’est vérifiée entre 1971 et 2001, la densité des microprocesseurs doublant toutes les 1,96 années.

En conséquence, toute machine basée sur un processeur, est devenue de moins en moins coûteuse et de plus en plus puissante

 

LA LOI DE KRYDER

La loi de Kryder établit que les disques magnétiques voient leur densité de stockage doubler tous les 13 mois, entraînant une chute du coût des stockages de données. Une fois la limite des disques durs magnétiques atteinte, de nouvelles technologies de stockage fondées sur des transistors (nommé disque électronique ou SSD) ont pris le relais, ajoutant la loi de Moore à celle de Kryder.

Depuis 1996 le stockage digital d’une donnée coûte moins cher que son stockage analogique. Les technologies Compactflash dans les années 2000 ont fait tomber le coût de sauvegarde aux alentours de 1 dollar le Gigaoctet (Go), et en 2014 Google proposait un abonnement mensuel au Cloud pour 0,0072 dollar le Go.

Martin Hilbert et Priscila Lopez estiment qu’entre 1986 et 2007 le taux de croissance annuel moyen de la capacité de stockage mondiale a été de 25%.

 

LA LOI DE NIELSEN

Jakob Nielsen, spécialiste des interactions homme-machine a postulé en 1998 que le débit de la connexion domestique à Internet augmente de 50% tous les ans. Selon Nielsen, la consommation croissante de données des utilisateurs génère une augmentation du besoin en capacité de traitement dans les data centers, créant ainsi un cercle de demande autoalimenté qui contribue à l’accélération de la vitesse des réseaux.

 

LA LOI DE KOOMEY

L’idée principale est qu’à un calcul donné, la quantité d’énergie demandée chute d’un facteur de 2 tous les 18 mois. Cette évolution rend possible la très large diffusion de l’informatique mobile et ubiquitaire, les capteurs et autres détecteurs télémétriques en minimisant le besoin en énergie et par corrélation le dégagement de chaleur induit. Par conséquent, la quantité de données à traiter et le temps de calcul nécessaire dans les data centers augmente.

 

LE PARADOXE DE JEVONS

Bien avant l’informatique, l’économiste anglais William Stanley Jevons observa en 1865 que la consommation de charbon connut un pic de demande après l’introduction de la machine à vapeur de Watt, quand bien même celle-ci était moins gourmande en énergie que celle de Newcomen, son prédécesseur. La machine à vapeur de Watt a amélioré l’efficience et donc augmenté la rentabilité du charbon, ce qui a eu pour effet de généraliser son emploi augmentant en retour la consommation de charbon. Le paradoxe de Jevons démontre que l’efficacité d’exploitation d’une ressource tend à en généraliser et à en diversifier les usages, faisant augmenter la demande globale. Ainsi, chaque étape de l’informatique, loin d’assouvir nos envies et nos besoins, ne fait qu’augmenter la demande en informatique. Le corollaire de ce besoin croissant est la quantité de données produites.

 

LES PRINCIPALES CARACTERISTIQUES DE LA DONNEE MASSIVE

Dix ans après la première apparition du terme Big Data, ce concept s’est progressivement diffusé. En 2008 Bryant, Katz et Lazowska vont définitivement le crédibiliser en l’expliquant :

« À l’image des moteurs de recherche qui ont transformé notre manière d’accéder aux informations, d’autres formes de Big Data sont en mesure et en passe de transformer les activités des entreprises, des chercheurs, des médecins et des équipes de renseignements et de défense gouvernementale… Le Big data est probablement la plus grande innovation dans le domaine de l’informatique de ces 10 dernières années. Nous commençons à peine à apercevoir son potentiel pour collecter, organiser et traiter les données dans tous les aspects du quotidien.

Ces auteurs fondent leurs conclusions sur un ensemble d’exemples de traitement de données à très grande échelle utilisant le machine learning et le data mining pour détecter des corrélations et des tendances. Il en va ainsi de Walmart qui a mis en place entre 2000 et 2008 un data warehouse capable de stocker 4 Petaoctets, (4 Millions de Gigaoctets) correspondant à l’ensemble des données d’achats réalisés dans ses points de vente pour contrôler l’efficacité de ses campagnes marketing, de sa stratégie de prix et améliorer la gestion de sa supply chain. Sur le plan scientifique, le Large Haldron Collider produit 60 Teraoctets de données par jour (soit 60 000 Gigaoctets) soit 15 Petaoctets de données par an (15 Millions de Gigaoctet) qui sont traités par des infrastructures automatiques adaptées.

Néanmoins le Big Data ne se définit pas uniquement par la quantité de données traitées. La science des données se caractérise par la loi des 5V que sont : le volume, la variété, la vitesse d’acquisition et de transmission, la véracité, la valeur. Le parallèle est ici immédiat avec les lois de Moore, de Kryder, et de Nielsen. On parlera de démarche Big Data uniquement quand au moins deux des trois dimensions suivantes : volume, variété et vitesse sont impliquées dans le traitement des données.

 

LE VOLUME

Le volume de données stockées est aujourd’hui sans limites et nécessite de combiner à la fois la puissance de calcul, l’intelligence des algorithmes et la capacité de stockage pour répondre aux nouveaux enjeux.

Le volume de données produites dans le monde augmente de manière exponentielle. On estime aujourd’hui que 90% des données disponibles ont moins de deux ans et la production de données devrait exploser de 800% d’ici 5 ans.

La croissance du stock mondial de données est telle que depuis 2002, la quantité d’informations numérisées a surpassé la quantité d’informations produites depuis l’invention du papier.

En 2016, 2.5 exaoctets de données sont produits chaque jour (2 500 milliards de gigaoctets). Si l’on considère qu’un long-métrage peut être compressé en un fichier de 1 Go, cela représente l’équivalent de 2 500 milliards de films produits par jour. Le stockage de toutes les informations disponibles dans le monde sur nos anciens CD-Roms représente cinq fois la distance terre-lune (à raison de 0,650 Gigaoctet pour 1,2 mm d’épaisseur).

 

LA VARIETE

La variété fait référence aux différents formats de représentation des données (enregistrements audios, vidéos, données transactionnelles, web analytics, données textuelles, images, etc.) qui sont « un premier niveau d’abstraction qui répond au traitement spécifique de chaque type de données dans un objectif d’efficacité » Ainsi, une donnée au format musical ne sera pas traitée de la même manière qu’une donnée au format texte. On estime aujourd’hui que plus de 80 % (certains analystes évoquent 95 à 99%) des données disponibles dans le monde sont « non-structurées » ou « semi-structurées » :

« Les données non-structurées sont celles pour lesquelles il n’existe pas de représentation entre leur codage binaire et leur perception : les textes, les images, les sons sont des données [qui doivent être interprétées]. Du fait de l’évolution du monde numérique, les données non structurées dominent les données structurées par leur volume, la densité et la richesse de l’information qu’elles véhiculent. »

 

LA VITESSE

La vitesse d’acquisition de données est aujourd’hui sans commune mesure si l’on compare à l’époque du scribe ou de l’imprimeur. L’un des enjeux du Big Data est d’être en mesure de traiter et d’analyser le très grand flux de données pour produire des résultats en temps réel. L’évolution de la puissance de calcul des ordinateurs rend possible leur manipulation et la visualisation des résultats quasiment instantanément. Tous les secteurs de l’économie ont progressivement démontré leur appétence pour la disponibilité immédiate des données. Pour certains, comme la sécurité civile ou les services de détection des fraudes, c’est un élément clé de performance. Pour d’autres, comme dans la publicité en ligne, la réactivité en instantané permet d’afficher au consommateur des produits qui correspondent à ses recherches, et sont liés à sa géolocalisation.

 

La maîtrise de ces trois éléments permet à l’entreprise d’améliorer ses performances globales et de se différencier de la concurrence. En ce sens il constitue donc un actif qu’il est nécessaire de valoriser.