Bengs Lab

La donnée, nouvel épicentre de l’innovation

1 La donnée ? Un actif !

La donnée se caractérise par son origine et par sa typologie

LA SOURCE DES DONNEES

Les organisations ont à leur disposition deux types de sources de données. Les nouvelles règles de marché et d’échanges bouleversent les modèles traditionnels. De la concurrence à la cooptation et à la coopération, tous les acteurs d’une chaîne de valeur (clients, fournisseurs, partenaires, prestataires, prescripteurs, collaborateurs…) sont parties prenantes d’une activité économique mouvante. Chacun d’entre eux est source d’informations, plus ou moins exploitables et plus ou moins exploitées. La montée des technologies de l’information dans tous les secteurs économiques et la digitalisation des relations entraînent la création de réseaux et de communautés, transforment les frontières de l’entreprise et influent sur les comportements, notamment concernant la responsabilisation partagée.

 

LES DONNEES INTERNES

Les données internes sont l’ensemble des éléments d’information produites et stockées au sein d’une organisation. Les principales données internes de l’entreprise sont par exemple l’état des stocks, le reporting des ventes, les contrats, la liste des clients, les données de suivis, notamment issues des ressources humaines ou celles émises par des capteurs (dans les bureaux ou sur les lieux de production).

La production ou l’acquisition des données internes se fait au prix d’investissements initiaux lourds, mais à un coût marginal presque nul : une fois l’investissement réalisé dans une infrastructure réseau pouvant supporter la charge nouvelle, la création d’algorithmes de traitement, l’achat et la mise en place d’une solution de stockage, la seconde étape d’automatisation de la collecte et du traitement des données sont des activités à coût marginal plus faible.

La multiplication des centres d’émission de données et l’accroissement de la quantité d’éléments stockés en interne tend à transformer l’entreprise en un système cyber-physique c’est-à-dire en un système où les éléments informatiques collaborent pour le contrôle et la commande d’entités physiques.

C’est sur ce fondement que sont construits les concepts d’industrie 4.0 ou de « Smart Factories ». Cette continuité entre le cyber-espace et le monde physique permet aux entreprises de connaitre de mieux en mieux l’état de l’entreprise et de maîtriser tous les éléments de la chaîne de valeur. Cette maîtrise profonde de l’entreprise crée un avantage compétitif majeur.

 

LES DONNEES EXTERNES

Sont caractérisées de données externes, toutes les données non générées par l’organisation et accessibles via des sources extérieures à l’organisation. Une donnée externe stockée au sein de l’organisation n’est pas caractérisée comme interne, sauf si elle a été traitée par l’organisation. Ces données peuvent être achetées, échangées ou mises à disposition gratuitement.

Les données externes gratuites comprennent principalement les données gouvernementales mises à disposition intentionnellement dans le cadre des politiques d’Open Data. En France, la loi du 7 octobre 2016 pour une République numérique modifie la loi de 1978 et postule que tout document publiable doit être publié sur internet, et ce, dans un format ouvert qui facilite sa réutilisation. Cette loi comporte également de nombreuses dispositions permettant la mise à disposition de données publiques particulières ou de données détenues par des opérateurs privés : les administrations d’État, les collectivités locales de plus de 3 500 habitants, les établissements publics et les organismes privés chargés d’un service public, à l’exception des petites entités.

L’acquisition de données externes permet aux organisations de vérifier ou de compléter leurs propres données internes, de préciser ou d’élargir leur champ de connaissances et de mieux maîtriser leur environnement.

Les modèles de collaboration entre parties prenantes (cooptation par exemple) et d’innovation (open innovation, innovation participative) entraînent l’acquisition de données externes de grande valeur pour l’entreprise. Ce sourcing d’informations sera de plus en plus développé dans le futur afin de permettre plus de cross-fertilisation et d’innovation. Dans les années 2000, la multinationale Procter & Gamble (P&G) a su se réinventer à travers une nouvelle organisation appelée « Connect and develop » permettant d’innover avec des acteurs extérieurs.

 

PAR TYPOLOGIE : DONNES STRUCTUREES/NON STRUCTUREES

La segmentation des données en données structurées et non structurées est essentielle pour comprendre l’émergence de leur utilisation à grande échelle au sein des entreprises.

 

DONNEES STRUCTUREES

On considère comme données structurées toutes les données organisées et classées selon un modèle préétabli afin de faciliter leur traitement. Ces structures se manifestent dans des bases de données relationnelles qui classent les données selon des en-têtes significatifs pour chaque colonne. Par exemple, des bases de données clients ou produits sont des données structurées dans des colonnes aux en-têtes différents : client, contact, adresse, prix etc. De la même manière, les données comptables sont inscrites dans un compte de résultat qui correspond à un poste de dépenses ou de revenus qui est précisément déterminé dans le plan comptable général.  Des référentiels d’organisation de données permettent de garantir une harmonisation des structures. C’est le cas par exemple pour Internet avec le projet Schema.org qui fournit une structure claire pour permettre aux moteurs de recherche de comprendre le contenu des pages.

 

DONNEES NON STRUCTUREES

Les données non structurées constituent ce que l’on appelle le « data lake », et sont en progression exponentielle depuis les années 2000. Combien de milliers de photos sont par exemples stockées dans nos smartphones, sans pouvoir les rechercher ou les exploiter ? Les données non structurées regroupent toutes les données brutes non encore structurées, semi-structurées (ex : données en csv, logs, XML, JSON) qui sont stockées pour être ensuite traitées selon des requêtes précises. Les données brutes non structurées peuvent provenir de fichiers de texte, de courriers électroniques, de documents en PDF, de photos, de vidéos, d’images satellites etc. Ces documents ne peuvent être exploités sans un traitement préalable qui permettra de les différencier. Dans le cas où le data lake devient inexploitable ou endommagé, on parle de data swamp (marais en anglais). Les catégorisations étant multiples et l’ajout de nouvelles données étant source potentielle de nouvelles catégories, ce type de données ne peut pas être classé a priori.

L’enjeu économique de l’entreprise porte essentiellement sur les méthodes de structuration des données et les données structurées traitées et analysées par les algorithmes. La quantité exponentiellement croissante de données à l’échelle nationale ou mondiale représente une masse gigantesque d’informations à traiter, que l’on nomme le Big Data. Par conséquent, l’infrastructure qui permettra leur analyse rapide et optimisée constitue un modèle d’entreprise data-centric, enjeu majeur de demain.

 

LES METADATAS

Malgré tout, les données sont rarement totalement non-structurées, car elles contiennent un ensemble de données connexes, appelées métadonnées, qui permettent d’en préciser le contenu. Par exemple, dans un e-mail, le corps du message est un ensemble de données non-structurées mais la date, l’objet et l’auteur du message sont des données structurées qui permettent d’identifier et de classifier le document. On parle alors d’informations semi-structurées.

Les métadonnées facilitent le traitement des données non-structurées en fournissant des informations annexes qui sont, elles, structurées . Ainsi une recherche dans un dossier se fait via la date de création ou de modification, le type de fichier, les coordonnées GPS éventuelles ou encore les caractéristiques de l’appareil photo s’il s’agit d’une photo par

Les métadatas et les bases de données relationnelles ne suffisent plus aujourd’hui pour analyser les données disponibles. Par exemple des sociétés comme Fotolia ou Google ont mis au point de nouvelles manières de catégoriser. Dans le cas de Fotolia il s’agit de la constitution d’une ontologie de classification qui après analyse des données non structurées grâce à des algorithmes de reconnaissance d’image permet de les catégoriser. Pour Google, il s’agit d’une combinaison entre un algorithme de reconnaissance d’image et une analyse du texte environnant l’image et lui donnant un sens. Ces informations sont ensuite stockées dans des bases de données structurées pour permettre d’extraire les photos associées à une recherche.