Bengs Lab

La donnée, nouvel épicentre de l’innovation

2 Comment valoriser le potentiel de l’actif « donnée » ?

La valeur brute : la maîtrise du cycle de vie de la data

La fiabilité d’une donnée est la condition nécessaire qu’elle puisse être exploitée par l’entreprise et donc pour qu’elle puisse constituer un actif valorisable : la fiabilité est la valeur brute de la donnée. La mise à disposition de données fiables est stratégique car elle peut impacter l’ensemble de l’organisation et son environnement : prise de décision des dirigeants, performance des processus opérationnels, jeu concurrentiel, innovations, etc. La fiabilité peut également être une obligation légale, comme dans le cas des données financières où tout manque de rigueur peut avoir des conséquences pénales.

La fiabilité des données repose sur l’exactitude de briques élémentaires qui constituent un processus que l’on appelle le cycle de vie de la donnée. Dès lors, la fiabilité de la donnée devient un challenge culturel et managérial qui nécessite une évolution des mentalités et une définition précise de la gouvernance de la donnée pour atteindre la fiabilité nécessaire à sa bonne utilisation.

Le cabinet Bengs a défini 5 étapes (SSNTR) pour maîtriser le cycle de vie de la donnée auquel s’adjoigne 3 règles (ICO) à toujours garder à l’esprit à chaque étape :

  • Etapes : Stratégie, Stockage et collecte, Nettoyage, Traitement, Recyclage
  • Règles : Intelligibilité, Obsolescence, Conformité

 

LES 5 ETAPES DU CYCLE DE VIE DE LA DONNEE

STRATEGIE

Une donnée peut être créée volontairement dans le but d’obtenir une information précise, mais ce n’est pas toujours le cas. Une partie des données sont collectées et stockées par les entreprises sans but précis et inexploitées dans les analyses, comme les archives de mails ou les notes de réunions. Le plus souvent, ce sont des données non structurées, non sécurisées et enfermées dans des silos à l’intérieur des systèmes d’information de la firme. En 2016, ces données inexploitées représenteraient 85% de l’ensemble des données des entreprises. Des données qui pourraient être cruciales ou sources d’innovation dorment donc dans les tiroirs de nombreuses entreprises.

STOCKAGE

Mis à part les enjeux techniques d’accès et de stockage des données, l’enjeux principal est celui de la confidentialité et de la conformité. Deux modalités de stockages permettront de répondre à ces enjeux une fois les données filtrées :

  • Un stockage ouvert en accès libre
  • Un stockage dans un coffre-fort à accès restreint

Pour garantir la qualité du stockage et la cohérence des analyses, les organisations doivent mettre en place des processus de collecte stricts et limiter la diversité des références à intégrer dans les calculs. Par exemple, si la donnée « nombre de clients à un instant t » est utilisée pour plusieurs cas d’usage, il est plus fiable de se servir toujours de la même source afin de garantir la cohérence des analyses et des comparatifs.

NETTOYAGE

La donnée est toujours un construit social et elle est le fruit d’une sélection et d’une représentation du monde. Néanmoins, elle doit refléter fidèlement les éléments qu’il a été choisi de monitorer grâce à elle. Pour garantir la fiabilité des données présentes dans le datalake, l’organisation doit mettre en place un processus de nettoyage à deux niveaux :

  • Le nettoyage périodique des données déjà stockées (suppression des doublons, des données obsolètes, des données incomplètes et des erreurs)
  • L’amélioration en continu du processus nettoyage de la donnée source, grâce à un procédé automatisé (règles de tri, de filtres, et étiquetage)

Ces deux dimensions réalisées en permanence et en amont de l’utilisation des données dans le datalake permettent de limiter les erreurs de traitement.

Au sein d’une organisation, toutes les données doivent être étiquetées, en évitant les doublons et en limitant leur obsolescence. Il est également possible d’ajouter un indice de confiance indiquant le niveau de fiabilité de la donnée. Le suivi de ces éléments est de la responsabilité du Data Stewart.

TRAITEMENT

Dans cette phase, la donnée est compilée, croisée, et analysée pour être enrichie. Il est possible que les données sourcées initialement ne permettent pas d’effectuer des analyses complètes et nécessitent un retour à la phase de collecte et de sélection des données afin de récolter les éléments manquants. C’est lors de cette phase du processus qu’est générée la plus grande partie de la valeur de la donnée, une valeur qui se traduit in fine par une nouvelle information donnant lieu à de nouveaux services, des optimisations de processus ou des prises de décisions

RECYCLAGE

La donnée, qu’elle soit utilisée au début du cycle de traitement ou qu’elle soit issue du processus, peut être utilisée pour d’autres utilisations que celles qui lui ont été attribuées initialement. Dans cette phase, chaque nouvelle utilisation d’une donnée contribue à en augmenter la valeur.

 

LES 3 REGLES DE BONNE CONDUITE

REGLE 1 : INTELLIGIBILITE

La donnée se doit d’être suffisamment contextualisée pour que l’utilisateur puisse en comprendre le sens. Par exemple, le chiffre « 19 » peut représenter une température, un nombre de clients ou un montant. Dès lors, il faut que des informations complémentaires accompagnent les données pour permettre leur contextualisation. Soit au travers d’un vocabulaire simple et homogène, soit d’une méthode de calcul. Cela implique que tous les acteurs de l’entreprise partagent un langage commun car la cohérence de l’interprétation est cruciale pour garantir la fiabilité des données tout au long du cycle de vie de la donnée.

REGLE 2 : CONFORMITE

Après une longue prise de conscience du caractère stratégique, confidentiel et souvent personnel de la donnée, le législateur européen a construit un cadre réglementaire régissant l’utilisation des données.

La nouvelle régulation européenne de protection des données (GDPR) prévoit une sanction allant jusqu’à 4% du chiffre d’affaire mondial d’une entreprise, ou 20 millions d’euros pour les entreprises non conformes. De par son caractère stratégique, nous détaillons les obligations prévues pour les entreprises dans cette régulation, dans l’encart 5 GDPR.

REGLE 3 : OBSOLESCENCE

La durée de vie des données est variable et n’est régit que par une seule et unique règle : si une nouvelle donnée existe, la donnée ancienne est obsolète et doit être archivée. Elle doit donc être actualisée régulièrement et présenter la dernière information disponible. L’évolution des technologies accélère les cycles d’obsolescences et augmente la fréquence d’actualisation. En conséquence de cette contrainte d’actualisation continue, les systèmes d’informations doivent être en synchronisation permanente. Par exemple, dans un environnement instable et volatile comme celui de la finance de marché où les décisions d’achat et de vente sont prises par des robots à la milliseconde près, ce paramètre est déterminant pour garantir la performance des acteurs.