nettoyage données

L’importance du nettoyage de données

Lorsque l’on travaille avec des données, un des plus grands défis est les erreurs. Ceux qui entrent, travaillent, utilisent, font parler des données ne remarquent pas forcément les erreurs. Parfois, elles sautent aux yeux, parfois elles sont très difficiles à déceler. Très souvent, il s’agira d’erreurs humaines pendant une saisie de données. Il est nécessaire de comprendre comment les trouver et les corriger afin de rendre les données plus propres.

Dans cet article, nous allons aborder 2 points :

  • Les erreurs de données les plus rencontrées
  • Pourquoi nettoyer les données ?

Révéler la valeur : qu’entend-on par données propres ?

Une donnée propre est avant tout une donnée fiable, réel, cohérente, uniforme. On évitera les doublons. Il est important d’avoir des données propres car celles-ci assurent un point de départ fiable à partir duquel vous pouvez travailler les données et générer de la valeur.

Les erreurs de données les plus fréquentes

Soyez vigilants face à certaines erreurs de données fréquentes dans chaque ensemble de données avec lequel vous travaillez. Les erreurs les plus rencontrées sont:

  • un mauvais format de dates: définissez pour chaque date un format unique (attention au décalage horaire si vos dates proviennent de fuseaux horaires différents)
  • des représentations multiples: des différences de majuscules, d’espaces, des erreurs d’accord des adjectifs sont autant de facteurs à l’origine d’erreurs
  • des doublons: les doublons apparaissent quand une même donnée est saisie plus d’une fois
  • des données redondantes: ce sont des données qui ne sont pas pertinentes pour votre travail avec un ensemble de données. Un exemple très commun de données redondantes est celui des rangées représentant les montants totaux
  • des échelles numériques: On utilise souvent différentes échelles numériques pour rendre les valeurs numériques plus faciles à lire pour l’utilisateur. Pour un budget, les chiffres sont souvent exprimés en millions. 1200000 s’écrit 1, 2 m. Il vaut mieux conserver la « vraie » écriture, à savoir 1200000
  • des étendues mixtes: Parfois, les données sont mesurées en échelles différentes, comme les tranches d’âge ou les échelles de salaire. En vue de faire des comparaison, il faut conserver la même échelle
  • les fautes d’orthographe: Les fautes d’orthographe sont souvent difficiles à identifier dans les données tabulaires. N’oubliez pas d’utiliser un correcteur orthographique pour déceler les erreurs.

Pourquoi nettoyer les données ?

Au delà des outils qui peuvent être utilisés pour nettoyer l’open data, il est important de comprendre ce que le processus apporte.

a) Prioriser le nettoyage et vérifier la cohérence

Si les données ne sont pas propres, les décisions prises selon ces données peuvent être erronées. Cela peut affecter les produits ou les idées que vous développez à partir des données, et dans certains cas avoir un impact sur des milliers, voire des millions de personnes.

b) Améliorer l’exploitabilité

Partager des données propres améliore l’exploitabilité des données. Travailler avec des données propres tout au long d’un processus est essentiel. Si vous développez un flux de données qui sera lui même utilisé par un autre flux, on voit bien l’importance de la cohérence des données. Cela aura un impact pour l’exploitation et l’utilisation des données.

c) Découvrir de nouvelles informations

Vous allez plus facilement combiner et enrichir des ensembles de données, ceci peut permettre de découvrir de précieuses nouvelles informations.

Sharing is caring!

Leave a Reply

Votre adresse de messagerie ne sera pas publiée.