Les transformations numériques à l’œuvre au sein des entreprises amènent les décideurs à se poser de plus en plus de questions sur les moyens et coûts d’exploitation de la donnée, qu’elle soit big (ou pas). Comment s’y prendre ? Par quel bout commencer ? Quel serait le retour sur investissement des transformations envisagées ?

Pour un périmètre d’intervention donné, les ressources humaines et matérielles peuvent être inventoriées afin de brosser le portait aussi détaillé que possible de l’existant.
Dans un second temps, en droite ligne avec les orientations stratégiques, les données, pratiques et ressources disponibles sont auditées.
En fonction des forces ou faiblesses des dispositifs existants et à l’aune des risques estimés, les préconisations peuvent différer : trouver de nouveaux gisements de données à exploiter, mettre sur pied une base de données, construire un datalab (lieu d’expérimentation pour tester des modèles, des algorithmes…), installer ou moderniser la forge logicielle, mettre en place ou améliorer les process, réaliser des développements logiciels ad hoc…

La transformation numérique, ça n’est pas seulement un changement ou une modernisation des outils, c’est aussi une culture de la donnée et de la programmation, un changement de paradigme pour les organisations vers des modes de fonctionnement flexibles et reproductibles.

Voici typiquement un exemple d’un flux de travail sujet à optimisation :

  • Se rendre sur un site de partage de données (type open data)
  • Télécharger dans un répertoire plusieurs séries de données correspondant à plusieurs millésime
  • Déplacer les données dans un répertoire de travail ad hoc
  • Tenter d’ouvrir des données csv d’un millésime dans Excel
  • Constater que les virgules font office de séparateur de milliers et le point de séparateur décimal
  • Ouvrir le document dans un éditeur de texte pour y effectuer un rechercher-remplacer
  • Ouvrir avec le succès le document dans Excel
  • Réitérer les opération pour les autres millésimes
  • Réaliser les transformations et manipulations à l’aide d’onglets, formules, copier-coller disséminés dans l’ensemble du classeur
  • Tracer les graphiques à des fins exploratoires
  • Tracer les graphiques à des fins de communication
  • Réitérer pour les autres millésimes et constater que certaines données manquent, certains graphiques ne sont pas pertinents, certains tableaux incomplets (parce que données manquantes, modalités incomplètes…)
  • Ouvrir un document Word, commencer à rédiger, y copier-coller les graphiques et tableaux désirés
  • Envoyer le document à ses collègues/supérieurs
  • Recevoir le suivi de modification
  • Opérer des changements dans le fichier Excel
  • Copier-coller les modifications dans le fichier Word
  • Être notifié d’une modification dans le fichier source
  • Se sentir découragé et inefficace (à raison) à l’idée de devoir tout recommencer

qui pourrait être substitué par quelque chose comme…

  • Créer un nouveau projet R
  • Utiliser l’API du site de partage pour télécharger directement dans R les données
  • Filtrer, agréger, résumer, transformer, modéliser, prédire dans un langage clair, lisible, « qui dit ce qu’il fait et qui fait ce qu’il dit » dans R
  • Utiliser la programmation fonctionnelle pour sécuriser les outputs (calculs, tableaux, graphiques, voire des rapports complets) dans R
  • Soumettre les résultats à ses collègues/supérieurs en temps réel via des outils dédiés et performants (comme git)
  • Rejouer les analyses à la demande dans R (y compris en cas de modification des sources)
  • Diffuser (en ligne, sur un serveur de partage, par envoi de mail…) depuis R et de façon automatique et intégrée

Nos équipes sont à votre disposition pour auditer vos pratiques, comprendre votre métier, vos besoins, votre contexte et vos contraintes et vous proposer des solutions pour intensifier et accélérer vos usages de la donnée.