Les données stockées en bases de données sont le socle de valeur des entreprises numériques. Seulement il est parfois pertinent (pour améliorer des prédictions, tester des scénarios…) d’enrichir les données existantes avec données exogènes nouvelles.
Collecter les données, construire les infrastructures et internaliser ces données d’emblée peut être coûteux et surtout très éloigné du cœur de métier de l’entreprise.
D’autres options peuvent éventuellement répondre à ce besoin de diversification :
- l’open data : depuis la loi pour une république numérique, les collectivités ou services publics ont œuvré à ouvrir leur données pour multiplier les accès et usages dans un souci de standardisation. Elles sont souvent accompagnées d’un système d’API (interface de programmation applicative) qui permet d’automatiser les requêtes.
- le webscraping : la donnée recherchée est disponible sur internet mais il n’existe pas de système structuré dédié pour la requêter. On a alors parfois recours à programmes qui se charge de parcourir les pages et collecter les données souhaitées, dans le respect des règles autorisées par site qui les fournit bien entendu !
Nos équipes sont à votre disposition pour identifier de nouvelles sources de données, écrire les développements qui opérerons la collecte et stocker judicieusement le tout pour les exploiter dans les produits de data science souhaités.