De retour d’AngletR

Du 28 au 30 juin 2017, 3/4 de la team ThinkR est venue fouler les terres basques pour la sixième édition des Rencontres R. Retour sur trois jours studieux.

Alors, qu’a-t-on vu passer pendant ces trois jours ?

De la manipulation des données avec {dplyr}…

… dans le {tidyverse} bien sûr ! Dès le premier jour, Diane a pris la barre pour un workshop sur un sujet que l’on connaît bien : {dplyr}, et le {tidyverse}. Une présentation arrivant à point nommé : la nouvelle version du package d’Hadley Wickham a été déposée sur le CRAN il y a seulement quelques jours. L’agenda était donc parfait pour découvrir ou pour se rafraîchir la mémoire sur ce paquet incontournable de manipulation de données.

Pendant trois heures, les participants ont pu triturer les données de notre package prénoms, et envoyer des mutate, filter et autres summarise dans le dataset fraîchement arrivé dans {dplyr} : starwars. La morale ? Oui, Han Solo est en surpoids…

Pour retrouver notre tuto, c’est par ici : Manipulation de données avec {dplyr} dans le tidyverse. Et c’est sans oublier le workshop sur Markdown et Github, tenu dans la pièce d’à côté par Nicholas Tierney et Benoit Liquet !

Des stats, des stats, et encore des stats…

On ne vous apprend rien : R a été développé par, et pour des statisticiens. Une réputation bien entretenue par la communauté R, qui a fait le déplacement à Anglet — ACP, réduction de dimension, approches bayésiennes… les formules mathématiques n’ont pas manqué de squatter les slides pendant 2 jours.

… mais aussi du datajournalisme !

Malgré son look de matheux, R peut aussi être au service des journalistes. Une idée défendue par Joël Gombin, venu faire la preuve par trois que oui, les rédactions peuvent aussi utiliser R pour traiter et visualiser des données.

Reprenant le célèbre workflow d’Hadley Wickham dans son ouvrage « R for Data Science », Joel a montré par l’exemple comment R pouvait s’insérer dans un travail de datajournaliste. Importer, nettoyer, transformer, visualiser… autant de tâches chères aux data scientists qui sont aussi au coeur du métier des journalistes nouvelle génération.

L’incontournable Docker

Ce projet franco-américain qui a soufflé ses quatre bougies cette année a la cote : plébiscité par la communauté des développeurs, Docker monte en quelques lignes de commande un conteneur, qui pourra (par exemple) héberger une application Shiny déployable partout. En quelques lignes de commande, vraiment ? Oui, Vincent est venu jeudi après-midi nous en faire la démonstration. Une présentation que l’on aurait pu appeler « Comment créer et déployer une app Shiny dans un conteneur Docker en 6 minutes, montre en main« . Si si, c’est possible.

Si vous avez raté la présentation, pas de panique : Vincent a promis de faire un billet de blog pour nous expliquer tout ça. Gardez l’oeil ouvert !

Des packages qu’on a bien envie d’essayer, et des plateformes aussi

Retour de Nicolas devant le micro pendant son talk « Data structures and functions for consistent exploration of missing data », une présentation de son package {naniar} (à l’époque de la rédaction du programme), devenu {narnia} entre-temps. Le principe ? Travailler sur les données manquantes, avec des outils qui répondent à la philosophie du tidyverse. Pour en savoir plus, direction le repo GitHub !

Deuxième package à mettre dans nos besaces : {lava}, un paquet destiné à tester des modèles.Comment ? En simulant des données calquées sur des entrées réelles, avant de mesurer la robustesse des modèles ces nouvelles données. Plus d’infos sur le manuel de référence.

La plateforme qui a attisé notre curiosité porte le doux nom de RosettaHub. Présenté comme « l’Amazon de la Data science », ce service en ligne propose de concentrer en un seul espace tous les outils nécessaires du data scientist. Instances R ou Python, conteneurs Docker, connexions à Microsoft Azure… tout est là pour vous simplifier la tâche ! Le plus : les données peuvent naviguer en toute simplicité dans votre espace. Le petit plus de la fin : une fois les analyses effectuées, il est possible de les envoyer sur une marketplace, en open ou avec accès payant !

De la dataviz, dans les lightning talks et ailleurs

Pendant ces rencontres, Colin s’est attelé à la tâche du lightning talk. La contrainte ? 13 slides, 24 secondes par slides et interdiction de toucher au clavier !

En un peu plus de cinq minutes, Colin est venu dérouler le dataset contenu dans legislatives2017, pour montrer comment on peut dire, faire dire, cacher et révéler plein d’histoires différentes avec les mêmes données, en fonction du choix de visualisation que l’on fait. Car, comme l’avait si bien dit Joel quelques minutes plus tôt « la dataviz, c’est aussi un choix éditorial ! ».

Notre coup de coeur pendant ces lightning talks : Yan Holtz, avec « The #SurfeR project : visualiser twitter avec R », une intervention de 6 minutes sur un projet de data-mining des surfeurs sur Twitter. À revoir dans les slides de la conférence ! Le lendemain, c’était au tour Benoît Thieurmel de venir présenter ses travaux de dataviz, durant un talk intitulé « Travaux sous tension : traitement d’un volume important de données et outils de visualisation ». Ici, il était question de visualisation de 4 ans d’historique des lignes du réseau RTE, avec une mesure prise toutes les 5 minutes. Soit un total de plus de 5 milliards de mesures. Alors, comment représenter tout ça ? La réponse est dans {rAmCharts}, un package que vous pouvez découvrir sur GitHub, et {rhdf5} piloté par {data.table} !

Des talks qu’on a raté

Deux sessions en parallèle… il fallait faire des choix. Nous n’avons malheureusement pas pu assister à toutes les confs, et il nous est revenu aux oreilles qu’un talk sur R et la couleur a vraiment valu le déplacement. Vous pouvez le retrouver dans les slides des Rencontres (liens dans le paragraphe juste au dessus). En tout cas nous, on va creuser tout ça !

Des mythes sur SAS qui perdurent

Lors de la table ronde entreprises, le célèbre mythe de SAS et la FDA est revenu sur le tapis : la FDA n’autoriserait que des tests réalisés avec SAS. Rappelons-le une nouvelle fois : il s’agit bel et bien d’un mythe, et l’administration américaine autorise effectivement les tests réalisés avec R.

Seulement voilà, c’était sans compter sur la foudre Twitter, qui a rappelé que non, la FDA ne boudait pas R. Une interpellation numérique plus tard, David Smith a dégainé un blogpost spécialement préparé pour l’occasion :

Des API, qui sont parfois un enfeR (parfois)

Deuxième prise de micro pour Colin le vendredi, avec une intervention au nom évocateur : « R et les API, un enfeR ? »

Au-delà d’un titre un peu « clickbait », ce talk était surtout l’occasion de faire le point sur l’interaction de R avec les API web. Car oui, cela peut être très simple au début, comme devenir un véritable casse-tête. Après un rappel sur les processus de communication du web (les fameux GET, POST et consorts), Colin est venu montrer par l’exemple comment se lancer dans ses premières requêtes sur des API. Envie d’en savoir plus ? Rassurez-vous, le billet de blog est là 😉

Un programme qui promet l’année prochaine !

À l’année prochaine Rencontres R… on se revoit à Rennes !


À propos de l'auteur

Colin Fay

Colin Fay

Data scientist & R Hacker


Commentaires


À lire également