ggplot meme

Guide de survie ggplot2 à destination des datajournalistes (et des autres aussi)

Lors de son intervention récente à useR! 2016, Andrew Flowers de FiveThirtyEight, plateforme de datajournalisme, chantait les louanges de ggplot2, un package incontournable dans son quotidien. Vous vous en doutiez, nous partageons à 200% son amour pour ce puissant package du tidyverse — ou de l’ordocosme, pour les français. C’est pourquoi nous avons décidé aujourd’hui de vous offrir un guide de survie de ggplot2, ou « comment créer une dataviz de A à Z ».

Dans les profondeurs du réseau de neurones artificiels

Paradigme majeur du deep learning, le réseau artificiel de neurones peut paraitre incompréhensible de prime abord. Pourtant, et parce que le machine learning sera bientôt partout (c’est le gartner hype cycle qui le dit), les Artificial Neural Networks (ANN) font partie des technologies clés à saisir pour rester câblé sur les innovations de demain. Décryptage à destination des non-spécialistes.

Create your database they said

Les dix commandements d’une base de données réussie

Lecteur assidu de nos pages, vous savez déjà à quel point il est important d’avoir des données bien ordonnées pour des traitements statistiques efficaces. Et parce qu’on ne les rencontre pas toujours (qui a dit « jamais » ?) dans la nature, voici quelques conseils pour construire vos bases de données correctement, pour travailler avec justesse et éviter à vos collègues une séance d’arrachage de cheveux.

Open all the data!

Et l’open data, dans tout ça ?

Une question revient souvent lorsque l’on se lance dans l’apprentissage de R (que ce soit de manière globale, ou « juste » d’un nouveau package) : comment trouver de la matière pour se faire la main ? Nous allons vous révéler le secret qui vous sauvera des heures de recherches acharnées : la solution classique reste de se tourner vers les catalogues d’open data. Eh oui, les plateformes ouvertes sont une source quasi inépuisable de jeux de données, qui vous permettront de tester vos skills de data scientist, et pour, enfin vous transformer en kaggle master.

 

Il faut qu’on parle de deep learning

S’il est une expression mangée à toutes les sauces en 2016, c’est bien celle de « machine learning ». Amené à bouleverser le monde de l’assurance, de la santé, du marketing, de l’industrie alimentaire (etc., etc.), l’apprentissage automatique (dans la langue de Molière) fait partie des « buzzwords » des années 2010. Et dans cette grande famille, un petit frère vient pointer le bout de son nez : le deep learning. Mais concrètement, de quoi parle-t-on ? 

Not cool bro, clean your data!

Utiliser la grammaire dplyr pour triturer ses données

{dplyr} est un package du tidyverse (ancien hadleyverse, et que l’on connait sous le nom d’ordocosme) dédié à faciliter la manipulation, l’exploration et les calculs sur des données. Devenu incontournable en peu de temps, il a l’avantage de présenter un environnement unifié de fonctions dédiées : la grammaire de la manipulation des données (toute ressemblance avec une grammaire des graphiques du même auteur serait purement fortuite…).

Bienvenue dans le Tidyverse !

Dans le petit monde de la data science, il existe quelques superhéros, connus des statisticiens les plus aguerris comme des nouveaux arrivants tapant leurs premières lignes de code. Parmi ces superhéros, le plus famous d’entre eux reste Hadley Wickham, Chief Scientist chez RStudio, rockstaR et (co)auteur de nombreux packages indispensables à un usage débutant comme confirmé de R.