On cherche souvent à modéliser un échantillon par une loi de probabilité.
A partir d’un jeu de données, comment peut-on trouver les paramètres d’une loi préalablement fixée?
Plusieurs méthodes peuvent être utilisées.
On prend l’exemple ici du délai entre l’infection d’un individu et la détection de cet individu comme malade.
On modélise ici ce délai (en jours) par une loi de Weibull (on peut aussi essayer les lois gamma et lognormale par exemple)
La méthode la plus simple est d’utiliser la fonction fitdistr du package MASS.
Cette fonction permet d’ajuster de nombreuses lois par maximum de vraisemblance. Regardons ce que ça donne pour une loi Weibull.
#on charge le package Mass
library(MASS)
# on appelle z le délai entre infection et détection, z est un vecteur contenant les données
z<-c(14,14,14,17,17,17,17,17,17,17,17,17,17,17,17,17,17,17,17,17,17,17,20,20,20,20,20,20,20,20,20,20,20,20,20,20,20,20,20,20,20,20,20,20,20,20,20,20,23)
#toujours visualiser ses données, ici un histogramme est le plus adapté!
hist(z)
# on utilise la fonction fitdistr pour une loi Weibull, regarder ?fitdistr
paraw <- fitdistr(z,densfun="weibull")
logLik(paraw) # on peut avoir le loglikelihood
# on visualise les résultats sur un graphique : histogramme+ loi
hist(z,freq=FALSE) # penser à frep=FALSE!!
lines(dweibull(0:max(z),shape=paraw$estimate[1],scale=paraw$estimate[2]),type='l',col='green',lwd=2)
#on simule une loi de weibull avec dweibull en utilisant les paramètres estimés
#regarder ?dweibull,
#on peut simuler de nombreuses lois sur R par exemple, gamma avec dgamma(), normale avec dnorm()...
On peut également écrire directement la vraisemblance et trouver le maximum de vraisemblance.
Dans cet exemple on utilise le package bbmle
library(bbmle)
#on écrit la vraisemblance pour une weibull (loglikelihood ici)
weiblikfun<-function(shape,scale){
-sum((dweibull(z,shape=shape,scale=scale,log=TRUE)))}
# on cherche à minimiser le loglikelihood avec mle2, regarder ?mle2!!!!
w<-mle2(weiblikfun,start=list(shape= 10,scale=20))
w #donne les paramètres estimés
confint(w) #donne des intervalles de confiance
Enfin on peut estimer les paramètres dans un cadre bayésien en lançant des MCMC.
Le plus simple est d’utiliser le Gibbs sampler via Winbugs ou OpenBugs.
On peut lancer ces derniers via R et le package R2WinBUGS par exemple.
Enfin on peut analyser le resultat des MCMC via le package coda.
library(R2WinBUGS)
library(coda)
#on met en forme les données pour Winbugs (en liste)
data<-list(T=z,N=length(z))
Il faut écrire un code Winbugs dans un fichier txt et le mettre dans le répertoire courant.
Voilà ce que ça peut donner pour une weibull (ceci correspond à modelweibull.txt placé dans le répertoire courant):
#model
model{
#priors
v~dgamma(0.01,0.01)
#v~dlnorm(0,0.0001)
lambda~dbeta(1,1)
s<-pow((1/lambda),(1/v))
#likelihood
for(i in 1:N) {
T[i]~dweib(v,lambda)
}
}
Enfin on lance le tout et on regarde le comportement des MCMC!
rweibull<-bugs(data,inits=NULL,parameters.to.save=c("v","s"),
model.file="modelweibull.txt",n.chains=4,n.iter=100000,codaPkg=TRUE)
rweibull.coda<-read.bugs(rweibull)
summary(rweibull.coda)
xyplot(rweibull.coda)
acfplot(rweibull.coda)
densityplot(rweibull.coda,col="blue")
rejectionRate(rweibull.coda)
Ce long exemple peut être utilisé pour d’autres lois. Je vous conseille vivement de bien regarder les expressions analytiques utilisées pour chaque fonction. Par exemple la loi de Weibull peut être écrite de différentes façons. Vous aurez peut être remarqué que les fonctions utilisées dans R et winbugs n’utilisent pas la même expression: ATTENTION!!
Enfin, il est souvent possible de modéliser des données par différentes lois, il s’agit ensuite de trouver celle qui correspond le mieux….