Le but de ce DM est de vérifier que vous avez compris les principales étapes à suivre lorsque l’on analyse un jeu de données.

Pour cela, vous appliquerez la démarche de statistiques descriptives vue en cours aux divers jeux de données proposés:

Faire une première visualisation des données, sous forme de série temporelle, à différentes échelles.
Vérifier l’existance de tendance ou de structure.
Si le jeu de donnée (ou une partie de ce jeu de donnée) semble stationnaire:
tracer un histogramme en prenant bien soin de choisir l’échelle qui semble la plus appropriée
choisir des indicateurs (ex: mode/variance/médiane)
Produire un résumé graphique (ex: boxplot) et écrire une ou deux phrase de commentaire.

À chaque étape, vous justifierez que ce que vous calculez ou affichez a bien du sens. Le cas échéant, si le jeu de données ne satisfait pas les hypothèses attendues, vous essayerez de vous restreindre à un sous-ensemble du jeu de données en justifiant vos choix. Si vous avez l’impression qu’il y a plusieurs régimes (successifs ou supperposés), vous séparerez les deux régimes et les analyserez séparément.

On rappelle les différentes fonctions de base de R qui pourront vous êtres utiles: str, summary, mean, diff, sort, var, sd, plot, plot.ts, hist, boxplot.

Récupération des jeux de données

## [1] 11.8523 10.8011 11.8479 11.8338 11.8437 10.8925

Premiere visualisation des données

On commence par regarder les valeurs de notre jeu de données.

str(data);

##  num [1:23305] 11.9 10.8 11.8 11.8 11.8 ...

On voit donc que l’on a 23305 valeurs dont les premières sont proches de 11.

Regardons mainteant si ces données sont structurées “dans le temps”.

plot.ts(data);

On distingue alors une phase stationnaire autour de 2 ou 3 et plusieurs pics qui montent jusqu’a environ 12. Cependant, on avait remarqué que les premières valeurs étaient autour de 11. On va donc changer l’échelle pour mieux visualiser ces valeurs.

plot(data, xlim=c(0, 80),ylim=c(0,14),type="o");

On remarque alors que l’on a d’abord un premier régime stationnaire jusqu’à environ 78, autour de 12.

plot(data, xlim=c(70, 23305),ylim=c(0,14),type="o");

Ensuite, on remarque que l’on a un deuxième régime stationnaire autour de 3 jusqu’à la fin du jeu de données avec plusieurs pics pouvant monter jusqu’à environ 12.

Nous allons donc étudier ces 3 cas (le 1er régime stationnaire, les pics puis le 2e régime stationnaire).

Le premier régime stationnaire

Nous commençons par nous intéressé aux premières données stationnaires.

plot(data, xlim=c(0, 80),ylim=c(10,13),type="o");

On remarque alors que l’on a de nouveaux pics à environ 10.9 qui n’apparaissaient pas avant. Nous allons donc extraire et étudier ces nouveaux pics.

Les premiers pics

plot(data, xlim=c(0, 20),ylim=c(10,13),type="o");

On voit que les pics sont relativement stationnaires à environ 10.8. Nous les enleverons donc pour la suite de l’étude.

Les deuxièmes pics

Ici, nous étudions tous les pics se trouvant au dessus du 2e régime stationnaire.

plot(data, xlim=c(0, 23305),ylim=c(0,15),type="o");

On voit que les pics montent jusqu’à des valeurs comprises entre environ 4 et 12. Nous ne pouvons pas savoir si ce sont des abérrations ou non. Nous les enleverons donc pour la suite.

X1 <- data[data <3];

Le 2e régime stationnaire

Nous étudions maintenant le 2e régime stationnaire.

plot(X1, xlim=c(0, 23305),ylim=c(2.85,3),type="l");

On remarque qu’on a deux sections distinctes que l’on va donc étudier séparément.

La 1ère section

plot(X1, xlim=c(0, 775),ylim=c(2.85,3),type="l");

Cette première section semble stationnaire. Cette courbe étant intéréssane, nous pouvons donc observer l’histogramme afin de mieux voir les valeurs typiques.

hist(X1, breaks = 50, ylim=c(0,2500));

On remarque que l’histogramme a un maximum autour des 2.92

On peux résumer l’échantillon ainsi:

summary(X1);

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.860   2.915   2.920   2.920   2.926   2.997

On voit que la moyenne et la médiane sont égales. On a une première phase stationnaire où les valeurs sont très proches de 2.92 et assez uniformément réparties entre 2.86 et 3.

boxplot(X1);

Et voici le boxplot qui permet de résumer graphiquement l’échantillon.

La 2ème section

X2 <- X1[775:23305];

On a enlevé la première section du 2e régime stationnaire.

plot(X2, xlim=c(0, 23305),ylim=c(2.85,3),type="l");

Cette deuxième section semble stationnaire. Cette courbe étant intéréssante, nous pouvons donc observer l’histogramme afin de mieux voir les valeurs typiques.

hist(X2, breaks = 50, ylim=c(0,2500));

On remarque que l’histogramme a un maximum autour de 2.919

On peux donc résumer l’échantillon ainsi:

summary(X2);

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   2.862   2.916   2.921   2.922   2.926   2.997     807

On voit que la moyenne et la médiane sont très proches. On a une phase stationnaire où les valeurs sont très proches de 2.92 et assez uniformément réparties entre 2.86 et 3.

boxplot(X2);

Et voici le boxplot qui permet de résumer graphiquement notre échantillon. Il ressemble fortement au boxplot précèdent.

DM: Étude de données

Delaporte Adrien

Octobre 2015