Le but de ce DM est de vérifier que vous avez compris les principales étapes à suivre lorsque l’on analyse un jeu de données.

Pour cela, vous appliquerez la démarche de statistiques descriptives vue en cours aux divers jeux de données proposés: * Faire une première visualisation des données, sous forme de série temporelle, a différentes échelles. * Vérifier l’existance de tendance ou de structure. * Si le jeu de donnée (ou une partie de ce jeu de donnée) semble stationnaire: - tracer un histogramme en prenant bien soin de choisir l’échelle qui semble la plus appropriée - choisir des indicateurs (ex: mode/variance/médiane) * Produire un résumé graphique (ex: boxplot) et écrire une ou deux phrase de commentaire.

A chaque étape, vous justifierez que ce que vous calculez ou affichez a bien du sens. Le cas échéant, si le jeu de données ne satisfait pas les hypothèses attendues, vous essayerez de vous restreindre à un sous-ensemble du jeu de données en justifiant vos choix. Si vous avez l’impression qu’il y a plusieurs régimes (successifs ou supperposés), vous séparerez les deux régimes et les analyserez séparément.

On rappelle les différentes fonctions de base de R qui pourront vous êtres utiles: str, summary, mean, diff, sort, var, sd, plot, plot.ts, hist, boxplot.

Récupération du jeu de données

## [1] 0.011 0.017 0.016 0.041 0.057 0.058

Vérification du jeu de données

##  num [1:8429] 0.011 0.017 0.016 0.041 0.057 0.058 0.051 0.051 0.048 0.038 ...

Nous avons un jeu de données avec un grand nombre de valeurs, 8429, qui semblent se trouver dans un intervalle assez faible, mais nous ne pouvons pas commencerà interpréter les valeurs tout de suite.

Etude du jeu de données

Commençons par tracer un graphe de toutes les valeurs, sans faire de modifications dessus.

Avec cette première représentation, on peut considérer que l’on observent un régime globalement stationnaire entre 0.02 et 0.06. On observe également 2 valeurs qui se démarquent assez clairement en étant supérieur à 0.08ms alors que la grande majorité des valeurs se situent sous la barre des 0.06ms. Ce sont des valeurs très supérieures aux autres mais ne connaissant pas la procédure d’acquisition des données, nous ne pouvons pas conclure sur le fait que ce soit des valeurs abérrantes.

On dessine ensuite un histogramme afin de voir la répartition des différentes valeurs.

Ce premier histogramme nous permet d’avoir une première idée pour la répartition des valeurs. La grosse majorité de celles-ci se situent entre 0.01 et 0.04.

Puisque le nombre total de valeurs est important et que certaines montent asser haut, l’histogramme est peu précis. Afin d’y voir plus clair, nous augmentons le nombre de bins.

hist(data,breaks=50);

hist(data,breaks=100);

Pour continuer à avoir des données plus claires, nous allons chercher à supprimer les valeurs qui sont clairement différentes des autres.

sum(data>=0.09);

## [1] 2

sum(data>=0.06);

## [1] 15

sum(data>=0.05);

## [1] 68

On supprime les valeurs ayant des valeurs se démarquant clairement, on va les considérer comme des valeurs aberrantes, même si elles ne le sont sûrement pas et simplement dû à l’expérience ayant mené à la capture de ces données.

On observe que même en supprimant toutes les valeurs supérieurs à 0.05, on ne perd que 68 valeurs, ce qui correspond à moins de 1% de nos valeurs.

Nous allons donc tracer un graphe et un histogramme ne prenant pas en compte les valeurs supérieurs à 0.05.

data_clean = data[data<=0.05];
plot.ts(data_clean);

hist(data_clean,breaks=50);

Maintenant que nous avons tracé un graphe et histogramme sans les quelques valeurs étant à l’écart, on peut confirmer la répartition des valeurs majoritairements dans l’intervalle 0.01 et 0.03 avec également pas mal de valeurs autour de 0.04. On peut dire que l’on a globalement un régime stationnaire tout au long de la période d’observation.

Summary

Pour réaliser le summary, nous nous contenterons cependant de simplement retirer les 2 valeurs supérieurs à 0.09.

data_finale = data[data<=0.09];
summary(data_finale);

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00800 0.01400 0.01700 0.01999 0.02300 0.07700

Le summary confirme, encore une fois, la répartition de nos valeurs avec un premier quartile à 0.014 et un troisième quartile à 0.023. La médiane et la moyenne sont relativement proche, le moyenne étant légerement plus haute dû au petit “pic” du nombre de valeurs un peu avant 0.04.

sum(data_finale<=0.014);

## [1] 2700

sum(data_finale>=0.023);

## [1] 2373

Résumons tout cela par un boxplot :

boxplot(data_finale);

DM: Etude de données

REVEL Antoine

Octobre 2015

Récupération du jeu de données

Vérification du jeu de données

Etude du jeu de données