DM1 : Etude de données

Jeu de données : CACHE

On lit notre jeu de données, ici le cache contenu dans “cache.csv”.

cache=read.csv("data.csv");

On répertorie toutes les informations de répartitions du jeu de données.

cacheV = cache$X0.00353098;
summary(cacheV);

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.01118 0.20450 0.22720 0.20710 0.23320 0.24440

On l’affiche maintenant avec la fonction plot.

On observe 4 régimes sur la courbe.
Le premier montre une augmentation dès les toutes premières valeurs mais devient stationnaires ensuite jusqu’à la 20ème valeur.
Le second se caractérise par une augmentation un peu moins rapide des valeurs. On remarque une pente moins grande entre les valeurs numéro 20 et numéro 124.
On observe sur le troisième une augmentation nettement plus rapide des valeurs entre la 125ème et la 619ème. On pourrait modéliser cette partie de la courbe par une fonction affine de pente positive.
Le quatrième est stationnaire et décrit par une stagnation des valeurs du cache aux alentours de l’intervalle [0.20, 0.25] pour les valeurs suivant la 620ème.

plot.ts(cacheV);

En utilisant un histogramme, on observe la répartition des valeurs parmi différentes classes de valeurs :

hist(cacheV)

break0 = 20
break1 = 125;
break2 = 620;
end = 2000;

R0 = cacheV[0:(break0-1)];
R1 = cacheV[break0:break1];
R2 = cacheV[(break1+1):break2-1];
R3 = cacheV[break2:end];

On affiche le premier régime R1.

Avec un plot :

plot.ts(R0);

hist(R0);

Les valeurs intéressantes se concentrent dans l’intervalle [0.03,0.06] d’après l’histogramme.

Les valeurs de la boîte à moustache confirme bien que la répartition n’est pas du tout équimibrée.

summary(R0);

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.01118 0.04655 0.05032 0.04780 0.05514 0.06018

boxplot(R0);

plot.ts(R1);

hist(R1)

Clairement, la répartition des valeurs se concentre dans l’intervalle [0.07,0.010]. On pourrait affiner l’analyse en retirant les valeurs en dehors de cette intervalle.

summary(R1);

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.05365 0.07896 0.08417 0.08287 0.08784 0.11030

boxplot(R1);

plot.ts(R2);

hist(R2);

L’affichage de la fonction est plus parlante que l’histogramme quant à l’analyse que l’on peut en faire. La courbe croît assez vite dans le premier tiers des valeurs pour ensuite ralentir le rythme de croissance sans rentrer pour autant dans un régime stationnaire.

summary(R2);

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.08318 0.14490 0.18980 0.17470 0.20400 0.22150

boxplot(R2);

plot.ts(R3);

hist(R3)

Nous sommes ici en plein régime stationnaire. L’histogramme permet de regrouper les différentes tendances qui s’en extraient. On remarque donc une grosse concentration de valeurs dans l’intervalle [0.220,0.240]. Les valeurs situées à l’extérieur de cet intervalle ne sont pas très intéressantes pour l’analyse. C’est un intervalle vraiment serré qui regroupe pourtant une bonne partie des valeurs de l’échantillon analysé.

summary(R3);

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##  0.2116  0.2268  0.2313  0.2304  0.2348  0.2444       1

boxplot(R3)

DM1 : Etude de données

ELLAPIN Jordan

14 octobre 2015