Le but de ce DM est de verifier que vous avez compris les principales etapes a suivre lorsque l’on analyse un jeu de donnees.

Pour cela, vous appliquerez la demarche de statistiques descriptives vue en cours aux divers jeux de donnees proposes:

C a bien du sens. Le cas echeant, si le jeu de donnees ne satisfait pas les hypotheses attendues, vous essayerez de vous restreindre C un sous-ensemble du jeu de donnees en justifiant vos choix. Si vous avez l’impression qu’il y a plusieurs regimes (successifs ou supperposes), vous separerez les deux regimes et les analyserez separement.

On rappelle les differentes fonctions de base de R qui pourront vous C*tres utiles: str, summary, mean, diff, sort, var, sd, plot, plot.ts, hist, boxplot.

Recuperation des jeux de donnees

## [1] 0.00353098 0.01528040 0.03838260 0.04766630 0.05585270 0.08191820

Nous disposons ici du jeux de donn?? cache qui correspond au taux d’acc??s r??ussi au cache avec une p??riode d’??chantillonnage de 100ms lors de l’ex??cution d’un programme. D??couvrons un peu plus ce que contion ce jeu de donn??

str(data);
##  num [1:2000] 0.00353 0.01528 0.03838 0.04767 0.05585 ...

On voit que ce jeu de donn?? contient 2000 entr??s ce qui constitut un nombre suffisant de donn??es pour notre analyse. Essayons de vois les informations globales correspondant ?? notre jeu de donn??:

summary(data);
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## 0.003531 0.150000 0.159400 0.158000 0.167500 0.198500

Ce qui m’interesse le plus ici c’est le minimum et le maximum. comme ??a on connais les limites de notre jeu de donn??e. donc le taux d’acces r??ussi minimal de notre programme dans une periode de 100ms est de 0.003521 et le taux maximum est de 0.198500. N??anmoins pour faire une bonne analyse il faudrais une visualisation graphique. representons alors notre jeu de donn??e sous forme de serie temporelle pour l’observation des donn??es en fonction du temps.

plot.ts(data);

on observe une courbe plutot bien structur??e, ?? peu pr??s periodique. mais vu le nombre de donn??es, la courbe est un peu compresser ce qui fait qu’on ne vois pas bien certaines zones. je vais donc d??couper ma courbe en 3 parties pour bien la dicerner.

data1<- data[1:650];
data2<- data[651:1400];
data3<- data[1401:2000];

maintenant que la division a ??t?? faite zoomons sur la premiere partie de la courbe:

plot.ts(data1);

la premi??re partie de notre jeu de donn??e montre qu’il faut un minimum de temps pour que le taux de reussite n’atteigne sa valeur moyenne. donc nous pouvons ignorer les valeur entre 0 et 10.

data1_2= data1[10:650];
plot.ts(data1_2);

l?? on a une vue plus agrandie de notre jeu de donn??e qui montre une structure stable avec des hauts et des bas.

examinons le reste de la courbe

plot.ts(data2);

la deuxieme partie de la courbe n’est pas trop differente de la premi??re on constate une uniformit?? presque parfaite

plot.ts(data3);

m??me constat pour la troisi??me partie. on conclusion toute la courbe est presque uniforme. On peut alors calculer la moyenne de notre jeu de donn??e en prenant bien soins d’enlever les donn??es inutiles telle que celle au debut de la sequence. 0 ?? 10

dataMoy<- data[10:2000];
mean(dataMoy);
## [1] 0.1585013

Donc en moyenne, le taux de reussite est de 0.1585013 pour un temps de 100ms.

La deuxi??me partie de notre jeu de donn??e ?? l’aire la plus stationnaire, tra??ons sont histogramme pour annalyser les valeurs.

hist(data2);

on constate que la valeure la plus frequente est 0.16 qui apparait environs 120 fois dans cette partie. cela signifie que le taux de reussite est en majorit?? de 0.16 pour une dur??e de 100ms. La variance de cette parite:

var(data2);
## [1] 0.0001624846

calculons ensuite la mediane pour voir combien de donn??e il y a de part et d’autre du 0.16, la donn??e la plus frequente:

median(data2);
## [1] 0.1606765

Je dirais que notre jeu de donn??e ne presente pas d’irregularit?? vraiment serieuse ?? analys??, elle est uniforme sur toute la dur??e.

Etudions ?? present les valeurs minimal, maximal, le median, le 1/4 et le 3/4. on peut obtenir ces valeur grace ?? la fonction quantile

quantile(data, probs=c(0, 0.25, 0.5, 0.75, 1));
##         0%        25%        50%        75%       100% 
## 0.00353098 0.14998050 0.15938000 0.16751975 0.19854600

Pour bien visualiser ces donn??es, nous pouvons utiliser le Boxplot qui les montre vrament

boxplot(data);

Maintenant affichons le boxplot des 3 parties de notre jeu de donnee pour comparer les valeurs.

boxplot(data1_2 , data2,data3,main="Boxplot Data1, data2, data3 ");

Avec le Boxplot on se rend compte que les trois parties de notre jeu de donn??e sont pratiquement les m??me puisqu’elles ont les presque les m??mes minimum, maximum, median.