Le but de ce DM est de vérifier que vous avez compris les principales étapes à suivre lorsque l’on analyse un jeu de données.

Pour cela, vous appliquerez la démarche de statistiques descriptives vue en cours aux divers jeux de données proposés:

À chaque étape, vous justifierez que ce que vous calculez ou affichez a bien du sens. Le cas échéant, si le jeu de données ne satisfait pas les hypothèses attendues, vous essayerez de vous restreindre à un sous-ensemble du jeu de données en justifiant vos choix. Si vous avez l’impression qu’il y a plusieurs régimes (successifs ou supperposés), vous séparerez les deux régimes et les analyserez séparément.

On rappelle les différentes fonctions de base de R qui pourront vous êtres utiles: str, summary, mean, diff, sort, var, sd, plot, plot.ts, hist, boxplot.

Récupération des jeux de données

## [1] 0.608297 0.777268 0.839618 0.839641 0.839816 0.907404

Voir en général

Tout d’abord, on voit le data en général

plot(data,main = "access rate",xlab = "time/ms",ylab = "rate");

Première partie

Selon le graphe précédent, on peut diviser le graphe généralement en trois parties, la première partie monte en plein essor,la deux partie augmente doucement, la troisième partie stabilise autour d’un chiffre, on choisit la première partie de 1 à 150 ms selon le premier graphe.

plot.ts(data,main = "access rate",xlab = "time/ms",ylab = "rate",xlim = c(1,150));

D’après ce graphe, on peut voir que de 1 à environs 20 ms, il y a une augmentation remarquable, et de 20 à 70ms, le taux d’accès monte doucement,après la ligne devient plat.

Deuxième partie

On choisit de 150 à 500ms d’après le premier graphe,il doit avoir une légère augmentation.

plot.ts(data,main = "access rate",xlab = "time/ms",ylab = "rate",xlim=c(150,500), ylim = c(0.95,1));

Selon le graphe, on peut dire que il y a quelques vibration, mais la tendance est augmentation.

Troisième partie

Suivant, on vais analyser la Troisième partie. Après avoir vu le premier graphe, on a une impression que après 500 ms, la ligne devient plat, donc ici on vais voir la ligne plus proche pour savoir si la ligne suivant a changé ou pas.

plot.ts(data,main = "access rate",xlab = "time/ms",ylab = "rate",xlim = c(500,2000), ylim = c(0.985,0.992));

Au début de graphe jusqu’à environs 1000ms, même si la ligne vibre quelque part, mais elle continue monter, après 1000ms, la ligne vibre plus doucement et stabilise autour de 0.99.

Le taux stabilisé

Pour voir plus précisément,on fait les graphes du histogramme, box plots et le summary.

hist(data[1000:2000],main = "access rate",xlab = "rate",xlim = c(0.9890,0.9915));

boxplot(data[1000:2000],main = "access rate",ylab = "rate");

summary(data[1000:2000]);
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9892  0.9903  0.9907  0.9906  0.9909  0.9913
var(data[1000:2000]);
## [1] 2.446563e-07

D’après le graphe du histogramme,c’est visuellement que de 1000 à 2000ms, le taux d’accès stabilise autour de 0.9906 ou 0.9907. Selon le box plots, il a y très peu de grande vibration, et les chiffre de summary et de var sont clair de montrer que après 1000ms,le taux ne change pas beaucoup.

Conclusion

Après avoir analysé la donné, on sait que le data peut diviser en trois parties, mais il ne correspond pas complètement à notre hypothèse,les nouvelles trois parties sont:

Donc on peut conclure que le Cache démarre vite pour arriver un taux d’accès acceptable, après il prend un peu de temps pour arriver le rendement optimal(d’après le data).