Le but de ce DM est de vérifier que vous avez compris les principales étapes à suivre lorsque l’on analyse un jeu de données.

Pour cela, vous appliquerez la démarche de statistiques descriptives vue en cours aux divers jeux de données proposés:

A chaque étape, vous justifierez que ce que vous calculez ou affichez a bien du sens. Le cas échéant, si le jeu de données ne satisfait pas les hypothèses attendues, vous essayerez de vous restreindre à un sous-ensemble du jeu de données en justifiant vos choix. Si vous avez l’impression qu’il y a plusieurs régimes (successifs ou supperposés), vous séparerez les deux régimes et les analyserez séparément.

On rappelle les différentes fonctions de base de R qui pourront vous êtres utiles: str, summary, mean, diff, sort, var, sd, plot, plot.ts, hist, boxplot.

Récupération des jeux de données

## [1] 0.00353098 0.01528040 0.03838260 0.04766630 0.05585270 0.08191820

Première visualisation


Avec plot.ts, on observe un très léger régime transitoire et une très grande partie en régime stationnaire.


En affichant le jeu de données sous forme de points, on s’aperçoit que le régime transitoire ne concerne qu’une petite quinzaine de points, ce qui est négligeable par rapport aux 2000 points de ce jeu de données. On peut alors se contenter d’étudier la partie sationnaire.


En zoomant sur la partie stationnaire, on remarque une tendance vers 16% de taux de réussite d’accès au cache, avec une fluctuation allant de 12% à 19%.

Visualisation détaillée


La partie la plus intéressante de ce jeu de données se trouve entre les points 700 et 1600.En traçant un histogramme, on remarque que le taux d’accès au cache forme une gaussienne.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1172  0.1529  0.1607  0.1600  0.1680  0.1942


A l’aide du summary, on voit que le taux moyen d’accès au cache est de 16% et que Median=Mean, ce qui indique qu’il y a une répartition symétrique du taux d’accès au cache autour de 16%.