Le but de ce DM est de vérifier que vous avez compris les principales étapes à suivre lorsque l’on analyse un jeu de données.

Pour cela, vous appliquerez la démarche de statistiques descriptives vue en cours aux divers jeux de données proposés:

À chaque étape, vous justifierez que ce que vous calculez ou affichez a bien du sens. Le cas échéant, si le jeu de données ne satisfait pas les hypothèses attendues, vous essayerez de vous restreindre à un sous-ensemble du jeu de données en justifiant vos choix. Si vous avez l’impression qu’il y a plusieurs régimes (successifs ou supperposés), vous séparerez les deux régimes et les analyserez séparément.

On rappelle les différentes fonctions de base de R qui pourront vous êtres utiles: str, summary, mean, diff, sort, var, sd, plot, plot.ts, hist, boxplot.

Récupération des jeux de données

On distingue, ici, une courbe plutôt plausible du taux de réussite d’accès à un cache. En effet le processeur peut assez souvent faire des défauts de cache s’il cherche à accèder à une valeur qui n’est pas dans le cache. Ici le taux même s’il est plausible paraît quand même un peu bas (environ 50% à vue d’oeil). Essayons sans les 6 premières valeurs qui sont responsable du trou que l’on a en début de courbe.

Ici, on aperçoit des valeur fluctuant de 30 à 60% en gros. Cette courbe, malgré les 30% de fluctuation paraît un peu plus propre que l’ancienne. Essayons d’avoir un peu plus de détails sur cette série de valeur.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2643  0.5044  0.5282  0.5207  0.5489  0.6042

Tout d’abord on peut voit que la moyenne n’est vraiment pas loin de la médiane, ce qui signifie que la partie à gauche et à droite de la médianne sont plutôt bien équilibré. Et ce malgré un minimum à 0.2643 et un maximum à 0.6042 qui sont des valeurs plutôt écartées. De plus le premier et le troisième quartile sont à respectivement -0.02 et +0.02 de la médianne. Voyons maintenant la fréquence des taux d’accès de réussite.

On voit bien que quasiment 1000 sur les 1994 de l’échatillon sont entre 0.5 et 0.55, et la quasi majorité des valeurs sont entre 50 et 60%.

Conclusion

On peut conclure que le taux de réussite de cette échantillon est tout à fait plausible (pas de valeur aberrante), mais le taux paraît quand même globalement faible. Je conseillerais de revoir la machine testée et de voir les origines de ces valeurs un peu faible.