## [1] 0.00353098 0.01370130 0.03660990 0.04583740 0.04961360 0.05178560
Tout d’abord, nous allons regarder quel type de donnée nous allons analyser.
str(data);
## num [1:2000] 0.00353 0.0137 0.03661 0.04584 0.04961 ...
Nous savons maintenant que nous allons analyser une suite de 2000 nombres dont les 5 premiers éléments semble nous montrer une augmentation de valeur plutôt rapide.
Nous allons maitenant essayer de voir si ces données sont structurées dans le temps.La deuxième est une phase d’oscillation des valeurs de t=50 à t=2000 avec des données oscillant entre 0.15 et 0.23.
Grâce à ces premières observations, je décide de scinder mon ensemble de données en deux selon les deux phases que j’ai pu observer précédemment.
data1 = data[0:50]
data2 = data[50:2000]
Comme on peut le voir, on a une augmentation rapide et relativement régulière de nos valeurs de 0.003531 à 0.185. Cette courbe semble donc être celle représentant une phase d’initialisation: en effet, elle est très regulière et rapide et est très différente de la seconde phase qui elle dure dans le temps et est plus regulière. Nous ne pouvons pas vraiment en dire plus sur cette phase du fait de son faible nombre de données et de sa régularité (un boxplot ou un histogramme ne nous en apprendrait pas beaucoup plus).
Après avoir fait un histogramme de cette zone, on peut observer une courbe qui ressemble fortement à une gaussienne. Le pic de fréquence semble se trouver à environ 0.1975. On peut observer une répartition des valeurs symétrique à ce pic de fréquence ce qui pourait nous indiquer que la moyenne et la médiane sont proche.
Nous allons maintenant extraire un résumé de nos données afin d’avoir des indicateurs pertinent par rapport à celle-ci.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1517 0.1894 0.1968 0.1953 0.2030 0.2250
Grâce à l’outil “summary”, nous pouvons observer que la moyenne et la médiane sont quasiment identique ce qui confirme notre précedente hypothèse.
Nous allons maintenant faire un boxplot afin d’obtenir une dernière vue d’ensemble de notre jeu de donnée.Comme nous pouvons le voir une fois de plus, la médiane et la moyenne sont très proche ce qui confirme nos précedentes hypothèses. De plus, on peut voir que les valeurs semble repartie uniformément sur l’ensemble des données.
A partir de toutes les observations que nous avons réalisées, nous pouvons en dire plus sur notre jeu de donnée. En effet, on peut dire que notre cache n’est pas vraiment efficace. Après la première phase d’initialisation, on peut voir que le taux d’accès au cache est relativement faible car il est seulement de 19.53% en moyenne (et la médiane est très proche). L’histogramme nous confirme aussi cela car on voit que les données sont symétriques par rapport au pic de fréquence qu se trouve aux alentours de 19.75%.
Par rapport aux faibles performances de ce cache, une des possibilité qui pourrait expliquer ce faible taux d’accès au cache pourrait être sa petite taille qui ne lui permet pas de contenir assez d’informations différentes pour le rendre efficace.