Analyse du jeu de données

Récupération du jeu de données (cache)

## [1] 0.00353098 0.01370130 0.03660990 0.04583740 0.04961360 0.05178560

Début des observations

Tout d’abord, nous allons regarder quel type de donnée nous allons analyser.

str(data);

##  num [1:2000] 0.00353 0.0137 0.03661 0.04584 0.04961 ...

Nous savons maintenant que nous allons analyser une suite de 2000 nombres dont les 5 premiers éléments semble nous montrer une augmentation de valeur plutôt rapide.

Nous allons maitenant essayer de voir si ces données sont structurées dans le temps.

On peut facilement apercevoir que notre série est divisée en deux phases très distincte. La première est une phase d’initialisation de t=0 à t=50 avec une augmentation très rapide des valeurs comme on peut le voir ci-dessous plus en détail:

La deuxième est une phase d’oscillation des valeurs de t=50 à t=2000 avec des données oscillant entre 0.15 et 0.23.

Grâce à ces premières observations, je décide de scinder mon ensemble de données en deux selon les deux phases que j’ai pu observer précédemment.

data1 = data[0:50]
data2 = data[50:2000]

La première phase

Nous allons donc tout d’abord visualiser en détail notre première phase.

Comme on peut le voir, on a une augmentation rapide et relativement régulière de nos valeurs de 0.003531 à 0.185. Cette courbe semble donc être celle représentant une phase d’initialisation: en effet, elle est très regulière et rapide et est très différente de la seconde phase qui elle dure dans le temps et est plus regulière. Nous ne pouvons pas vraiment en dire plus sur cette phase du fait de son faible nombre de données et de sa régularité (un boxplot ou un histogramme ne nous en apprendrait pas beaucoup plus).

La phase d’oscillation

Nous nons interessons maintenant à notre seconde phase que nous allons visualiser afin de vérifier que notre découpage est bien le bon.

Il semblerait que les données soient bien plus désordonnées que ce qu’il nous semblait au début mais ce n’est surement qu’une impression à cause du zoom qui a été fait. Aucune structure partiulière semble sortir du lot, nous allons donc faire un histogramme afin de visualiser ces données. Les valeurs étant peu disparatre (de 0.15 à 0.225), nous décidons de laisser la taille des bins par défaut.

Après avoir fait un histogramme de cette zone, on peut observer une courbe qui ressemble fortement à une gaussienne. Le pic de fréquence semble se trouver à environ 0.1975. On peut observer une répartition des valeurs symétrique à ce pic de fréquence ce qui pourait nous indiquer que la moyenne et la médiane sont proche.

Nous allons maintenant extraire un résumé de nos données afin d’avoir des indicateurs pertinent par rapport à celle-ci.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1517  0.1894  0.1968  0.1953  0.2030  0.2250

Grâce à l’outil “summary”, nous pouvons observer que la moyenne et la médiane sont quasiment identique ce qui confirme notre précedente hypothèse.

Nous allons maintenant faire un boxplot afin d’obtenir une dernière vue d’ensemble de notre jeu de donnée.

Comme nous pouvons le voir une fois de plus, la médiane et la moyenne sont très proche ce qui confirme nos précedentes hypothèses. De plus, on peut voir que les valeurs semble repartie uniformément sur l’ensemble des données.

Interprétations

A partir de toutes les observations que nous avons réalisées, nous pouvons en dire plus sur notre jeu de donnée. En effet, on peut dire que notre cache n’est pas vraiment efficace. Après la première phase d’initialisation, on peut voir que le taux d’accès au cache est relativement faible car il est seulement de 19.53% en moyenne (et la médiane est très proche). L’histogramme nous confirme aussi cela car on voit que les données sont symétriques par rapport au pic de fréquence qu se trouve aux alentours de 19.75%.

Par rapport aux faibles performances de ce cache, une des possibilité qui pourrait expliquer ce faible taux d’accès au cache pourrait être sa petite taille qui ne lui permet pas de contenir assez d’informations différentes pour le rendre efficace.

DM: Étude de données