Le but de ce DM est de vérifier que vous avez compris les principales étapes à suivre lorsque l’on analyse un jeu de données.

Pour cela, vous appliquerez la démarche de statistiques descriptives vue en cours aux divers jeux de données proposés:

À chaque étape, vous justifierez que ce que vous calculez ou affichez a bien du sens. Le cas échéant, si le jeu de données ne satisfait pas les hypothèses attendues, vous essayerez de vous restreindre à un sous-ensemble du jeu de données en justifiant vos choix. Si vous avez l’impression qu’il y a plusieurs régimes (successifs ou supperposés), vous séparerez les deux régimes et les analyserez séparément.

On rappelle les différentes fonctions de base de R qui pourront vous êtres utiles: str, summary, mean, diff, sort, var, sd, plot, plot.ts, hist, boxplot.

Récupération des jeux de données

## [1] 11.8572 11.8054 11.8233 10.8909 11.8488 11.8607

Visualisation des données

On etudie la durée de l’exécution des différents appels à la fonction DGEMM lors d’une factorisation de Cholesky à l’aide de StarPU. Les unités de mesures sont en milisecondes.

plot.ts(data);

plot(data);

On voit sur le premier graphe ci-dessus qu’il y a plusieurs pics. Sur le second on distingue plusieurs paliers dont un (comprit entre 2 et 3ms) qui semble contenir plus de valeurs que les autres.

hist(data);

L’histogramme ci-dessus confirme ce que l’on pensait, la majorité des points se concentre autour de la valeur 3.

data_inferieur_a_3 = data[data<3];
str(data);
##  num [1:23545] 11.9 11.8 11.8 10.9 11.8 ...
str(data_inferieur_a_3);
##  num [1:22655] 2.89 2.88 2.89 2.87 2.89 ...

22655/23545*100= 96.2200042 On voit que plus de 96% des valeurs sont inferieures à 3. On décide donc de les étudier séparement des autres.

Etude des valeur inferieur à 3

summary(data_inferieur_a_3);
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.844   2.911   2.917   2.915   2.923   2.999
hist(data_inferieur_a_3);

Sur l’histogramme on voit que la plupart des valeurs se trouve entre 2.91 et 2.93 et qu’il y a, à peu près, autant de valeurs inférieures et supérieures à cet intervalle. De plus la médianne et la moyenne confirme ce que l’on pensait car elles sont respectivement égale à 2.917 et 2.915. On voit aussi que la plupart des appels à DGEMM dure entre 2.844 et 2.999 millisecondes.

Etude des valeur superieur à 3

data_superieur_a_3 = data[data>=3];
plot(data_superieur_a_3);

data_superieur_a_6 = data[data>=6];
str(data_superieur_a_6);
##  num [1:361] 11.9 11.8 11.8 10.9 11.8 ...

On vois sur le schéma qu’il y a une concentration d’appel aux alentours des 11 ms et des 12ms au début de la capture de valeurs. On vois qu’il y a plusieur paliers de durée d’appel à DGEMM, par exemple on constate des consentration autour de 4ms, 5ms. Mise a part au debut de la capture on vois quil y trés peu d’appel au dessus de 6ms (environ 1.5% des appels sont supperieur a 6ms).

361/23545*100 = 1.53323423