Le but de ce DM est de vérifier que vous avez compris les principales étapes à suivre lorsque l’on analyse un jeu de données.
Pour cela, vous appliquerez la démarche de statistiques descriptives vue en cours aux divers jeux de données proposés:
À chaque étape, vous justifierez que ce que vous calculez ou affichez a bien du sens. Le cas échéant, si le jeu de données ne satisfait pas les hypothèses attendues, vous essayerez de vous restreindre à un sous-ensemble du jeu de données en justifiant vos choix. Si vous avez l’impression qu’il y a plusieurs régimes (successifs ou supperposés), vous séparerez les deux régimes et les analyserez séparément.
On rappelle les différentes fonctions de base de R qui pourront vous êtres utiles: str
, summary
, mean
, diff
, sort
, var
, sd
, plot
, plot.ts
, hist
, boxplot
.
## [1] 10.9 10.8 10.9 10.9 10.7 10.9
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 10.60 10.70 10.80 10.93 10.80 68.10
Ces 2 outils de mesure permettent de mettre en évidence la répartition des valeurs. Les quartiles et le minimum des données nous indique que 75% des valeurs sont comprises entre 10.60 et 10.80ms. De plus, l’histogramme permet de confirmer graphiquement les tendances observées. Cette tendance est cohérente avec le type de donnée : le temps d’un ping dépend de la connexion entre le client et le serveur. Pour ces données, la connexion était donc plutôt stable.
Variance :
## [1] 1.47823
La variance est plutôt petite, ce qui signifie que les valeurs sont plutôt regroupées.