Loading
Formation_SIG
This is a live streamed presentation. You will automatically follow the presenter and see the slide they're currently on.
Support de formation en ligne:
https://formationsig.gitlab.io/stat1/mod_1_0_prepadata/mod_1_0_prepadata.html
Suivre le diaporama en direct:
Télécharger LibreOffice (si nécessaire):
https://fr.libreoffice.org/download/telecharger-libreoffice/
Objectifs de la formation :
produire des tableaux propres et exploitables à l’aide d’un tableur ;
comprendre l’importance du tableau, élément central du cycle de vie des données (pour la collecte, l’exploitation et la restitution - produits de la recherche - des données) ;
maîtriser et appliquer les 10 commandements du tableau de données
Déroulé de la journée
9h00-12h00 : lire et comprendre des tableaux de données
13h00-17h00 : utilisation du tableur (calc) pour préparer et consolider ses tableaux
définition "tableau" :
"Support plan vertical destiné à recevoir des informations, des renseignements, des inscriptions."
(https://www.cnrtl.fr/definition/tableau)
Petit Robert : Liste par ordre (de personnes).
Série de données, de renseignements, disposés d'une manière claire et ordonnée.
On pourrait ajouter : matérialisé par une grille (lignes entrecroisées) visible ou parfois implicite
définition "tableau" :
L'intersection de colonnes et de lignes forment des cellules.
une cellule = une valeur = une "donnée"
A SUPPRIMER
Dans un tableur, on peut se référer à la valeur que contient la cellule ou à la cellule elle-même grâce à l'adressage des cellules.
Centre archéologique | Nom-Prénom stagiaire | (indiquer par OUI/NON la disponibilité des participants)" | Etat de l'inscription | Confirmation Envoi convocation |
---|---|---|---|---|
Lolita Rousseau | oui | inscription | convocation envoyée le 13/01/23 | |
Sandra Kayamare | NON (pas suivi le niveau 1) | inscription | convocation envoyée le 13/01/23 | |
Martjin Van Del Bel | oui | inscription | convocation envoyée le 13/01/23 | |
Pascal Combes | oui | inscription | convocation envoyée le 13/01/23 | |
Christophe Ars | NON (plus disponible) | inscription | convocation envoyée le 13/01/23 | |
Jérôme Isnard | oui | inscription | convocation envoyée le 13/01/23 | |
Philippe Gilette | NON | inscription | convocation envoyée le 13/01/23 | |
Pierre Longchambon | NON (pas suivi le niveau 1) | inscription | convocation envoyée le 13/01/23 | |
Gaetan Juillard | cdd en contrat | inscription | convocation envoyée le 13/01/23 |
L'usage (l'objectif du tableau) conditionne sa forme.
Tous les tableaux partagent les caractéristiques suivantes :
Quel que soit l’objectif qui a motivé la création du tableau, un tableau permet de saisir, manipuler (trier, ordonner), calculer, comptabiliser les valeurs et les données qu’il contient. Un tableau "bien fait" est manipulable et polyvalent.
Si le tableau ne peut pas être manipulé :
!
exercice 1 :
Autopsie de tableaux, pour une meilleure définition des caractéristiques d'un tableau réussi (qui répond à son objectif).
Y'a-t-il un bon et un mauvais tableau?
clic pour accéder aux tableaux d'exercice
Consignes
1. Identifier le sujet du tableau (sujet/unité)
2. Données manipulables ? (oui/on et pourquoi ?)/identifier tout ce qui freine la lecture/compréhension du tableau
3. En déduire le type de tableau:
Y'a-t-il un bon et un mauvais tableau?
clic pour accéder aux tableaux d'exercice
Préparation / Consolidation
2/2
source: "Éléments de Statistiques" de F.Santos - http://www.pacea.u-bordeaux1.fr/IMG/pdf/poly_cours.pdf
Synthèse : recette d'un tableau de données réussi
1. un format de tableau manipulable et polyvalent
= permettre au tableau de devenir la table d'une future base de données, d'être joint à une couche de données géoréférencées ou d'être mis en page pour l'inventaire à la fin d'un rapport (doit pouvoir être exporté)
format tableur ou .csv
Synthèse : recette d'un tableau réussi
2. un tableau dont les données sont manipulables (tri, sélection) sans remaniement/nettoyage préalable
Synthèse : recette d'un tableau réussi
3. un tableau dont le sujet est bien identifié et identifiable
Pour trouver le sujet du tableau, repérer l'identifiant unique du tableau. L'identifiant unique ne correspond pas toujours à la première colonne ; et parfois, il est implicite.
Synthèse : recette d'un tableau réussi
Et pour finir : la mise en forme / l'habillage du tableau n'est pas l'un des ingrédients d'un tableau de données exploitable.
C'est l'ingrédient de la communication.
On peut mettre en forme / habiller un tableau pour en faciliter la lecture ou la présentation mais sur le support de présentation uniquement si possible.
Un inventaire est une extraction/copie mise en forme de l'enregistrement qui répond à la normalisation SRA.
Une "exception" : les utilisations détournées du tableur (cf feuille "marché_reprographie" de l'exercice ou tableaux-formulaires).
Les éléments du tableau de données : équivalences des termes
tableur (Justin Tableur) |
base de données | SIG | tableau pour statistiques |
feuille du classeur | table* | table attributaire* | tableau* élémentaire/ensemble |
colonne | champ | champ (attributaire) ou attribut) | variable/caractère |
ligne | enregistrement/objet/entité | enregistrement/objet/entité | individu |
valeur/cellule | valeur | valeur | modalité/mesure |
*NB : pour désigner l’ensemble des individus/enregistrements qu’on étudie, soit la totalité d’une table/tableau, on parlera indifféremment de “corpus”, “ensemble”, “données”....
- tableaux-formulaire/tableau-figure : utilisation "détournée" des fonctions du tableur ; pourquoi pas mais sans que cela rende inexploitable le tableau initial
- tableau base de données : creusons un peu...
exercice collectif :
feuille PCR_MAISONS1_UNITE
décrypter un tableau "base de données" et proposer une structure de base de données relationnelle (définition des tables et des relations)
ex 2 : décrypter un tableau-base de données et en tirer la structure
clic pour accéder aux tableaux d'exercice
exercice collectif : module0_F102719
- quelles sont les colonnes qui sont présentes à chaque fois?
- sont-ce des tableaux manipulables?
- quelle serait le MCD simplifié du système d'Enregistrement de Terrain (à dessiner sur le paperboard)?
ex 3 : décrypter un tableau-base de données et en tirer la structure
clic pour accéder aux tableaux d'exercice
un tableau bien conçu respectant les 10 commandements pourra se prêter à la définition d'une structure de base de données ou à l'exploitation statistiques/mathématiques des données qu'il contient.
Un inventaire est une extraction mise en forme de l'enregistrement
Synthèse : Tableau vs base de données
Pour l'HCERES, les bases de données comptent parmi les "produits de la recherche" (guide des produits de la recherche et des activités de recherche 2023) au même titre que les ouvrages et articles publiés et d'autres produits numériques (logiciels, corpus, carnets de recherche...)
Le tableau : produit de la recherche et unité de conservation pérenne
Data.gouv encourage le dépôt et la publication de jeux de données (https://recherche.data.gouv.fr/fr/guide/ou-deposer-et-publier-ses-donnees) où le fichier .tab (données tabulées) est un format ouvert compatible avec la préservation à long terme
un jeu de données d'après wikipédia c'est "un ensemble de valeurs « organisées » ou « contextualisées » (alias « données »), où chaque valeur est associée à une variable (ou attribut) et à une observation [...] Si nous sommes dans une base de données on peut le voir ainsi : chaque colonne est une propriété donc un attribut ou variable, et chaque ligne est une observation puisque décrite par un ensemble d'attributs. »
Le tableau : produit de la recherche et unité de conservation pérenne
Pour le CINES (Centre Informatique National de l'Enseignement Supérieur, guide méthodologique pour l'archivage des bases de données, 2013) dans le cas de BDD peu complexes il est recommandé de faire un export au format CSV ou txt dans lequel chaque fichier CSV représente une table + description des MCD, MLD et MPD
Le tableau : produit de la recherche et unité de conservation pérenne
donc
BDD = tableaux = produits de la recherche = jeux de données = objets numériques = archives = TABLEAUX!!!!
Le tableau : produit de la recherche et unité de conservation pérenne
production/exploitation | valorisation | conservation | réutilisation/diffusion |
---|---|---|---|
données/base de données/tableur (enregistrement ou PAS) | produits de la recherche | objets numériques | jeux de données |
INRAP | HCERES | CINES | DATA.GOUV |
et re-donc
Ce n'est pas nécessairement à l'utilisation d'un logiciel/SGBDR qu'il faut se former mais à la structuration des données (numériques) indépendamment du support de collecte/restitution.
Le tableau : produit de la recherche et unité de conservation pérenne
Préparation / Consolidation
2/2
source: "Éléments de Statistiques" de F.Santos - http://www.pacea.u-bordeaux1.fr/IMG/pdf/poly_cours.pdf
https://recherche.data.gouv.fr/fr/categorie/9/guide/deposer-un-jeu-de-donnees#Cas+des+fichiers+de+donn%C3%A9es+tabul%C3%A9es
Préparation / Consolidation
2/2
1. Individus en ligne / Variables en colonnes ► identifier l'unité
2. Pas de doublons ► identifiant unique
3. Noms de variables : courts, clairs, sans accents, sans espaces, en minuscule
4. Pas de caractères spéciaux $ % ° @ #
5. Données manquantes = cellule vide ≠ 0
6. 1champ = 1 information (incertitude = 1 info)
7. Un seul séparateur de décimales . ou , ► saisie homogène
8. Pas de mise en forme
9. Exporter dans un format tableur ou en CSV
10. Vérifier/Relire ses données (consolidation
des données/coquilles)
source: "Éléments de Statistiques" de F.Santos - http://www.pacea.u-bordeaux1.fr/IMG/pdf/poly_cours.pdf
Dans le dossier STAT :
→ créer un nouveau dossier Travail
Depuis le dossier STAT / Donnees :
→ copier le fichier donnees_archeo.ods dans le dossier Travail
Ouvrir le fichier donnees_archeo.ods avec LibreOffice Calc
Supprimer les feuilles inutiles du classeur et renommer la Feuille1 en "ceram_proto"
donnees_archeo.ods - Feuille metallo_culot:
Collage spécial
Coller les valeurs de la colonne K "volume_englobant" dans une nouvelle feuille demo_exo
Chercher-Remplacer
Dans la colonne F "morphologie":
Remplacer P-C par Plano-Convexe
Remplacer C-C par Concavo-Convexe
Remplacer B-C par Bombo-Convexe
donnees_archeo.ods - Feuille metallo_culot:
Formules et fonctions: opérateurs mathématiques
1.Somme (en colonne): A l’échelle du site, calculer le volume et le poids total de culots.
2. Calcul (en ligne): calculer la masse volumique (masse / volume) de chaque culot dans une nouvelle colonne "masse_volum".
3. Moyenne: Quel est le poids moyen d'un culot ?
donnees_archeo.ods - Feuille metallo_culot:
Formules et fonctions: Concaténation
Dans une nouvelle colonne "description", créer une description automatisée des culots à l'aide d'une concaténation comprenant les colonnes "forme" "morphologie" et "aspect".
exemple: la description du premier culot sera:
Culot de forme Irrégulière, de morphologie Plano-Convexe et d'aspect Lisse.
donnees_archeo.ods - Feuille metallo_culot:
Formules et fonctions: Opérateurs logiques
Déterminer le nombre de culots à faire réétudier par le paléométallurgiste:
Sachant que ces culots problématiques se définissent par:
- Une forme et une morphologie irrégulière.
- Un magnétisme faible ou nul.
- Un poids supérieur ou égal à 15 grammes.
donnees_archeo.ods - Feuille metallo_culot:
Tris:
1. Trier les culots par par leur poids (du plus lourd au plus léger).
2. Trier les culots par numéro de structures (ascendant) et par volume (ascendant).
donnees_archeo.ods - Feuille metallo_culot:
Filtres:
Déterminer à l'aide des Filtres
1. Le nombre de culots a fort magnétisme.
2. Le nombre de culots de forme ovale, d'aspect régulier et qui pèsent plus de 300 grammes.
donnees_archeo.ods - Feuille metallo_culot:
Tableau Croisé Dynamique:
1. Calculer pour chaque structure le volume total de culots prélevés.
2. Faire un tableau de dénombrement des culots par structure.
3. Calculer pour chaque structure le poids moyen de chaque faciès de culot.
1. Individus en ligne / Variables en colonnes
2. Pas de doublons
3. Noms de variables : courts, clairs, sans accents, sans espaces, en minuscule
4. Pas de caractères spéciaux $ % ° @ #
5. Données manquantes = cellule vide
6. Un seul séparateur de décimales . ou ,
7. Incertitude = ajouter une colonne commentaire
8. Pas de mise en forme
9. Exporter en CSV
10. Vérifier/Relire ses données (consolidation
des données/coquilles)
Votre mission : nettoyer la feuille ceram_proto
1 jour
2 jours
2 jours
Support de formation en ligne:
https://formationsig.gitlab.io/stat1/mod1_1_stat/mod1_1_stat.html
Suivre le diaporama en direct:
Utilisation d'un tableur : LibreOffice Calc
Les Statistiques
Ce sont les données chiffrées (moyennes, pourcentages, indices de toute sorte) des mass media et que l'on rencontre dans tous les secteurs possibles et imaginables: statistiques officielles (INSEE), sondages, sport etc.
La statistique
C'est la discipline qui a pour objet les méthodes qui permettent d'analyser les données statistiques.
Cest une famille de techniques mathématiques qui permettent de produire, de traiter et d’interpréter des ensembles de données de manière objective et reproductible.
Statistique Descriptive / exploratoire
a pour but de résumer l'information contenue dans les données de façon synthétique et efficace à l’aide d’indicateurs numériques, de tableaux et de graphiques. C'est l'objet de cette formation.
Statistique Probabiliste / Inférentielle
permet de généraliser a de grands ensembles les résultats obtenus avec des ensembles plus restreints appelés échantillons.
POPULATION
C’est l’ensemble des individus sur lesquels porte notre étude
Ex: les céramiques antiques, les tombes d’une nécropole,…
ÉCHANTILLON
C’est un sous-ensemble de la population, réellement accessible à l’expérimentateur.
Ex: les tombes fouillées, les céramiques prélevées et enregistrées
Attention on parle parfois de population pour désigner notre échantillon statistique
INDIVIDU
C’est une entité élémentaire sur laquelle on va mesurer ou observer des phénomènes
Ex: le tesson de bord de la dressel 234 qui fait 2cm d’épaisseur, la tombe 312
VARIABLE ou CARACTÈRE
C’est une propriété commune à tous les individus d’une population.
Ex: pour des céramiques: le type, la datation / pour des squelettes: leur sexe, leur taille, leur position,…
MODALITÉ
C’est la valeur ou la situation prise par une variable pour un individu
Ex: pour une céramique: dressel 657, LT2b pour un squelette: M, 180 cm, NE
Attention: Les modalités sont:
Incompatibles entres elles = pour une variable , un individu ne peut enregistrer qu’une modalité
Exhaustives = tous les individus d’une population possèdent une modalité pour la variable (sinon on parle de valeur manquante ou nodata)
TABLEAU ÉLÉMENTAIRE
C’est un tableau à double entrée où les lignes correspondent aux individus et les colonnes aux variables décrivant ces éléments.
La 1ère colonne est souvent réservée à la liste nominale des éléments sans que cela soit obligatoire.
ID | |
---|---|
1 | |
2 | |
... | ... |
... | ... |
... | ... |
... | ... |
... | ... |
.. | ... |
la liste des
individus
variable
discrète
les modalités
TABLEAU ÉLÉMENTAIRE
la modalité prise
par l'individu
pour la variable
une variable peut être
Qualitative
Les modalités expriment l'appartenance à une catégorie.
Ex: type de fait, période chrono, présence ou absence d’une carie sur une dent
une variable peut être
Qualitative
Les modalités expriment l'appartenance à une catégorie.
Ex: type de fait, période chrono, présence ou absence d’une carie sur une dent
Quantitative
Les modalités s'expriment en nombres réels.
Il est possible de les ordonner et de faire des calculs dessus.
Ex: longueur d’un fait, NR, NMI, Taux de fragmentation
Variable Qualitative
Ordinale
l’ordre des modalités à un sens, il possède une logique.
Ex: période chrono, état de conservation
Variable Qualitative
Nominale
l’ordre des modalités n’a pas de sens.
Les modalités ne sont pas ordonnées entre elles.
Ex: orientation de sépultures, présence/absence de carie sur une dent, de négatif dans un poteau
Variable Qualitative
Binaire
Il n'y a que 2 modalités exclusives:
oui / non
vrai / faux
Ex: présence/absence de carie sur une dent,...
Variable Qualitative
Ordinale
Nominale
Discret
Les modalités sont en nombre limité.
Il y a moins de modalités que d’individus.
Ex: types de faits
Variable Qualitative
Ordinale
Nominale
Discret
Les modalités sont en nombre limité.
Il y a moins de modalités que d’individus.
Ex: types de faits
Exhaustif
Il y a autant de modalités que d’individus.
Ex: Numéro de fait ?
=> pas d’intérêt statistique !!
Variable Quantitative
Absolue
Exprime des quantités concrètes.
La somme des modalités des individus a un sens.
Ex: NR-NMI, longueurs,…
Variable Quantitative
Absolue
Exprime des quantités concrètes.
La somme des modalités des individus a un sens.
Ex: NR-NMI, longueurs,…
Relative
Un rapport entre deux valeurs.
On peut calculer une moyenne mais la somme n’a pas de sens.
Les modalités peuvent être ordonnées.
Ex : nombre de silex par m², taux de fragmentation en %
Variable Quantitative
Absolue
Relative
Discrète
Les modalités correspondent à un nombre fini de valeurs isolées.
Généralement des nombres entiers.
Ex: NR-NMI
Variable Quantitative
Absolue
Relative
Continue
Les valeurs potentiellement prises par la variable sont en nombre infini.
Généralement des nombres réels (=décimaux)
Ex : longueur d'un tibia, un diamètre, une taille,...
Variable Quantitative
Absolue
Relative
Repérable
sur une échelle d'intervalle
Chaque élément est repéré par rapport à une origine arbitraire = La valeur 0 ne signifie pas l'absence du phénomène.
Ex. : Latitude, longitude, température, altitude, ...
Variable Quantitative
Absolue
Relative
Repérable
sur une échelle d'intervalle
Chaque élément est repéré par rapport à une origine arbitraire = La valeur 0 ne signifie pas l'absence du phénomène.
Ex. : Latitude, longitude, température, altitude, ...
Mesurable
On peut mesurer une modalité sur une échelle numérique.
Le 0 signifie bien l'absence du phénomène
Ex. : population, taux de fragmentation, NR-NMI
Variable Qualitative discrète : Représentation Numérique
Tableau de dénombrement
• C'est un tableau élaboré de construction de l'information
• Il est construit à partir du tableau élémentaire
• 1 variable discrète = 1 tableau de dénombrement
Variable Qualitative discrète : Représentation Numérique
Tableau de dénombrement
Il est composé de
3 colonnes:
• La liste des modalités de la variable
• L'effectif
(= Fréquence absolue)
• La fréquence relative
(= Fréquence simple)
Dans le dossier STAT :
→ créer un nouveau dossier Travail
Depuis le dossier STAT / Donnees :
→ copier le fichier donnees_archeo.ods dans le dossier Travail
Ouvrir le fichier donnees_archeo.ods avec LibreOffice Calc
Supprimer les feuilles inutiles du classeur et renommer la Feuille1 en "ceram_proto"
Variable Qualitative discrète : Représentation Numérique
Tableau de dénombrement
1. Créer une nouvelle feuille soay_sexe
2. Faire un tableau de dénombrement de la variable discrète "sexe"
donnees_archeo.ods - Feuille mouton_soay:
Variable Qualitative discrète : Représentation Graphique
Diagramme en barre
• C'est la représentation graphique normale d'un caractère discret.
• abscisse = suite ordonnée des modalités
• ordonnée = effectif ou fréquence relative
• Barres:
non-jointives
largeur constante
Variable Qualitative discrète : Représentation Graphique
Diagramme en barre
D'après votre tableau de dénombrement (feuille soay_sexe), représenter sous forme de diagramme en barre la variable discrète "sexe"
donnees_archeo.ods - Feuille mouton_soay:
Variable Qualitative discrète : Représentation Graphique
Camembert
(Diagramme circulaire ou Diagramme à secteurs)
• Permet de visualiser des parts relatives, dans des surfaces ou secteurs de cercle, que l’on différencie par des couleurs ou des trames différentes.
• Chaque secteur correspond à une modalité.
• Représentation équivalente au diagramme en bâtons mais moins performantes sur le plan visuel...
Variable Qualitative discrète : Représentation Graphique
Camembert
Variable Qualitative discrète : Représentation Graphique
Camembert
Variable Qualitative discrète : Représentation Graphique
Camembert
Variable Qualitative discrète : Représentation Graphique
Camembert
(Diagramme à secteurs OU Diagramme circulaire)
D'après votre tableau de dénombrement (feuille soay_sexe):
donnees_archeo.ods - Feuille mouton_soay:
Variable Qualitative discrète : Représentation Graphique
Diagramme en barres empilées
• Représentation consistant à découper une barre (représentant 100% de l’effectif) en segments dont la longueur est proportionnelle à l’effectif de chaque modalité.
• Particulièrement intéressante dans le cas des caractères où il existe un ordre entre les modalités.
Variable Qualitative discrète : Représentation Graphique
Diagramme en barres empilées
D'après votre tableau de dénombrement (feuille soay_sexe), représenter sous forme de diagramme en barres empilées la variable discrète "sexe".
donnees_archeo.ods - Feuille mouton_soay:
Variable Qualitative discrète : Représentation Graphique
Diagramme en étoile
(Diagramme de Kiviat OU Diagramme en radar)
• 1 modalité = 1 axe.
• Représentation adaptée aux caractères cycliques.
• Attention: les écarts d’effectifs ne doivent pas être trop importants!
Variable Qualitative discrète : Représentation Graphique
Diagramme en étoile
D'après votre tableau de dénombrement (feuille soay_sexe), représenter sous forme de diagramme en étoile la variable discrète "sexe".
donnees_archeo.ods - Feuille mouton_soay:
Variable Quantitative discrète
• Il s’agit d’un cas intermédiaire entre les variables continues et les variables qualitatives.
• Si le nombre de valeurs prises par la variable est faible, cela s’apparente à une variable qualitative ordonnée, et on effectue les mêmes représentations et descriptions qu’en section précédente.
• Néanmoins, comme dans le cas des variables continues, les notions de moyenne et d’écart-type gardent un sens et complètent le tableau.
Variable Quantitative continue : Représentation Numérique
Tableau de distribution (début)
• Le tableau de distribution statistique est un simple reclassement du tableau élémentaire.
• Il s’agit d’un tableau élémentaire dans lequel les valeurs du caractère X ont été ordonnées en ordre croissant.
Variable Quantitative continue : Représentation Numérique
Tableau de distribution
1. Filtrer les individus correspondant uniquement aux fémurs.
2. Créer une nouvelle feuille soay_femur
2. Copier dans la feuille soay_femur uniquement la colonne (filtrée) correspondant à la variable continue "long_total"
3. Trier la variable quantitative continue "long_total" par ordre croissant
donnees_archeo.ods - Feuille mouton_soay:
Variable Quantitative continue : Représentation Numérique
Caractéristiques de tendances centrales et de dispersion
À partir de la variable "long_total" (feuille soay_femur), calculer au fur et à mesure du déroulé:
Les caractéristiques de tendance centrale / de position
Les caractéristiques de dispersion:
donnees_archeo.ods - Feuille soay_femur:
Variable Continue : Caractéristiques de tendance centrale
la MOYENNE
• Elle permet de résumer par un seul nombre la série statistique.
• Elle prend en compte toutes les valeurs de la série et elle est facile calculer.
• Elle est sensible aux valeurs extrêmes (il est parfois nécessaire de supprimer des valeurs extrêmes ou « aberrantes »)
C'est la somme de toutes les valeurs observées divisée nombre d’observations
Variable Continue : Caractéristiques de tendance centrale
la MEDIANE
C'est la valeur, observée ou possible, dans la série de données classée par ordre croissant qui partage cette série en deux parties comprenant exactement le même nombre de données de part et d'autre.
• Elle n'est pas influencée par les valeurs extrêmes ou aberrantes.
• Elle ne se prête pas aux combinaisons arithmétiques : la médiane d'une série ne peut pas être déduite des médianes des séries composantes.
Variable Continue : Caractéristiques de tendance centrale
le MODE
• Il peut ne pas avoir de mode, un seul (distribution unimodale) ou plusieurs (distribution bi/pluri-modale).
• Si la variable est continue il faut la partitionner en classes (enlever des décimales) pour définir une classe modale.
C'est la valeur la plus souvent observée dans un ensemble de données.
Variable Continue : Caractéristiques de dispersion
l'ETENDUE
• Elle est facile à calculer
• Elle ne tient compte que des valeurs extrêmes de la série ; elle ne dépend ni du nombre, ni des valeurs intermédiaires.
• Lorsque le nombre d'individu est faible elle donne une idée apréciable de la dispersion sinon on lui préfere l'écart-type.
C'est la différence entre la valeur maximum et la valeur minimale.
Variable Continue : Caractéristiques de dispersion
la VARIANCE
• Elle est appelée aussi écart quadratique moyen ou variance empirique.
• Elle ne s'exprime pas dans la même unité que celle de la variable
=> On lui préfère l'écart-type
• Si on étudie un échantillon on enlève 1 à l'effectif.
C'est la moyenne de la somme des carrés des écarts par rapport à la moyenne arithmétique.
Variable Continue : Caractéristiques de dispersion
l’ÉCART-TYPE
• S'exprime dans la même unité que la variable.
• Utilisé pour mesurer la dispersion autour de la moyenne.
• Idéal pour comparer 2 séries statistiques qui ont la même moyenne.
• Sensible aux valeurs aberrantes (comme la moyenne)
C'est la racine carré de la Variance
Variable Continue : Caractéristiques de dispersion
les QUANTILES
Pour =4, les quantiles appelées quartiles, sont 3 nombres
•25% des valeurs prises par la série sont inférieures à
•25% des valeurs prises par la série sont supérieures à
• est la médiane
• est l'intervalle interquartile, il contient 50% des valeurs de la série noté
L’intervalle/la distance interquartile c’est l’équivalent de l’étendue pour les 50% centraux de la série statistique.
Les Quantiles sont des caractéristiques de position partageant la série statistique en k parties égales.
Variable Continue : Caractéristiques de dispersion
les QUARTILES
Les Quartiles se visualisent avec un diagramme dédié:
La Boîte à moustaches
Variable Quantitative continue : Caractéristiques
Caractéristiques de tendance centrale / de position:
=MOYENNE(plage)
=MEDIANE(plage)
=MODE(plage) Attention ne retourne qu’une valeur, il vaut peut être mieux le(s) définir en observant la variable ordonnée.
Caractéristiques de dispersion:
=MAX(plage)-MIN(plage)
=VAR(plage) Attention le calcul se fait sur N-1 car basé sur un “échantillon”, sinon utiliser =VARP(plage)
=ECARTYPE(plage) Attention même remarque: =ECARTYPEP(plage)
=QUARTILE(plage; type) pour Q1 c’est donc =QUARTILE(plage; 1).. calculer les Q1, Q2, Q3
Q3-Q1 intervalle Inter-Quartile
Représentation Graphique
Quelques règles et recommandations
1. Vérifier les données et donner un titre
2. Supprimer toute information non utile et minimiser l’information secondaire.
3. Supprimer les effets inutiles
4. Ajuster les échelles
5. Choisir les couleurs
Sémiologie
2/17
William Playfair (1759-1823) ingénieur et économiste
Ecossais
les proportions de l'Empire Ottoman en Asie, Europe et Afrique avant 1789.
in Statistical Breviary (1801)
Sémiologie
3/17
Charles Joseph MINARD (1781-1870) inspecteur des ponts et chaussées
Français
La Campagne de Russie de Napoléon de 1812 à1813 (1869)
Voir aussi 1812 When Napoleon Ventured East
Sémiologie
4/17
Tonnage des grands ports et principale rivières d'Europe (1859)
médecin épidémiologiste britannique
Sémiologie
6/17
Sémiologie Graphique
C'est l’ensemble des règles qui permettent l’usage d’un système de signes graphiques pour transmettre l’information »
Un ouvrage de référence : « sémiologie graphique » de Jacques Bertin, publié en 1967.
Jacques Bertin (1918-2010) Cartographe Français
Sémiologie
7/17
Sémiologie
8/17
Sémiologie
9/17
Sémiologie
10/17
Sémiologie
11/17
Représentation Graphique
Règles de sémiologie graphique
Sémiologie
12/17
Association
Sélection
Qualitatif
Nominal
COULEUR
Sémiologie
13/17
Association
Sélection
Qualitatif
Nominal
COULEUR
Sémiologie
14/17
Ordre
Qualitatif
Ordinal
VALEUR
Quantitatif
Relatif
O
Sémiologie
15/17
Qualitatif
Ordinal
VALEUR
Quantitatif
Relatif
Ordre
O
Sémiologie
16/17
Quantité
(proportionnalité)
Quantitatif
Absolu
TAILLE
Q
Sémiologie
17/17
Quantité
(proportionnalité)
Quantitatif
Absolu
TAILLE
Q
exemples d'anamorphoses d'après les taux de représentations des régions anatomiques de différentes sépultures collectives (H.Guy, M.Gaultier)
Représentation Graphique
On joue ?
1. Identifier la nature des variables statistiques représentées
2. Identifier les variables visuelles utilisées
3. Chercher les erreurs de représentations (si elles existent)
4. Proposer des alternatives
Représentation
Jeu
2/14
Représentation Graphique - On joue ?
Représentation
Jeu
3/14
Représentation Graphique - On joue ?
distribution spatiale des éléments lithiques (in Archaeological Investigations between Cayenne Island and the Maroni River)
Représentation
Jeu
4/14
Représentation Graphique - On joue ?
Représentation
Jeu
5/14
Représentation Graphique - On joue ?
représentation des parties anatomiques des équidés sur différents sites
Représentation
Jeu
6/14
Représentation Graphique - On joue ?
Représentation du cheval au sein des assemblages osseux d'équidés de l'Antiquité à la période Carolingienne (indice 100 à La Tène Finale)
Représentation
Jeu
7/14
Représentation Graphique - On joue ?
Évolution comparée de la stature des mammifères domestiques (indice 100 à La Tène Finale)
Représentation
Jeu
8/14
Représentation Graphique - On joue ?
Principales composantes topographiques représentées sur les tracés d'autoroute (in RAP 2014)
Représentation
Jeu
9/14
Représentation Graphique - On joue ?
Importations de fromage au Canada en 2016 (in Les Echos - déc. 2017)
Représentation
Jeu
10/14
Représentation Graphique - On joue ?
Importations de fromage au Canada en 2016 (in Les Echos - déc. 2017)
Représentation
Jeu
11/14
Représentation Graphique - On joue ?
Budget de l'état français en 2016
Représentation
Jeu
12/14
Représentation Graphique - On joue ?
Répartition de types de céramiques par matières premières
Représentation
Jeu
12/14
Représentation Graphique - On joue ?
Représentation
Jeu
12bis/14
Représentation Graphique - On joue ?
Représentation
Jeu
12ter/14
Représentation Graphique - On joue ?
Représentation
Jeu
13/14
Représentation Graphique - On joue ?
Répartition des types de céramiques par carrés de fouille
Représentation
Jeu
14/14
Représentation Graphique - On joue ?
Variable Quantitative Continue : Représentation Graphique
Les représentations graphiques d’une variable continue ont toutes en commun de permettre d’explorer la distribution de la variable , en identifiant:
la forme de la distribution
les concentrations
les dispersions
les ruptures dans la distribution
Variable Quantitative Continue : Les formes de la distribution
Variable Quantitative Continue : Représentation Graphique
Scalogramme (ou Matrice Ordonnée)
• Représentation élémentaire et unidimensionnelle (il n’y a qu’un axe: celui des abscisses) d’une distribution statistique, consistant à représenter chaque élément de la distribution par un point sur un axe gradué.
• Lorsque deux éléments ont des modalités identiques ou très proches, on procède à un " empilement " des points.
• Permet de discerner efficacement les minima et maxima, la forme de la distribution, les concentrations, les dispersions et les ruptures.
Variable Quantitative continue : Représentation Graphique
Scalogramme
A partir du tableau de distribution (feuille soay_femur) "long_total", représenter sous forme de Scalogramme la variable continue "long_total"
donnees_archeo.ods - Feuille soay_femur:
Variable Quantitative Continue : Représentation Graphique
Diagramme en tige et feuille
• Tige = partie entière du nombre décimal OU extraction des dizaines.
• Feuilles = chiffre décimal OU chiffre des unités.
• Permet de distinguer les minimum et maximum, le(s) mode(s) et la forme générale de distribution.
14 | 01
14 | 566777899
15 | 0011111222223333334444
15 | 56666666666777778888889999999
16 | 000000111122222233344
16 | 55555566677777788888888999999999
17 | 00000011111222334444
17 | 5555555666689
18 | 014
18 |
19 | 1
• A mi chemin entre le tableau et le graphique ce diagramme.
• Revient à faire un regroupement de la variable continue en classes d'amplitudes égales.
Variable Quantitative Continue : Représentation Graphique
Diagramme en tige et feuille
Ce type de diagramme est couramment utilisé au Japon pour les horaires de trains:
Variable Quantitative Continue : Représentation Graphique
Courbes de fréquences cumulées
Interprétation:
• Pente forte = concentration
• Pente faible = dispersion
• Marche d'escalier = Rupture
C'est un graphique bi-dimensionnel représentant en abscisse les modalités du caractère continu étudié et en ordonnée, les fréquences cumulées
Variable Quantitative Continue : Représentation Graphique
Courbes de fréquences cumulées
À partir de la variable "long_total" :
Créer le tableau des fréquences cumulées:
la fréquence relative (part de chaque modalité par rapport au total)
la fréquence cumulée ascendante (doit finir à 100% pour le dernier individu)
Représenter sous forme de Courbes de fréquence cumulées la variable continue "long_total"
donnees_archeo.ods - Feuille soay_femur:
Variable Quantitative Continue : Représentation Graphique
Construire un Histogramme
1. Définir le nombre de classes
2. Choisir une méthode de découpage des classes (discrétisation)
3. Construire un Tableau de dénombrement
4. Réaliser l'Histogramme
Histogramme
Définir le nombre de classes
Quelques formules magiques:
1. Racine Carré
2. La règle de Sturges
3. La formule de Freedman-Diaconis
=RACINE(N)
=1+LOG(N;2)
=(MAX(plage)-MIN(plage))/(2*(QUARTILE(plage;3)-QUARTILE(plage;1))*PUISSANCE(N;-1/3))
Histogramme : Définir le nombre de classes
Créer une nouvelle feuille soay_histo
Copier la colonne "long_total" (triée par ordre croissant)
Calculer le nombre de classes maximum pour la variable "long_total" avec les formules:
1. Racine Carré
2. Sturges
3. Freedman-Diaconis
=RACINE(N)
=1+LOG(N;2)
=(MAX(plage)-MIN(plage))/(2*(QUARTILE(plage;3)-QUARTILE(plage;1))*PUISSANCE(N;-1/3))
1 jour
2 jours
2 jours
Support de formation en ligne:
https://formationsig.gitlab.io/stat1/mod1_2_initR/mod1_2_initR.html
Suivre le diaporama en direct:
Initiation à R 1/1
Introduction à R
taille <- c(148,155.5,183)
tablo
View(tablo)
str(tablo)
2. Vérifier le type de données de ce vecteur (1 vecteur = 1 série de données de données)
Dans la console:
1. Créer un objet taille correspondant aux tailles des stagiaires
3. Taper puis Valider successivement les commandes suivantes
3. Créer un objet tablo correspondant au tableau (data.frame) contenant les 2 variables "genre" et "taille".
tablo <- data.frame(genre,taille)
ex:
variable discRete
1/2
Analyser et représenter une variable discrète avec R
1. Ouvrir Rstudio
2. Ouvrir votre script mon1erscript.R
Note: Si problème d'encodage: File > Reopen with encoding... Choisir UTF-8
3. Exécuter le ligne par ligne avec [Ctrl] + [Entrée]
4. Tous ensemble, traitons la variable discrète "sexe"
5. Il faudra enregistrer ce nouveau script discrete.R
variable discRète
2/2
Analyser et représenter une variable discrète
tableau <- read.csv("stature.csv")
str(tableau)
tabden <- table(tableau$sexe)
barplot(tabden)
pie(tabden)
barplot(as.matrix(tabden))
introduction 2/7
Acquérir les bases du vocabulaire de statistique afin de pouvoir décrire clairement ces données et de savoir les préparer en vue d'une analyse descriptive simple.
Maîtriser les outils de type tableur et spécialisés pour l'analyse et la représentation graphique en respectant les règles de la sémiologie graphique (et de l’honnêteté scientifique).
Approcher la démarche statistique au travers d'un exemple : la discrétisation afin d'effectuer une analyse par maille
Chapitres 1/1
Introduction
Utilisation d'un tableur: Calc
Vocabulaire statistique
Caractère d'une variable
Consolidation/Préparation d'un jeu de données
introduction à R
Variable discrète (représentation numérique et Graphiques)
Analyser et représenter une variable discrète avec R
Variable continue (Caractéristiques)
Variable continue (Représentations graphiques)
Analyser et représenter une variable continue avec R
Variable continue (Tableau de dénombrement et Histogramme)
construction d'un histogramme avec R
Discrétisation et Analyse par maille
Représentations Graphiques & Sémiologie Graphique
STAT_OK
introduction 1/7
STAT_OK
introduction
3/7
Pour citer ce document :
D. Poinsot, 2004. Statistiques pour statophobes. [en ligne : http://perso.univ-rennes1.fr/denis.poinsot]
introduction
4/7
Jour 1
Introduction
Qu'est ce que la statistique ?
Utilisation d'un tableur
Première découverte du logiciel
Jour 2
Vocabulaire statistique
Qualifier une variable
Préparation / Consolidation des données
Analyser et représenter une variable discrète
Jour 3
Analyser et représenter une variable continue
Jour 4
Analyser et représenter une variable continue (suite)
Jour 5
Discrétisation et Analyse par maille
Démarche classique de statistique descriptive : depuis la préparation des données jusqu'à leur description et représentations.
Utilisation de logiciels libres pour:
- sortir de nos habitudes
- travailler avec n'importe quel ordinateur (personnel, professionnel)
- travailler avec des collaborateurs externes
- assurer la pérennité de nos données
Initiation à la reproductibilité de la démarche statistique
Préparation / Consolidation
1/3
Consolidation et préparation du jeu de données…
nettoyage
vaRiable continue
1/4
Analyser une variable continue avec R
1. Ouvrir Rstudio
2. Ouvrir votre script mon1erscript.R
Note: Si problème d'encodage: File > Reopen with encoding... Choisir UTF-8
3. Exécuter le ligne par ligne avec [Ctrl] + [Entrée]
4. Tous ensemble, traitons la variable discrète "taille"
5. Il faudra enregistrer ce nouveau script continu.R
vaRiable continue
2/4
Analyser une variable continue avec R
tableau <- read.csv("stature.csv")
str(tableau)
taille <- tableau$taille
# caractéristiques de tendance centrale
mean(taille)
median(taille)
# caractéristiques de dispersion
range(taille)
max(taille)-min(taille)
var(taille)
sd(taille)
quantile(taille)
IQR(taille)
# résumé statistique
summary(taille)
vaRiable continue
3/4
Représenter une variable continue avec R
1. Ouvrir Rstudio
2. Ouvrir votre dernier script continu.R
3. Exécuter le ligne par ligne avec [Ctrl] + [Entrée]
4. Tous ensemble, continuons de traiter la variable continue "taille"
5. Il ne faudra pas oublier d'enregistrer le script
vaRiable continue
4/4
Représenter une variable continue
# scalogramme
stripchart(taille)
stripchart(taille, method = jitter)
stripchart(taille, method = stack)
# diagramme en tige et feuilles
stem(taille)
# boîte à moustache
boxplot(taille)
boxplot(taille, horizontal = TRUE)
# boîte à moustache pour comparer la distribution
# de la variable taille selon le sexe
sexe <- tableau$sexe
boxplot(taille~sexe, horizontal = TRUE)
histogRamme
1/1
Representer une variable continue avec R
1. Ouvrir Rstudio
2. Ouvrir votre script continu.R
3. Exécuter le ligne par ligne avec [Ctrl] + [Entrée]
4. Tous ensemble, faisons l'histogramme de la variable discrète "taille"
5. Il faudra enregistrer ce script continu.R