24
M. WILTHIEN - Applications SAS – 2021-2022 Semestre 1 Master 2 TIDE - Université Paris 1 Panthéon Sorbonne 1 COURS D’APPLICATIONS SAS Présentation du programme 1

COURS D’APPLICATIONS SAS

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Page 1: COURS D’APPLICATIONS SAS

M. WILTHIEN - Applications SAS – 2021-2022 Semestre 1 Master 2 TIDE - Université Paris 1 Panthéon Sorbonne

1

COURS D’APPLICATIONS SAS

Présentation du programme

1

Page 2: COURS D’APPLICATIONS SAS

2

Programme du coursSéance 1 mercredi 6 octobre 2021 16h-19h Statistiques descriptives

proc means

proc univariate

Séance 2 mercredi 13 octobre 2021 16h-19h

Tableaux croisésproc freq

proc tabulate

Graphiquesproc sgchart

proc sgplot

Séance 3 mercredi 20 octobre 2021 16h-19hInterrogation Chapitres 1 & 2

Reporting proc report

mercredi 27 octobre 2021 Vacances/Entreprise - Pas de cours

Séance 4 mercredi 3 novembre 2021 16h-18h Reporting proc report

Séance 5 mercredi 10 novembre 2021 16h-18h Reporting proc report

Séance 6 mercredi 17 novembre 2021 16h-18hInterrogation Chapitre 3

Génération de sorties ODS

Séance 7 mercredi 24 novembre 2021 16h-19h

Génération de sorties ODS

Constitution des groupes / Présentation du projet final

Présentation du programme SCYP et des certifications SAS

mercredi 1 décembre 2021 16h-18h Question/Réponse sur le projet à la demande (en distanciel de préférence)

mercredi 8 décembre 2021 16h-18h Question/Réponse sur le projet à la demande (en distanciel de préférence)

mercredi 15 décembre 2021 16h-18h Question/Réponse sur le projet à la demande (en distanciel de préférence)

mercredi 22 décembre 2021 Pas de cours

Vacances de Noël

Page 3: COURS D’APPLICATIONS SAS

M. WILTHIEN - Applications SAS – 2021-2022 Semestre 1 -Master 2 TIDE - Université Paris 1 Panthéon Sorbonne

3

Site du cours

Accès au cours sur l’EPI avec votre adresse email de Paris 1

Vous devez avoir reçu un mail pour rejoindre le cours ci-dessous :

M2P Traitement de l'info. et data-science en entrepr._ FI-FA - Applications-SAS

Ou alors via l’URL suivante :

https://cours.univ-paris1.fr/fixe/02-M2-applications-sas

Page 4: COURS D’APPLICATIONS SAS

Chapitre 1 LES STATISTIQUES DESCRIPTIVES

PROC MEANS - PROC UNIVARIATE

M. WILTHIEN - Applications SAS - 2021-2022 Semestre 1 - Master 2 TIDE Université Paris 1 Panthéon Sorbonne

4

Page 5: COURS D’APPLICATIONS SAS

Sommaire

5M. WILTHIEN - Applications SAS – 2021-2022 Semestre 1 - Master

2 TIDE Université Paris 1 Panthéon Sorbonne

Page 6: COURS D’APPLICATIONS SAS

I - Statistiques descriptives - La PROC MEANS

➢ 1- La syntaxe

PROC MEANS < liste-option > <mots-clés statistiques>;

VAR liste de variables </WEIGHT=variable-poids>;

BY liste-de-variables;

CLASS liste-de-variables <option(s)>;

FREQ variable ;

ID variable(s);

OUTPUT <OUT=table SAS><liste_OUTPUT_statistique><id-group-spec(s)>

<max-id-spec(s)> <min-id-spec(s)> </option(s)>;

TYPES requete(s);

WAYS entiers;

WEIGHT variable ;

run ;

6M. WILTHIEN - Applications SAS - 2021-2022 Semestre 1 - Master 2

TIDE Université Paris 1 Panthéon Sorbonne

Page 7: COURS D’APPLICATIONS SAS

• Les options

DATA=

MISSING

FW=

MAXDEC=

ORDER=

• DATA

• FORMATTED

• FREQ

• UNFORMATTED

• Les instructions

VAR

BY

CLASS

FREQ

ID

OUTPUT

TYPES

WAYS

WEIGHT

I - Statistiques descriptives - La PROC MEANS

7M. WILTHIEN - Applications SAS - 2021-2022 Semestre 1 - Master 2

TIDE Université Paris 1 Panthéon Sorbonne

Page 8: COURS D’APPLICATIONS SAS

I - Statistiques descriptives - PROC MEANS

A partir de la table ELEVES.

- Exemple 1.1 : Sans option ni instruction

- Exemple 1.2 : Avec l’instruction var sur les variables qi taille poids

- Exemple 1.3 : Avec l’instruction class sur la variable sexe

- Exemple 1.4 : Avec l’instruction by sexe

8M. WILTHIEN - Applications SAS - 2021-2022 Semestre 1 - Master 2

TIDE Université Paris 1 Panthéon Sorbonne

Page 9: COURS D’APPLICATIONS SAS

I - Statistiques descriptives - PROC MEANS

➢ 2- Les mots clés

- Les mots-clés statistiques :CLM RANGE CSS SKEWNESS | SKEW CV STDDEV | STDKURTOSIS | KURT STDERR LCLM SUM MAX SUMWGT MEAN UCLM MIN USS N VAR NMISS

- Les mots-clés quantiles : MEDIAN | P50 Q3 | P75 P1 P90 P5 P95 P10 P99 Q1 | P25 QRANGE

- Les mots clés de test d’hypothèses : PROBT T

- Exemple 1.5 : Compléter la procédure précédente avec le mot clé CLM : encadrement autour de la moyenne, à 95 % (niveau de confiance 5 %).

9M. WILTHIEN - Applications SAS - 2021-2022 Semestre 1 - Master 2

TIDE Université Paris 1 Panthéon Sorbonne

Page 10: COURS D’APPLICATIONS SAS

I - Statistiques descriptives - PROC MEANS

➢ 3- Les tables d’OUTPUT

Compléter la procédure précédente (sans l’instruction BY) avec :

- Exemple 1.6 : Instruction OUTPUT simple

- Exemple 1.7 : OUTPUT en associant des noms spécifiques aux statistiques calculées: les moyennes pour qi, taille et poids

- Exemple 1.8 : OUTPUT en associant des noms spécifiques aux statistiques calculées : les moyennes pour taille et poids, puis les medianes pour qi, taille et poids.

- Exemple 1.9 : OUTPUT avec les options AUTONAME et AUTOLABEL pour les moyennes et les médianes des variables qi, taille et poids.

10M. WILTHIEN - Applications SAS - 2021-2022 Semestre 1 - Master 2

TIDE Université Paris 1 Panthéon Sorbonne

Page 11: COURS D’APPLICATIONS SAS

I - Statistiques descriptives - PROC MEANS

➢ 4- Le paramétrage des sorties (HTML et SAS)

- Exemple 1.10 : Utiliser un WHERE pour filtrer la procédure sur les Femmes (2 syntaxes)

- Exemple 1.11 : Améliorer la procédure suivante avec l’instruction TYPES pour avoir les croisements de SEXE et AGE, puis de SEXE et CHEVEUX (ajouter l’option ‘()’ dans votre ligne TYPES, vous aurez en plus les statistiques toutes modalités des variables de classification confondues)

PROC MEANS DATA=MALIB.ELEVES;

CLASS age sexe cheveux;

VAR taille;

RUN;

11M. WILTHIEN - Applications SAS - 2021-2022 Semestre 1 - Master 2

TIDE Université Paris 1 Panthéon Sorbonne

Page 12: COURS D’APPLICATIONS SAS

12M. WILTHIEN - Applications SAS - 2021-2022 Semestre 1 - Master 2

TIDE Université Paris 1 Panthéon Sorbonne

II - Statistiques descriptives - PROC UNIVARIATE

Sommaire

Page 13: COURS D’APPLICATIONS SAS

II - Statistiques descriptives - PROC UNIVARIATE

➢ 1- Des statistiques descriptives plus avancées

Comme PROC MEANS, cette procédure propose un ensemble de statistiques descriptives, mais également :

• des calculs de statistiques descriptives basés sur les moments ;

• le calcul des modes, médianes, écarts interfractiles et quantiles ;

• des détails sur les valeurs extrêmes des séries ;

• des tableaux de fréquences ;

• des outils graphiques permettant de visualiser les distributions ;

• des tests statistiques ;

• des tests de normalités des distributions…

Vous trouverez toutes les options et instructions des PROC MEANS ET PROC UNIVARIATE sur le site du support SAS.

13M. WILTHIEN - Applications SAS - 2021-2022 Semestre 1 - Master 2

TIDE Université Paris 1 Panthéon Sorbonne

Page 14: COURS D’APPLICATIONS SAS

➢ 2- La syntaxe

PROC UNIVARIATE DATA=nomtab1 <options>;

VAR var1 var2 var3 var4 var5 var6 ;

CLASS var2 …;

WEIGHT var3;

ID var4;

FREQ var5 … ;

BY var7 …;

OUTPUT OUT=nomtab2 optvar=lvar ;

RUN;

II - Statistiques descriptives - PROC UNIVARIATE

14M. WILTHIEN - Applications SAS - 2021-2022 Semestre 1 - Master 2

TIDE Université Paris 1 Panthéon Sorbonne

Page 15: COURS D’APPLICATIONS SAS

• Les options avec OPTNUM

II - Statistiques descriptives - PROC UNIVARIATE

15M. WILTHIEN - Applications SAS - 2021-2022 Semestre 1 - Master 2

TIDE Université Paris 1 Panthéon Sorbonne

Page 16: COURS D’APPLICATIONS SAS

• Les instructions

II - Statistiques descriptives - PROC UNIVARIATE

16M. WILTHIEN - Applications SAS - 2021-2022 Semestre 1 - Master 2

TIDE Université Paris 1 Panthéon Sorbonne

Page 17: COURS D’APPLICATIONS SAS

II - Statistiques descriptives - PROC UNIVARIATE

17M. WILTHIEN - Applications SAS - 2021-2022 Semestre 1 - Master 2

TIDE Université Paris 1 Panthéon Sorbonne

• Les 6 statistiques de base

Si l’instruction VAR n’est pas présente, les six options statistiques ci-dessus sont éditées pour toutes les variables.

Page 18: COURS D’APPLICATIONS SAS

II - Statistiques descriptives - PROC UNIVARIATE

Toujours à partir de la table ELEVES.

-Exemple 2.1 : PROC UNIVARIATE simple sans option ou instruction sur la variable POIDS.

-Exemple 2.2 : PROC UNIVARIATE sur la variable POIDS et 2 sorties différentes en fonction du SEXE.

- Exemple 2.3 : Avec la PROC UNIVARIATE calculons :

- la moyenne empirique (ou mean) des variables age, taille et poids (les renommer)

- l’écart-type empirique (ou std) des variables age et poids dénommés respectivement std_age et std_poids

- Le coefficient d’asymétrie (ou skewness) de la variable taille dénommé sk_taille

- le coefficient d’aplatissement (ou kurtosis) de la variable taille dénommé k_taille.

- Exemple 2.4 : Avec la PROC UNIVARIATE calculons les mêmes statistiques par couleur de cheveux et par sexe.

18M. WILTHIEN - Applications SAS - 2021-2022 Semestre 1 - Master 2

TIDE Université Paris 1 Panthéon Sorbonne

Page 19: COURS D’APPLICATIONS SAS

II - Statistiques descriptives - PROC UNIVARIATE

19M. WILTHIEN - Applications SAS - 2021-2022 Semestre 1 - Master 2

TIDE Université Paris 1 Panthéon Sorbonne

➢ 3- Les options et instructions graphiques

PLOT

(option)

HISTOGRAM

(instruction) QQPLOT

(instruction)

Page 20: COURS D’APPLICATIONS SAS

II - Statistiques descriptives - PROC UNIVARIATE

- Exemple 2.5 : Ajouter les 3 graphiques standards pour la variable taille.

- Exemple 2.6 : Ajouter un histogramme et une courbe d’ajustement pour la variable taille.

- Exemple 2.7 : Ajouter un histogramme et une courbe d’ajustement pour la variable taille, en superposant sur les 2 graphiques une loi normale de mêmes caractéristiques

20M. WILTHIEN - Applications SAS - 2021-2022 Semestre 1 - Master 2

TIDE Université Paris 1 Panthéon Sorbonne

Page 21: COURS D’APPLICATIONS SAS

II - Statistiques descriptives - PROC UNIVARIATE

21M. WILTHIEN - Applications SAS - 2021-2022 Semestre 1 - Master 2

TIDE Université Paris 1 Panthéon Sorbonne

➢ 4- Les tests pour l’étude de la distribution

✓ Les tests d’égalité de la tendance centrale à une constante :

- le test de Student

- le test des rangs signés de Wilcoxon

- le test des signes

- Exemple 2.8 : Tester si la moyenne de la variable Taille pour les 2 sexes est égale à 171.

Page 22: COURS D’APPLICATIONS SAS

II - Statistiques descriptives - PROC UNIVARIATE

22M. WILTHIEN - Applications SAS - 2021-2022 Semestre 1 - Master 2

TIDE Université Paris 1 Panthéon Sorbonne

✓Les tests de Normalité :

- Shapiro-Wilk

- Kolmogorov-Smirnov

- Cramer-von Mises

- Anderson-Darling

- Exemple 2.9 : Tester la normalité de la distribution de la variable taille sur les 2 groupes.

- Exemple 2.10: Ajouter l’histogramme de ces distribution avec les courbes de la loi normale.

Page 23: COURS D’APPLICATIONS SAS

V – EXERCICES

• Exercice 1 : Révisions des jointures

Vous souhaitez pouvoir disposer de variables supplémentaires indiquant, en fonction du sexe de l’individu, l’écart entre ce que vous observez pour lui (sur le QI, la taille et le poids) et la moyenne observée sur les individus du même sexe.

1. Il faut donc joindre la table de résultats créée avec votre table SAS de départ de façon à pouvoir calculer ces écarts à la moyenne.

2. Contruisez une nouvelle variable mesurant cette fois-ci l’écart entre le poids de la personne et le poids moyen, tous sexes confondus (c’est plus délicat qu’il n’y paraît)

• Exercice 2 : Manipulation des tables de sorties

Dans une proc MEANS et à l’aide de l’instruction MAXID (MINID), visualiser dans la table de résultats les individus (prénoms) correspondant aux valeurs maximales du qi, de la taille et du poids. La table de sortie sera de la forme suivante :

23M. WILTHIEN - Applications SAS - 2021-2022 Semestre 1 - Master 2

TIDE Université Paris 1 Panthéon Sorbonne

Page 24: COURS D’APPLICATIONS SAS

V – Les exercices

• EXERCICE 3 : Amélioration d’une table de sortie avec la PROC UNIVARIATE

L’exercice est à réaliser sur la table ELEVES, à partir de la variable AGE à calculer.

1- A l’aide de la PROC UNIVARIATE calculer les statistiques spécifiques sur la variable POIDS, avec 2 sorties différentes en fonction du SEXE.

Créer également une table SAS contenant les statistiques P20 et P80.

Utilisez les instruction PCTLPTS, PCTLPRE et PCTLNAME pour obtenir la table suivante :

2- Une fois vos deux tables triées en fonction de la clé SEXE, vous pourrez réaliser une jointure et construire une nouvelle variable.

Vous remarquerez que les tables produites par PROC UNIVARIATE sont plus condensées que celles produites par PROC MEANS. Pour obtenir une liste des statistiques possibles dans une table OUTPUT de PROC UNIVARIATE, vous pouvez consulter l’aide SAS (entrée UNIVARIATE procédure, puis output data sets).

• EXERCICE 4 : Tests statistiques avec la PROC UNIVARIATE

A partir de la table SASHELP.CLASS, étudier la distribution des variables Height et Weigth en fontion des groupes sexe et age.

24M. WILTHIEN - Applications SAS - 2021-2022 Semestre 1 - Master 2

TIDE Université Paris 1 Panthéon Sorbonne