Data Marketing Analysis - an introduction

+

Data Analysis

La première phase d’une enquête est celle de sa

conception c’est à dire de sa raison d’être.

+L’étude est une démarche scientifique de

fabrication de la vérité

L’enquête est un concept ambigu signifiant quête d'information, collecte de témoignages, recherches pour savoir quelque chose, il se fonde sur la pratique inquisitoriale émergeant au Haut Moyen-âge (et plus loin du travail de l’historien grec Herodote).

On préfère le mot étude qui souligne une démarche rationnelle essayant de réduire la part de subjectivité dans la représentation simplifiée d’une réalité. Elle est le fondement de la vérité scientifique.

C’est une recherche d'information réalisée par observation systématique d’une problématique sur une population déterminée, pour décrire, comparer ou expliquer une pratique.

Les 4 grandes étapes de l’étude sont : La construction de la problématique (I) La collecte de données (II) Analyse de résultat (III) l’interprétation théorique (IV)

+8 étapes pour conduire un projet

d’études (ou un pré-projet !) ETAPE A : Problématiser l’étude.

Définir les objectif : La première étape consiste à définir l'objectif général. C'est l'énoncé du problème qui nécessite le recours à l'enquête, la question de départ et les grands objectifs du projet.

Lire l’état de l’art : Il s’agit d’utiliser de nombreuses sources d’information pour se renseigner sur le phénomène à étudier. Web, Presse, Revues spécialisées, Revues Scientifique, Livre…Une somme de connaissances stables doivent être mobilisées pour mieux appréhender le phénomène en dégageant les concepts et les hypothèses à étudier.

Mobiliser l’expérience : La réflexion avancée peut être nourrie par des brain storming avec des experts sur le domaine. Un réseau doit être constitué fait de chercheurs, de professionnel très expérimenté mais aussi d’acteur ou de témoins privilégiés voire d’un pré-échantillon.

Définir les Hypothèses : La seconde étape consiste à décomposer l'objectif général en objectifs ou questions plus limités. Ces questions mettent en relation des concepts ou notionspas un mode de corrélation. Les objectifs spécifiques peuvent aussi être énoncés sous forme d'hypothèses.

ETAPE B : Designer de l’enquête

Constituer le set de variables : La troisième étape est la préparation de l'instrument d'observation par l'élaboration du questionnaire en concepts opérationnalisés en indicateurs.

Constituer de l’échantillonnage : Quelle population va être interrogé, qui est soumis à l'enquête, ET quelle est la taille de l'échantillon, comment seront choisis les répondants, quelle est la modalité d’échantillonage.

Organiser le Plan de collecte : Dans la cinquième étape, on tente de définir le plan de collecte, c'est-à-dire la façon d'organiser le déroulement de l'enquête par les différends acteurs de l’ étude. Il comprend aussi l'élaboration d'un pré test

ETAPE C : Conduire l’enquête

Recueillir les données : La sixième étape est le recueil de l'information proprement dit. Le questionnement des sujets et la réalisation sur le terrain selon la modalité choisie dans une démarche de pilotage assurant la qualité de l’observation.

Nettoyer et recoder des données : S’en suit la préparation des données. Les données sont non seulement nettoyées mais une série d’opérations en génèrent de nouvelles. On réalise le codage des données en prévision d'analyse statistique.

ETAPE D : Analyser les données

La septième étape consiste à analyser les données. Les informations sont traitées en fonction de la nature des données et les objectifs de l'étude (description, comparaison ou vérification d'hypothèses). On se préoccupe aussi de la qualité des données recueillies.

L’interprétation des analyses : Les différentes analyses servent de preuves à une interprétation du phénomène et à la réponse aux différentes hypothèses émises. On décrit, compare, répond aux hypothèses et ouvre vers de nouvelles interrogations.

Communiquer le Rapport Final est le moment stratégique des études. C’est un vrai projet de communication, tant dans sa conception que dans sa diffusion. S’il n’est pas rattaché à la fabrication du support, il est à lui seul un projet qu’il faut appréhender dans sa globalité

+

Comprendre le problèmeFabriquer des hypothèses de travail pour l’étude en communication

+Définition des objectifs de l’étude

Il s’agit d’essayer de cadrer le problème sur une étude réalisable dans le temps et le budget imparti.

On distingue des enquêtes descriptives, explicatives, comparatives et ou longitudinales

La pré-études n’est pas une mini-études mais bien une recherche de la plus grande variabilité du phénomène sur un échantillon moindre (notamment avec la question ouverte « autres »).

La mise en place d’un comité d’expert peut permettre de faire un rendu intermédiaire et par des méthodologies de brainstorming, tester le travail préalable et les hypothèses émergentes

Il faut pouvoir se documenter et s’informer pour élaborer des hypothèses réalistes

Information documentaire : on cherche dans la documentation préalable des descriptions du phénomène, des théories, des explications etc.

On recherche du plus général au plus spécifique par rapport au sujet

Parfois on établit une pré- enquête qualitative et ouverte auprès d’experts, auprès de témoins privilégiés ou auprès de la population cible en petit échantillon non représentatif

On oublie pas de se documenter sur l’existence d’études préxistantes.

+Choisir le type d’etude : qualitative

ou quantitative

On dit des variables d’une enquête qu’elle sont ouvertes ou fermées, qualitatives ou quantitatives mais par extension (et abus de langage) on parle d’un projet d’étude « qualitatif » ou « quantitatif » :

Etude qualitative : Une enquête possédant de nombreuses questions ouvertes qualitatives d’ordre textuelles qui subiront un traitement postérieur par thématisation, synthèse et résumé. Ce sens des enquêtes à « large maille » pour appréhender des phénomènes complexes, mal connus ou en phase préparatoire d’une enquête. On aborde souvent les représentations, les modes de vies, les types de discours par une enquête qualitative. On traite aussi les situations nouvelles, les innovations ou les pratiques marginales ou atypiques…

Etudes quantitative : Une enquête possédant de nombreuses questions fermées (pas nécessairement) quantitative mais qui subiront des analyses et des traitement quantitatifs de dénombrement pour décrire, trier, comparer et évaluer des facteurs d’un phénomène. Cette approche extensive est nécessaire sur des grands nombres afin de réduire l’observation d’une réalité à des marqueurs précis qui sont corrélés aux phénomènes étudiés. Cette construction de la réalité doit être mise à l’épreuve d’une discussion scientifique.

On distingue aussi l’approche individuel de l’approche de population c’est à dire la logique de l’étude de cas ou étude clinique ou l’on s’intéresse à l’individu de manière extensive et l’étude de population qui s’intéresse à un phénomène précis et à ses facteurs déterminants

L’échelle de distinction entre les différentes approches repose sur la capacité à réduire la réalité à une grille de facteurs précis. Plus la réalité est complexe, inconnues et subjectives plus l’étude sera globale et ouverte. Plus le phénomène sera étudié et connu plus on tendra vers des approches quantitatives et fermées.

+Fabriquer les hypothèsesOn doit choisir les hypothèse les plus utiles et les plus plausibles au regard de l’étude préalable. On

essaye d’avoir un juste équilibre entre l’utilité de l’étude (au regard de la problématique et des possibilités de

trouver une réponse pertinente)

Facteurs (ou concepts) Les relation Indicateur

Définir les concepts qui décrivent

le phénomène étudié et qui sont

susceptible de l’influencer

La relation permet de définir le lien

de corrélation qui devrait lier les

facteurs entre eux

C’est une variable observable qui

permet de donner sens à la

variation du concept. Elle doit être

facilement observable et corrélée

aux états du concept

Donner des exemples clair et

anticiper sa variation.

Donner des relations qui sont

plausible et logique. Ex. plus le

niveau d’étude est élevé, plus le

salaire est élevé

Ex. Température est un indicateur

corrélé à la chaleur du climat ou à

l’état de santé d’un patient…

Facteur explicatif Indicateur 1

Indicateur 2

Indicateur 3

…

Concept expliqué Indicateur 1

Indicateur 2

Indicateur 3

…Relation

Pour étudier les notions qui constituent l'objet de l’enquête, il faut trouver les

indicateurs empiriques, des moyens de les approcher, de les mesurer. On distingue donc

le niveau théorique de la notion, le niveau intermédiaire des indicateurs, et le niveau de réalité

des questions-réponses.

+Système de documentation et reproductibilité

des résultats

Journal de recherche

Dispositif d’annotation

+

Construire son étudeS ’assurer de la faisabilité de l’étude

+Planifier ses études:

Le premier moment d’une enquête est dite descriptive ou transversale en ce qu’elle décrit la population des individus en les discriminant selon les indicateurs normés. Elle peut aboutir à une clustérisassions en socio-type.

Puis peut venir un second temps des explications des phénomènes en faisant corréler une ou plusieurs variables les unes avec les autres tout en essayant d’interpréter cette corrélation. Les différentes régressions sont les outils clés de cette approche.

La comparaison permet de distinguer deux échantillons d’une population selon un ou plusieurs critères discriminants

Comparaison cas-témoins : comparer des groupes qui se distingue selon les modalités d’une variable.

Comparaison expérimental : on compare un groupe qui a subit des expériences au regard d’un groupe ayant les même caractéristiques mais qui ne les a pas subi.

Comparaison longitudinale : Comparer un même groupe après et avant l’intervention d’un facteur causal

Les études de tendances vise à tirer périodiquement des échantillons d’une même population à travers plusieurs enquête. Quand il s’agit exactement du même échantillon on parle d’étude de panel.

+Choisir sa méthode d’enquêtes

selon les cas à observé

Il existe plusieurs méthodes qui se distingue par la méthode de collecte de données et l’objet étudié.

L’analyse de données permet bien souvent l'observation de traces recueillies indépendamment du projet de l’étude mais qui ont la particularité d’être des marqueurs des phénomènes étudiés.

Observation directe permet de relever des données directement en contact avec les phénomènes étudiés. Ils sont enregistrables. Ce qui n’empêche que l’observateur peut être engagé ou pas dans la situation voire médiatiser son observation.

L’expérimentation (ou expérience) consiste à modifier intentionnellement un facteur dans le phénomène étudié pour observer ses conséquences sur les autres facteurs. La méthodes peut être plus ou moins contraintes dans un « laboratoire ».

Le questionnaire d’enquête vise à relever des témoignages du phénomène auprès des acteurs en lien avec le phénomène pour qu’ils nous rapporte, nous re-présente une réalité vécue, une opinion, une croyance, des imaginaires.

+Observer un phénomène

directement

Le cas de l’étude directe de données.

On peut utiliser des données non-standardisées déjà existantes et appliquer une standardisation par codage

Les données dites primaires peuvent être de plusieurs natures : Mesures quantitatives, texte, vidéos, images.

Soit directement sur les données de manière algorithmique

Soit par observation humainemais selon des grilles de codage très claires

Le codage doit être une règle de transformation des données transparente et réplicable. En cas d’observation humaine, elle doit être testée par plusieurs observateurs.

On parle d’observation directe quand l’enquêteur est en prise directe avec le phénomène étudié.

Une observation directe exige lui aussi un codage rigoureux d’où souvent la nécessité d’une pré-étude préalable pour maitriser la variabilité du phénomène et le type de traitement nécessaire.

On dit que l’observation est participante (située) ou non en fonction de la relation entre l’enquêteur et l’échantillon étudié.

+Fabriquer son échantillon

représentatif

Un échantillon représentatif : étudier une partie de la population en s’assurant d’une homologie des deux.

Population parent : somme total des individus (unité statistique) définit par des caractéristiques structurales, comportementales ou représentationnelles

La représentativité doit assurer des réponses plus ou moins identiques entre échantillons et population parente

Une enquête exhaustive est non seulement souvent impossible mais sa réalisation serait très difficile et donc emplit d’erreur.

Un échantillon doit être définit en taille (n vers 1000 à 10000) et selon la méthode d’échantillonage.

La meilleur méthode : « chaque individu a une égale chance d’être présent dans l’échantillon »

Techniques probabilistes ou aléatoires : Pour supprimer tous les biais, le tirage systématique et/ou aléatoire est le meilleur moyen. Cas de population instituée (en entreprise par exemple). La population peux être tirée au hasard en strates (tirage au hasard à chaque niveau) ou par grappe (tirage en strates avec exhaustivité de la dernière strate dit grappe)

http://www.statcan.gc.ca/edu/power-pouvoir/ch13/prob/5214899-fra.htm

Méthode des quotas : Reconstituer une population ayant des critères données (variables contrôlées).Cette échantillon peut être redressé a posteriori pour correspondre au quotas.

A l’inverse un échantillon peut être un prisme dans le sens où il définit une population selon ses critères ou ses techniques de constitutions. Population qu’on découvrira a postériori (cas des populations définies par leurs comportements ou leur représentations)

Il reste l’échantillonage par boule de neige dans les réseaux d’individus connectés jusqu’à épuisement du réseau.

Pour l’analyse, on doit connaître les caractéristiques de l’échantillon, vérifier la représentativité, évaluer les non réponses aux questions.

http://www.statcan.gc.ca/edu/power-pouvoir/ch13/prob/5214899-fra.htm

+

Analyse Bi-VariéeComparer des variables deux à deux.

+TD – Installer son espace de travail

Dans R Installer R et R Studio

Installer les packages

install.packages("gplots", dep=TRUE)

install.packages("epitools")

etc…

Charger les package avant utilisation

library(epitools)

library(prettyR)

Etc…

Sauvegarder le Travail

Les Datas :

save(dataset,

file=”xxxx.Rdata”)/load(« xxxx.Rdata »)

Les instructions :

savehistory(“myfile.R”)

L’espace de travail complet :

save.image(file =« myfile.Rdata »)

Ecrire un csv

write.table(MyData, file =

"MyData.csv",row.names=FALSE,

na="",col.names=FALSE, sep=",")

ou write.csv(MyData, file =

"MyData.csv",row.names=FALSE, na="")

Importer des données dans un tableau

Chemin de base :

setwd("D:/mooc")

smp <- read.csv2("D:/mooc/smp1.csv")

Etc…

Manipuler le tableau

view(smp)

dim(smp); nrow(smp), ncol(smp)

names(smp)

str(smp); summary(smp); describe(smp) dans

prettyR

smp$variable; head(smp$variable, n);

tail(smp$variable, n)

summary (smp), head(smp), tail(smp)

length(v)

Aide sur les fonctions

help.search(« fonction »)

+Préparation des données avec

Open Refine

Encodage et aggrégation : Il faut néttoyer les données de toutes les erreurs, les manquements et les erreurs de remplissage.

Décider d’une valeur au non-réponse

Agréger les réponses en modalités aux réponses suffisantes

Encoder les variables en variables plus synthétiques ou plus combinées (type indice)

Changement de nature entre variables qualitatives et variables quantitatives

On distingue les variables primaires présentent lors de l’observation, des variables synthétiques issues d’opération d’aggrégation

Il faut produire un dictionnaire

de code qui résume la nature

des variables primaires et des

variables synthétiques

Les set de données contenant

toutes les réponses s’appelle le

tableau de données

Il faut penser à parcourir

entièrement le set de

données pour vérifier les

incohérences et les erreurs.

+Recoder les variables dans R Renommer

names(d)[names(d)=="emitter_type"] <-

« emit »

Supprimer remove(D)

d$v <- NULL

Convertir

To bin var <- ifelse(test, 1, 0)

To character/numerique v.char <- as.character(v)

V.num <- as.numeric(v.char)

To Class range(d$age) pour avoir les min et

max // d$age20 <- cut(d$age, c(min,

20, 40, 60, 80, max) ou un Nb de

classes, include.lowest = TRUE et/ou

right = FALSE, labels = c("<20ans",

"21-40 ans", "41-60ans", "61-80ans",

">80ans")) // table(d$age20)

library(questionr) // icut(d, var)

d$age6cl <- quant.cut(d$age, 6) pour

des classes à eff égal

quantile(var, prob=c(0.1,0.2)

To factor v<- factor(v, levels = c(0,1),

labels = c("Non", "Oui"))

levels(d$fs.fac)

Compacter factor v.comp <- as.character(v) //

v.comp[v == "Ouvrier specialise"

| v == "Ouvrier qualifie"] <-

"Ouvrier" // v.comp[v ==

"Profession intermediaire" | v ==

"Technicien"] <- "Intermediaire"

// v.comp <- factor(v.comp)

library(questionr) // irec(d,

qualif)

V.distr <- interaction(v1, v2)

Pour qualifier les NA V.sansNA <- as.character(v) //

v.sansNA[is.na(v)] <- "Manquant »

// v.sansNA<- factor(v.sansNA)

+Analyser une variable qualitative

Il s’agit ici d’étudier des variables selon leurs modalités soit quantitatives soit qualitatives.

Quand la modalité est qualitative, l’échelle des modalités est soit nominale ou soit ordinale

Une variable qualitative a pour fonction de discriminer une population, ses comportements et ses représentations selon ses qualités.

L’observation peut amener à une recodification de la variable voire à la fabrication d’indice.

On repaire le mode et sa part dans la population (la modalité la plus présente)

Dans les variables qualitatives nominales, on tris les modalités par ordre asc ou desc pour regrouper les modalités par taille et observer si ces regroupements caches d’autres variables

Dans les variables qualitatives ordinales, l’ordre ne peut être changé car c’est la répartition qui est signifiante. On peut y repérer la médiane.

Une variable qualitative prend tout son sens dans un ensemble de variables autours d’un thème donné ou en comparaison d’autres études de référence.

+Analyser une variable quantitative

Il s’agit ici d’étudier des variables selon leurs modalités soit quantitatives soit qualitatives.

Quand la modalité est quantitative, l’echelle des modalités est soit discrète (séparation stricte) soit continue (infini décimale)

Une variable quantitative vise à mesurer l’intensité d’un phénomène selon une variable mesurable

On repaire le mode, la médiane et la moyenne. C’est l’étude entre ces trois chiffre qui peut être très instructive sur la variable.

On calcul aussi l’écart type de la moyenne, l’étendue, les quartiles et les déciles pour mieux comprendre la réparition

On peut encoder une variable quantitative en classes qualitatives (ex. âge)

La notion de test paramétrique ou non paramétrique est essentiel

+Analyse Monovariée Variable 1 dim = vecteur

taille <- c(1.88, 1.65, 1.92, 1.76)

class (taille)

rep(c("a", "b"), 3) (répète en boucle)

seq(from, to, by=n) (ou raccourcis

from:to)

Name(vecteur) <- c(« toto », etc.)

vecteur[n] or [n:n] or [c(1, 3, 5)] ou

[c(-3, -6)]

Vecteur[vecteur comme condition == ou

!=, etc.)] avec & ou | (shift alt L)

Le cas de !is.na(vecteur) pour « qui ne

sont pas NA »

which(condition)

subset(dataset, condition & |

(shift+alt+l) condition 2)

Variable Quali

table(v, useNA=”always/ifany/no”) ou

summary(v); sort(table(v), decreasing =

TRUE); freq(d$qualif, cum = TRUE, total

= TRUE, sort = "inc", digits = 2,

exclude = NA)

which (v == valeur)

prop.table(tab, margin=1 OR 2)*100 pour

proportion des effectifs en % ou sur la

la ligne ou la colonne

Graphique

plot(v, v2)

plot(table(d$freres.soeurs), main =

"Nombre de frères, soeurs, demi-frères

et demi-soeurs", ylab = "Effectif")

Variable Quanti :

mean(v, na.rm=true), median (v), min (v), max(v), sd(v), range(v), quantile(v)

summary(v)

Graphique

plot(fonction(v.quanti), v.quali)[essayez avec fonction ecdf()]

hist(d$heures.tv, main = "Nombre d'heures passées devant la télé par jour", xlab = "Heures", ylab = "Effectif », probability=TRUE, class=n, col=« blue »)

boxplot(d$heures.tv, main = "Nombre d'heures passées devant la télé par\njour", ylab = "Heures")

+Corréler deux variables qualitatives

: Tris croisé et Khi2

On peut rechercher les corrélations entre deux variables qualitatives en faisant un tri croisé en tableau

La variable en colonne est la variable à expliquer, la variable en ligne est la variable explicative

On considère que les variables sont indépendantes si le tableau observé est proche du tableau théorique de répartition.

S’il est différent, alors le test du Khi2 permet de montrer si cette différence est suffisamment significative pour deviner une corrélation

On calcule donc un écart absolu quand on fait la différence entre l'effectif observé et l'effectif théorique. Ces écarts absolus montrent quand ils sont positifs qu'il y a x individus en trop par rapport à la situation d'indépendance (phénomène d'attraction) et quand les valeurs sont négatives (phénomène de répulsion) qu'il manque des individus par rapport à la situation d’indépendance.

On calculera l'écart relatif en rapportant l'écart absolu sur l'effectif théorique afin de pouvoir exprimer l'intensité de la répulsion ou de l'attraction entre modalités de deux variables.

La distance Khi2 est la somme des Khi2 de chaque case calculé comme l’écart relatif multiplié par l’écart absolu

+Analyse quali dans R

Table (v1, v2) ou xtabs(~v1+v2,

dataset)

prop.table(tab, margin=1 OR 2, digits

= 2, percent = TRUE)*100

Graphique

barplot(cprop(tab, total = FALSE),

main = "Pratique du sport selon le

niveau de qualification")

mosaicplot(v1~ v2, data = d, shade

= TRUE, main = "Graphe en

mosaïque")

library(vcd)/ mosaic(~sport +

cuisine + sexe, d, highlighting =

"sexe", main = "Exemple de

graphique en mosaïque à 3

dimensions")

Test de Chi2 Tab <- table(v1, v2) / chisq.test

(tab)

Library(questionr)/chisq.residuals(

tab) pour les sup à 1,96

fisher.test (x, y) si faible

effectifs

+Corréler deux variables quantitatives :

corrélation et régressions

On peut comparer la variance de deux variables d’un même échantillon si elles sont de même nature. On dit alors que les échantillons sont appariées. On utilise le Test de Student pour les P (même variance). On utilise alors les coefficient de corrélation de Pearson (Pour les NON-P. la Corrélation de Spearman).

Deux variables quantitatives forment un nuage de points qui peuvent entretenir une relation qui signifierait une corrélation entre les phénomènes

Cette corrélation peut être approchée par une régression dites linéaire (qd la fonction est une droite) ou complexe (asymptotique, exponentielle, etc).

Une régression peut être multiple qd Y est corrélé à plusieurs variables formant ensemble une fonction signifiante

Le coef. de corrélation r compris entre -1 et +1 montre le sens d’un corrélation

r2 (coefficient de détermination) donne l’intensité de la corrélation soit la part de Y expliqué par X

rXY =

(Xi - X)´ (Yi -Y )i=1

n

å

(Xi - X)2

i=1

n

å ´ (Yi -Y )2

i=1

n

å

+Analyse quanti dans R

Tests t.test(v1 ~ v2) (si normal

shapiro.test(v) et même variance

var.test(v1~v2))

wilcox.test(V1~V2) pour les non-p

t.test(v, mu=valeur de référence)

Graphique plot(rp99$dipl.sup, rp99$cadres, ylab =

"Part des cadres", xlab = "Part des

diplomês du supérieur », pch = 19, col

= rgb(1, 0, 0, 0.1))

plot(jitter(smp$age, factor=n),

jitter(smp$n.enfant, factor=n)) jitter

pour décaler les points et tous les

voirs

plot(rp99$dipl.aucun, rp99$tx.chom, cex

= rp99$pop.tot/10^4) (pour 3ème

variable)

plotmeans(variable~temps)/interaction.p

lot(temps, individus, variables)

Corrélation et Regression cor(v.quanti1, v.quanti2)

reg <- lm(v.quanti1~ v.quanti2, data =

dataset) // summary(reg) // abline(reg,

lwd=2)

Sinon cor.test(x,y, method=”spearman”) pour

les non-p

Régression Linéaire multiple reg <- lm(v.quanti1~ v.quanti2 + vQuanti3 +

v.quanti…, data = dataset) // summary(reg)

// abline(reg, lwd=2)

On peut aussi tester la synergie (avec *)

entre deux variable pour voir si le modèle

additif est simple

reg <- lm(v1~v2+V3*V4..., data=dataset)

Conditions de validité : Normalité du bruit

(le bruit est indépendant et sans

corrélation) : hist(resid(modl),

col=”grey”, main)

https://www.youtube.com/watch?v=ys4Q8R9yRxk

https://www.youtube.com/watch?v=nzIL8sQ3auI

https://www.youtube.com/watch?v=ys4Q8R9yRxk

https://www.youtube.com/watch?v=nzIL8sQ3auI

+Corrélation entre une variable quali

et une variable quanti

Une variable quantitative peut être comparée en classes ou sous-groupes selon les modalités d’une variable quantitative. On utilise pour cela des tests d’échantillons indépendant.

Quand la variable qualitative est binaire, on utilise le Test T de Student sur échantillon indépendant (Pour P Normale et Variance)ou les tests de Kolmogorov-Smirnov ou Mann-Whitney (pour Non-P).

Quand la variable qualitative a plus de deux modalités on utilise le test de l’ANOVA (ou analyse de la variance) pour P et test de KrustalWallis pour Non-P

La variable p permet de

connaître les risques d’erreurs

à rejeter H0 : Les deux

échantillons ont le même

comportement.

Chaque test a ses propres

paramètres qui permettent de

compléter les informations pour

analyser les différences.

+Analyse Quanti/Quali dans R

Test Tapply(v.quanti, v.quali, mean (et

var) na.rm=TRUE)

Aggregate (v.quanti~v.quali,

Dataset, indicateur)

Graphique boxplot(age ~ hard.rock, data = d)

Anova :

ATTENTION avec des V.QUALi, R recode toutes les

variables.quali en variables.bin et fait une régression

multiple quanti. ATTENTION (bis) la première modalité

n’apparait pas elle est implicite (toutes les autres à 0)

vQuali <- relevel(vQuali,

ref=”modalitechoisie”) ##changer la

modalité de référence

reg <- lm(v.quanti1~ v.quali, data =

dataset)

summary(reg)

drop1(reg, .~., test=”F”)

+Analyse binaire des var.quali : la

régression logistique

Variable expliquée binaire s’explique comme le log des probabilité des

réponses de variable binaire ou ordonnée ou libre ensuite exp(coefficients(reg)) donne le l’odd ratio de ce facteur (augmentation de probabilité)

Regression logistique quali

vQuali <- relevel(vQuali, ref=”modalitechoisie”) ##changer la modalité de référence

modl <- glm(v1~v2+V3+V4..., data=dataset, family=”binomial”)

summary(modl)

Et drop1(modl, .~., test=”Chisq”) ## donne le test avec variable quali compactée

ensuite exp(coefficients(modl)) donne le l’odd ratio de ce facteur (augmentation de probabilité)

On peut aussi tester la synergie (avec *) entre deux variable pour voir si le modèle additif est simple :

modl <- glm(v1~v2+V3*V4..., data=dataset, family=”binomial”)

a vérifier avec library(Epi) // twoby2 (x explicatif, x expliqué)

https://www.youtube.com/watch?v=fUmDPVHah1U

https://www.youtube.com/watch?v=hzwLWbngzVo

https://www.youtube.com/watch?v=fUmDPVHah1U

https://www.youtube.com/watch?v=hzwLWbngzVo

+Profilisation et classification

des individus

+Analyse des Composantes

principales : Variables Quanti

Partition de groupes d’individus homogènes selon les valeurs des Variables centrées-réduites (fonction scale dans R) : Valeur moins moyenne/ecart-type (% de l’ecart-type, 1,96 est 95% de la normale)

On fait un nuage de point d’individus à K variables dimensions. La Ressemblance égale faible distance entre individus

On réduit les dimensions en facteurs

Liaisons linéaires entre variables (matrice de corrélation). On fait un Cercle des corrélations : On lit le coef des variables à l’axe puis le cos entre variables (attention proche du cercle avec d=Racine[2(1-r)])

Ajustement sur deux axes (facteurs) perpendiculaires (avec meilleurs inerties) des individus.

Variables et individus sont liés et s’explicite l’un l’autre

Lire somme des % d’inertie de chaque axe(1) puis qualité de représentation par somme des Cos2 sur deux axes(2) et contribution des variables sur axes

https://www.youtube.com/watch?v=KrNbyM925wI&list=PLnZgp6epRBbRn3FeMdaQgVsFh9Kl0fjqX

https://www.youtube.com/watch?v=KrNbyM925wI&list=PLnZgp6epRBbRn3FeMdaQgVsFh9Kl0fjqX

+ACP In R

Matrice de corrélation de v.quanti Eliminer les donées manquantes.

use=« complete.obs »use=« pairwise.complete.obs »

round(cor(d[,var],use=« complete.obs », digits=n) #digits pour les virgule

library(corrplot)//corrplot(cor(d[,var],use=« complete.obs », method=« circle »)

heatmap(cor(d[,modl],use=« pairwise.complete.obs »), col=gray(seq(1,0, length=16)))

ACP modl <- c(« name.v1 », « name.v2 », etc.)

library(psy)

mdspca(d[,modl])

sphpca(d[,modl]) #pour la 3D

ACP Focalisée : Cas d’une variable à expliquer par d’autres variables modl.plique <- « name.vplique »

modl.catif <- c(« name.v1 », « name.v2 », etc.)

library(psy)

fpca(data=d, y=modl.que, x=modl.catif, partial=« No »)

Très utiles pour la régression multiple

ACP avec factominer library(FactomineR)

res <- PCA (d, quanti.sup=n:n, quali.sup=n)

Summary (res, nbelements=Inf, file=« essais.text »)

Plot(res, cex=0.8, habillage:v, select=« cos2 0.7 »))

dimdesc(modl)

ACP dans Factoshiny Library(Factoshiny)

modl=PCAshiny(d)

PCAshiny(modl)

modl

Gestion des données manquantes.On trouve la variable manquante par ACP itérative

library(missMDA)

nb <- estim_ncpPCA(d, scale=TRUE)

d.comp <- imputePCA(d, ncp=nb, scale=TRUE)

res.pca <- PCA (d.comp$completeObs)

Si trop de données manquantes risque de biais par forte imputation donc

Mi <- MIPCA(d, scale=TRUE, ncp=2)

Plot Mi

+Analyse des correspondances

multiples : Variables Quali

Tableau disjonctif complet : Ligne X modalité (0,1)

Chaque modalité est une variable quanti 1/0 que l’on pondère

par la rareté : 1/p

Cette pondération forme une coordonnée dans un espace à

K dimension pour le tableau d’individus

Tout le reste proche de ACP

Nuages des modalités : constituée au barycentre des

individus qui la possède

https://www.youtube.com/watch?v=bihScz3OXbw&list=PLnZgp

6epRBbTvk5fznOuiZSz8ZC6aS5sz

https://www.youtube.com/watch?v=bihScz3OXbw&list=PLnZgp6epRBbTvk5fznOuiZSz8ZC6aS5sz

+ACM dans R

ACM avec FactomineR library (FactomineR)

res.mca <- MCA (d, quanti.sup=v, quali.sup=v)

summary(res.mca, nbelements=Inf)

plot(res.mca, invisible= c(« ind », « quali », « quanti », « quali.sup », « quanti.sup », « var »), label=c(« ind »,

« quali », « quanti », « quali.sup », « quanti.sup », « var »), autolab=« y », cex=0.7, selectMod=critère )

Gestion des données manquantes.

On trouve la variable manquante par ACP itérative

library(missMDA)

nb <- estim_ncpMCA(d) #trouve lenombreoptimal de composante

d.comp <- imputeMCA(d, ncp=nb) #crée un jeu de données complet (2ou 4 facteur)

Res.mca <- MCA (d, tab.disj=d.comp$tab.disj)

Si trop de données manquantes risque de biais par forte imputation donc

Mi <- MIPCA(d, scale=TRUE, ncp=2)

plot(Mi)

+Classification Ascendante

Hierarchique

Il faut une mesure de proximité ou de simularité entre individus (distance entre valeur d’un variable, distance euclidieneou indice spécifique métier)

Par itération, on regroupe deux à deux la plus petite distance en un groupe…

Ratio Inertie Inter/Inerte Total donne la qualité de la partition (0 à 1). On choisit le nombre de groupe selon l’inertie conservée après partition (InerInter/InerTotal > inertie de Axe 1)

Une ACM/ACP transforme le tableau en facteurs quantitatifs moindres. On peut ensuite faire une CAH sur ces dimensions.

https://www.youtube.com/watch?v=SE_4dLh5vXY&list=PLnZgp6epRBbRwGBLnM8GEmcxuQGM0_oIk

https://www.youtube.com/watch?v=SE_4dLh5vXY&list=PLnZgp6epRBbRwGBLnM8GEmcxuQGM0_oIk

+CAH in R

CAH de variables modl <- c(« name.v1 », « name.v2 », etc.)

cah.v <- hclust(dist(t(scale(d[,modl]))),method=« ward »)

Plot(cah, xlab=« », ylab=« », main =« CAH de variables »)

CAH avec FactomineR à patir

de ACP ou ACM

res.hcpc <- HCPC(res.ACP

ou ACM)

res.hcpc$data.clust (la bd

avec les clusters)

res.hcpc§desc.var (décris le

rapport variable et classes)

res.hcpc$desc.ind (les

parangons)

+Partitionnement en classes par les

K-Means

Par itérations, on choisit nombre de classes et on rassemble les individus par proximité des barycentres.

Une ACM transforme le tableau en facteurs quantitatifs moindres. On peut ensuite faire un K-means sur ces dimensions.

On peut faire une partition par CAH en initialisation et consolider par K-Means ou l’inverse.

Puis lire

(1) parangon de chaque classe = individu le plus proche

(2) On peut chercher les p par ANOVA de chaque variable sur les classes. Plus le p est petit, plus la variable a peser sur la classe. (pour quali on fait un Khi2 et on utilise aussi p)

(3) v.test pour valeur test (>1,96 pour la normal) caractérise le poid de la variable sur la classe. Pour les modalités :on regarde aussi les p et les v.test

+

Analyse des réseaux sociaux

+La relation au cœur des facteurs

comportementaux

Deux tables : Des nœuds et

des relations

Des qualifications du réseau

et de ses sous réseaux

Des qualifications structurales

des nœuds

Analyse du comportement

relationnel comme facteurs

expliquant ou expliqués

Des visualisations de réseaux

heuristiques

Analyser les réseaux (comparaison ou longitudinal)

Sum Nœud, Sum Degré, Statistiques des degrés (Moyenne, Quartiles, Déciles, etc), Statistiques des propriétés quali et quanti

Plus court Chemin, Diamètre, Chemin Moyen, Coefficient de clustering, Densité

Composante connexes; Modularity (w Resolution), nb Communautés

+Analyse de la situation du nœud

Nb dégrés (in, out, weigted) ex. les isolés ? Les réciprocités ?

Triades et transitivités [Indice de transitivités]?

Centrality Betweeness/Closeness or Eccentricity/Egenvector or

Page Rank

Hub / Authority

Modularity/Composante Connexe/Coefficient de clustering

+Analyse du comportement de lien

Type de lien (directed – undirected )

Source – destinataire et leurs attributs respectifs

Poids des liens

Propriétés des liens et multiplexité

Durée de vie du lien (Intervalle de dates)

+Les grandes lois des réseaux

Rôles : Similarités des comportements envers les autres

[équivalence structurale]

Effet Saint Mathieu: ce qui attirent beaucoup attirent encore

plus

6 degrés de connexions

La limite des 148 contacts actifs (690 max)

La taille compte (pour l’accès aux ressources)

Relation influence / sélection dans la Network theory

+A voir

Intervalle de confiance

Moyenne :

t.test(d$heures.tv, conf.level = 0.9)

D’une prop pour variablebinaire:

prop.test(table(relevel(d$sport, "Oui")), conf.level = 0.9)

Ou encore :

library(binom) / binom.confint(x,N,method=”all”)

Data & Analytics

Data Marketing Analysis - an introduction