6
기초통계분석 모비율추론(일집단) 두 모집단 평균 차이 추론 개념 독립 집단 independent 두 모집단 서로 독립 (짝진 집단) paired 짝진과 표본 구별방법 - 조사설계방법에 따라 다름 사람의 양발 길이의 차이가 있나? 20명의 임의로 택하여 각자의 왼발 길이, 오른발 길이를 잰 후 동일 사람에 의해 match 시키느냐? (짝진) 발길이를 다르게 활용하느냐? (독립) •MBA 전공 중 재무(finance) 전공과 마케팅 전공의 초봉의 차이가 있나? H대학 MBA 전공자 중 재무 20명, 마케팅 전공 20명을 각각 임의로 선택하여 초봉을 각 집단 “독립” 집단, GPA 성적군을 나누어 (4.5~4.25, 4.25~4,… ) 각 군에서 한 명씩 임의 선택하여 초봉을 조사하면 “짝진” 집단 관심모수 독립 모집단 : / 짝진 모집단 (일변량 모평균=0 검정과 동일) θ = ( μ 1 μ 2 ) θ = μ d = μ 1 μ 2 한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page 16 확률표본 (iid) = 서로 독립이고 동일분포에서 추출 x i ~ f ( x; μ 1 ) population1 X~f(x; μ 1 ) sample1 x i ~f(x; μ 1 ) 데이터 x 1 = 12, x 1 = 17, x 3 = 21,..., x n = 3 population2 Y~g(y;μ 2 ) sample2 y i ~f(y;μ 2 ) y 1 = 19, y 2 = 21, y 3 = 15,..., y m = 2 y i ~ g( y ; μ 2 ) 데이터 population x~f(x) sample1 x 1i ~f(x;μ 1 ) sample2 x 2i ~f(x;μ 2 ) ( x 11 , x 12 ,..., x 1n ) ( x 21 , x 22 ,..., x 2 n ) d i = ( x 1i x 2i )

g(;y µwolfpack.hannam.ac.kr/Stat_Notes/elem_stat/BE_DA/... · 2015. 11. 15. · 2/6 Page. 기초통계분석 모비율추론(일집단) 100(1-α)% 신뢰구간 독립집단 : 짝진집단

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: g(;y µwolfpack.hannam.ac.kr/Stat_Notes/elem_stat/BE_DA/... · 2015. 11. 15. · 2/6 Page. 기초통계분석 모비율추론(일집단) 100(1-α)% 신뢰구간 독립집단 : 짝진집단

기초통계분석 모비율추론(일집단)

두 모집단 평균 차이 추론 개념

독립 집단 independent

두 모집단 서로 독립

(짝진 집단) paired

짝진과 표본 구별방법 - 조사설계방법에 따라 다름

•사람의 양발 길이의 차이가 있나? 20명의 임의로 택하여 각자의 왼발 길이, 오른발 길이를 잰 후 동일 사람에 의해 match 시키느냐? (짝진) 발길이를 다르게 활용하느냐? (독립)

•MBA 전공 중 재무(finance) 전공과 마케팅 전공의 초봉의 차이가 있나? H대학 MBA 전공자 중 재무 20명, 마케팅 전공 20명을 각각 임의로 선택하여 초봉을 각 집단 “독립” 집단, GPA 성적군을 나누어 (4.5~4.25, 4.25~4,… ) 각 군에서 한 명씩 임의 선택하여 초봉을 조사하면 “짝진” 집단

관심모수

•독립 모집단 : / 짝진 모집단 (일변량 모평균=0 검정과 동일)θ = (µ1 − µ2 ) θ = µd = µ1 − µ2

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page1 6

확률표본 (iid) = 서로 독립이고 동일분포에서 추출

xi ~ f (x;µ1)

population1 X~f(x;μ1)

sample1 xi~f(x;μ1)

데이터

x1 = 12, x1 = 17, x3 = 21,..., xn = 3

population2 Y~g(y;μ2)

sample2 yi~f(y;μ2)

y1 = 19, y2 = 21, y3 = 15,..., ym = 2

yi ~ g(y;µ2 )

데이터

population x~f(x)

sample1 x1i~f(x;μ1)

sample2 x2i~f(x;μ2)

(x11, x12,..., x1n )(x21, x22,..., x2n )

di = (x1i − x2i )

Page 2: g(;y µwolfpack.hannam.ac.kr/Stat_Notes/elem_stat/BE_DA/... · 2015. 11. 15. · 2/6 Page. 기초통계분석 모비율추론(일집단) 100(1-α)% 신뢰구간 독립집단 : 짝진집단

기초통계분석 모비율추론(일집단)

MVUE for

(독립 집단)

•두 표본평균의 차이 :

•MVUE 평균과 분산 : - 관심 모수는 이므로 또 다른 모수 모집

단 분산 은 보조 ancillary 모수이고 추정하여 사용함

(짝진 집단)

•두 표본평균의 차이 :

•MVUE 평균과 분산 : ,

MVUE 샘플링분포

(독립 집단)

•대표본 : 중심극한정리 , (모분산 모를 때)

•소표본 : 모집단 정규분포 가정 하에, (이분산)

(동일분산, 통합(pooled)분산 )

🔵 두 모집단 분산 동일성 검정 : to test - 귀무가설 채택되면

통합분산 사용한 t-통계량 사용

(짝진 집단)

•일집단 평균 추론과 동일

θ = µ1 − µ2

θ̂ = µ1 − µ2^

= x − y =xi∑n

−yi∑

m

E(θ̂ ) = µ1 − µ2,V (θ̂ ) =σ 12

n+ σ 2

2

m(µ1,µ2 )

(σ 12,σ 2

2 )

θ̂ = µ1 − µ2^

= D =di∑n

E(θ̂ ) = µd V (θ̂ ) =σ d2

(x − y ) ~ N(µ1 − µ2,σ 12

n+ σ 2

2

m) ~ N(µ1 − µ2,

s12

n+ s2

2

m)

(x − y )− (µ1 − µ2 )s12

n+ s2

2

m

~ t(df = complicated)

(x − y )− (µ1 − µ2 )

sp2 (1n+ 1m)

~ t(df = n +m − 2) sp2 = (n −1)s1

2 + (n −1)s22

n +m − 2

TS = max(s12, s2

2 )min(s1

2, s22 )~ F(df1,df2 ) H0 :

σ 12

σ 22 = 1

d − µd

s(d) / n~ t(n −1)

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page2 6

Page 3: g(;y µwolfpack.hannam.ac.kr/Stat_Notes/elem_stat/BE_DA/... · 2015. 11. 15. · 2/6 Page. 기초통계분석 모비율추론(일집단) 100(1-α)% 신뢰구간 독립집단 : 짝진집단

기초통계분석 모비율추론(일집단)

100(1-α)% 신뢰구간

독립집단 :

짝진집단 :

가설검정

1) 귀무가설 : (두 모집단 평균은 동일하다)

2) 대립가설 : (차이가 있다)

3) 검정통계량 및 유의확률 계산

(독립, 소표본=데이터 정규분포 가정) - 동일 모분산

(독립, 소표본=데이터 정규분포 가정) - 이분산

(짝진 표본)

데이터 검증

(독립 집단)

1) 이상치 진단 및 해결 : 상자-수염 그림 (치우침을 볼 수 있으므로 굳이 히스토그램을 그릴 필요가 있나?) 먼저 그려 치우침과 이상치 진단을 동시에 하자. 정규성 검정은 두 집단 표본 데이터 함께 해도 무방

2) 치우침이 있다면 소표본인 경우 정규성 검정 및 해결 : 각각 표본 데이터 정규성 검정

• 대표본일 경우는 정규성 검정이 필요 없음 - 치우침이 있다면 정규변환

•한 집단만 만족하는 경우? 동일 확률변수를 관측한 데이터이므로 가능성 없음

(짝진 집단)

1) 관측치 에 대한 정규성, 이상치 진단

•실제에서는 (1) 상자수염 그리고 (2) 치우침이 있다면 정규성 검정 -> 문제 해결 순서는 먼저 치우침 해결 후 이상치 문제 해결

(x − y )− t(1− α2)* s1

2

n+ s2

2

m< (µ1 − µ2 ) < (x − y )+ t(1−

α2)* s1

2

n+ s2

2

m

(d )− t(1− α2)* s(d)

n< (µ1 − µ2 ) < d + t(1− α

2)* s(d)

n

H0 :µ1 − µ2 = 0

H0 :µ1 − µ2 ≠ / > / < 0

TS = (x − y )− (µ1 − µ2 )

sp2 (1n+ 1m)

~ t(df = n +m − 2)

TS = (x − y )− (µ1 − µ2 )s12

n+ s2

2

m

~ t(df = complicated)

TS = d − µd

s(d) / n~ t(n −1)

di = (xi − yi )

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page3 6

Page 4: g(;y µwolfpack.hannam.ac.kr/Stat_Notes/elem_stat/BE_DA/... · 2015. 11. 15. · 2/6 Page. 기초통계분석 모비율추론(일집단) 100(1-α)% 신뢰구간 독립집단 : 짝진집단

기초통계분석 모비율추론(일집단)

예제 Keller “Managerial Statistics” 9th edition 💾 milk.csv

1. 연구문제 및 통계적 문제 정의

•시애틀의 우유 가격은 다른 대도시에 비해 높은가? 독립인 두 모집단 평균 차이 검정 문제

2. 표본 데이터 검증

1) 집단별 상자-수염 그림

•이상치 진단 : 없음

•치우침은 없어 보임

2) 정규성 검정 : ad-통계량, 정규분포 따름

3) 모분산 동일성 검정 : - 귀무가설 채택,

등분산임 - 통합분산 사용 가능

3. 통계적 가설 설정

•귀무가설 : 시애틀과 아틀란타 우유 값은 동일하다.

•대립가설 : 시애틀 우유값이 아틀란타보다 높다.

4. 검정통계량 및 유의확률 계산

커피로 인해 우유 소비가 많은 시애틀이 다른 대도시(아틀란타)에 비해 높은지 알아보기 위하여 다음 조사를 하였다. 각 도시의 H-mart에서 팔리는 우유 값을 관찰하였다.

H0 :σ 12

σ 22 = 1

µ1 − µ2 = 0

µ1 < µ2

ds=read.csv("milk.csv") ds0=stack(ds)[-40:-42,] #데이터 stack, NA 관측치 삭제 attach(ds0); names(ds0) boxplot(values~ind,horizontal=T,notch=T) #box-plot by group library(nortest); ad.test(values) #Normality Test var.test(values~ind) #equal variance t.test(values~ind,equal=T,alternative=c("less")) #t-test one-side alternative by(values,ind,sd) #sd calculation by group

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page4 6

Page 5: g(;y µwolfpack.hannam.ac.kr/Stat_Notes/elem_stat/BE_DA/... · 2015. 11. 15. · 2/6 Page. 기초통계분석 모비율추론(일집단) 100(1-α)% 신뢰구간 독립집단 : 짝진집단

기초통계분석 모비율추론(일집단)

5. 결론 및 활용

•시애틀 우유 가격은 평균 2.52, 아틀란타는 2.38로 커피로 인하여 유유를 많이 사용하는 시애틀의 유유 값이 높다. (유의적으로 높음)

예제 Keller “Managerial Statistics” 9th edition 💾 tvad.csv

1. 연구문제 및 통계적 문제 정의

•광고 효과? 광고 후 제품 인지도가 높아졌나? 짝진(동일 고객 전후) 두 모집단 평균 차이 검정 문제

2. 표본 데이터 검증

1) 집단별 상자-수염 그림

•이상치 진단 : 있음 - 삭제

•치우침은 없어 보임

2) 정규성 검정 : ad-통계량, 정규분포 따름

> t.test(values~ind,equal=T,alternative=c("less")) Welch Two Sample t-test data: values by ind t = -3.8022, df = 36.751, p-value = 0.0002616 alternative hypothesis: true difference in means is less than 0 95 percent confidence interval: -Inf -0.07804617 sample estimates: mean in group Atlanta mean in group Seattle 2.381111 2.521429

> by(values,ind,sd) ind: Atlanta [1] 0.1012794 --------------------------------------------------------- ind: Seattle [1] 0.1289684

집단 평균(M) 표준편차(SD) 통계량

(유의수준)

95% 신뢰구간

시애틀 2.52 0.129 3.80 (-, -0.078)

아틀란타 2.38 0.101 0.0003

TV 광고 효과를 보기 위하여 광고 전과 후에 제품 인지도를 10점 척도로 조사하였다. 광고 효과가 있나?

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page5 6

Page 6: g(;y µwolfpack.hannam.ac.kr/Stat_Notes/elem_stat/BE_DA/... · 2015. 11. 15. · 2/6 Page. 기초통계분석 모비율추론(일집단) 100(1-α)% 신뢰구간 독립집단 : 짝진집단

기초통계분석 모비율추론(일집단)

3. 통계적 가설 설정

•귀무가설 : 광고 효과는 없다.

•대립가설 : 광고 효과는 있다.

4. 검정통계량 및 유의확률 계산

5. 결론 및 활용

•광고로 인하여 제품에 대한 고객 인지도가 3.58점 올랐다. (광고 효과 있음)

µ1 − µ2 = 0

µ1 < µ2

ds=read.csv("TVAD.csv") attach(ds); ds$diff=before-after boxplot(ds$diff) #box-plot boxplot(ds$diff)$out ds$diff[c(-5)] #delete outlier library(nortest) ad.test(ds$diff[c(-5)]) #Normality Test t.test(ds$diff[c(-5)],mu=0,alternative=c("less")) #t-test mean(ds$before[c(-5)]);sd(ds$after[c(-5)]) sd(ds$before[c(-5)]);sd(ds$after[c(-5)])

> t.test(ds$diff[c(-5)],mu=0,alternative=c("less")) #t-test One Sample t-test data: ds$diff[c(-5)] t = -4.2762, df = 10, p-value = 0.0008106 alternative hypothesis: true mean is less than 0 95 percent confidence interval: -Inf -0.8380356 sample estimates: mean of x -1.454545 > sd(ds$diff[c(-5)]) [1] 1.128152 > mean(ds$before[c(-5)]);sd(ds$after[c(-5)]) [1] 5.090909 [1] 1.507557 > sd(ds$before[c(-5)]);sd(ds$after[c(-5)]) [1] 1.513575 [1] 1.507557

집단 평균(M) 표준편차(SD) 통계량

(유의수준)

95% 신뢰구간

광고 전 1.51 1.51 4.28 (-, -0.838)

광고 후 5.09 1.51 0.0008

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page6 6