Upload
others
View
5
Download
0
Embed Size (px)
Univariate Analysis개념 concept
정의
분석 대상인 변수가 하나인 경우 사용되는 분석 방법 모집단Unknown
확률분포함수 fXi 의 형태
측정형: 대상 개체의 실제 관측치
분류형: 관측 개체가 속하는 범주, 베르누이 시행의 경우에는 (0, 1)
x~f(x; θ)확률분포함수 f•적합성 검정모수 parameter θ•평균 μ•분산 σ2비율 p
일변량분석
);();();(~),,,( 2121 θθθ nn xfxfxfxxx …표본
•비율 pRandom sample (확률표본)Independently and identically
)(θ̂량
그래프분석통계량분석
통계량),,,( 21 nxxxg …=θ추정치
)ˆ(θht =검정통계량
•모집단분포
•통계량이용모수추론에대한 타당성확보
통계량분석
•모수추정및가설검정),,,(ˆ 21 nxxxg …=θ점 추정
)1())ˆ(( αθ −=≤≤ UhLP구간 추정분류형
•바차트, 파이차트
측정형
•히스토그램
•상자수염그림
분류형
•비율
측정형
•평균
•분산
)1())(( αθ ≤≤ UhLP정
αθ =⊆ ))ˆ(( RRhP가설 검정
http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수
Statistics for Business and Economics (Spring, 2008)53
Univariate Analysis그래프 분석 의미 (항상 분석 시작점)
그래프내용
분류형: 파이 차트 (비율)
측정형: 히스토그램(분포 형태, 봉우리), 나무상자 그림(이상치)
표본데이터그래프의미
표본 분포 모집단의 분포와 동일표본 분포, 모집단의 분포와 동일
치우침 (히스토그램, 상자-수염그림)
평균을 사용해 추론해도 될 것인가? 판단평 용
대표본: CLT에 의해 OK
소표본: 정규성 검정 필요
정규분포를따르지 않으면 변수변환후 (가장 널리사용하는 방법이LOG 변환 x2 변환) 비모수 검정 필요LOG 변환, x 변환) 비모수 검정 필요
봉우리개수 (히스토그램)
봉유리가 2개 이상이면 집단을 나누어 일변량 분석을 실시한다.
이상치 (상자 수염그림)
제거한 후 일변량 분석을 실시한다.
때로는 이상치는 informative 관측치일 수 있으니 원인을 찾는다
http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수
Statistics for Business and Economics (Spring, 2008)54
때로는 이상치는 informative 관측치일 수 있으니 원인을 찾는다.
Univariate Analysis일변량 추론 요약
모비율 p 모평균 μ 모분산 σ2
표본비율표본비율 표본평균표본평균 표본분산표본분산
nxxn
ii /
1∑==
)1/()(1
22 −∑ −==
nxxsn
iineventsofp / #ˆ =
대표본, min(pq, npq)>5대표본, min(pq, npq)>5 대표본, n>20~30대표본, n>20~30 모집단정규분포 가정모집단정규분포 가정
pq )1,0(~ Nx μ−
)1( 22− sn
소표본
유의확률개념 이용
소표본
유의확률개념 이용
소표본, 모집단 정규분포 가정소표본, 모집단 정규분포 가정
),(~ˆnpqpNp
)1,0(/
Nns
−x μ
)1(~)1( 22 −− nsn χσ
)1(~/
−− nt
nsx μ
)),(~(# pnBinomialofeventsP
http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수
Statistics for Business and Economics (Spring, 2008)55
Univariate Analysis모평균(μ)추론 개요
모집단 Target parameter이상치이상치•상자수염그림
•이상치제거
•상자수염그림
•이상치제거x~f(x; θ)
• θ = 모평균 μ
Nuisance Parameter •분산 σ2
진단이상치제거이상치제거
추정
•표본평균
•모분산(σ2)을모를경우표본분
산(s2)으로추정
•표본평균
•모분산(σ2)을모를경우표본분
산(s2)으로추정
대표본
)3,,12,20( 21 === nxxx …표본
Random sample (확률표본)Independently and identically
ˆ
산(s )으로추정산(s )으로추정
가설검정•정규분포사용 (CLT)•정규분포사용 (CLT)
OO 학과학생들의일주일공부시간
통계량x=θ추정치
)1(~/
)ˆ( −−=== ntzns
xxht 혹은μθ검정통계량
정규성
•히스토그램: 치우침
•정규성검정: (변수변환, 비모수검정)
•히스토그램: 치우침
•정규성검정: (변수변환, 비모수검정)소표본
OO 학과학생들의일주일공부시간
모수 parameter: 공부시간 평균
추론의시작점
이상치
•상자수염그림
•이상치진단, 제거
•상자수염그림
•이상치진단, 제거
•표본평균•표본평균
모수의 MVUE (Minimum Variance unbiased estimator)
점추정치
MVUE의 sampling distribution
추정•모분산(σ2)을모를경우표본분산(s2)
으로추정
•모분산(σ2)을모를경우표본분산(s2)
으로추정
가설검정가설검정 •T분포사용•T분포사용
http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수
Statistics for Business and Economics (Spring, 2008)56
가설검정가설검정 분 사용분 사용
Univariate Analysis모평균(μ)추론 개요
점추정치 (point estimator) 정규분포와 t-분포
t(자유도=∞)는 정규분포ˆ
2σ
Sampling distribution 확률분포함수
대표본(n>20~30): 중심극한정리에 의해
x=θn
xVxE )(,)( σμ ==
표본 분산 분포:
)1,0(~),(~2
Nxn
Nxσμσμ −⇒
)1()1(2s
분포함수 관련 성질
)1(~)1( 2 −− nn χσ
)(~)1,0( mtN
그러므로 소표본, 정규분포 가정하에서 (모 표준편차 σ 모를 때)
모표준편차 σ를 알면 s대신 σ를 사용하면 된다.
)(/)(2 mrχ
용
)1(~/
−− nt
nsx μ
http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수
Statistics for Business and Economics (Spring, 2008)57
Univariate Analysis정규성 검정 (Normality Test)
표본분포가정규분포인가?
⇔모집단의 분포는 정규분포인가?
검정방법
Kolmogorov-Smirnov D statistic
Shapiro-Wilk W statistic
Anderson-Darling AD statisticAnderson-Darling AD statistic
활용
소표본 모평균 검정)( 2∑ EO
k
소표본 모분산 검정 )1(~)(
21
2
−−=∑ −
= = ckdfE
EOT
i
iii
χ
|)()(| xFxFSup zex
−
http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수
Statistics for Business and Economics (Spring, 2008)58
Univariate Analysis모평균(μ) 신뢰구간
대표본 (σ를 알면 s 대신사용하면된다) 신뢰구간 신뢰구간의미
종류 100(1-α)%신뢰구간
zxzx σμσ +≤≤
종류 100(1-α)%신뢰구간
상한
양측nszx αμ +≤
)t(n-Nz 1))1,0((~ or
2/α 2/α≤
−≤
x/μ
표본의크기결정 (신뢰구간측면)
nzx
nzx μ αα 2/2/ +≤≤−양측
하한nszx
nszx 2/2/ αα μ +≤≤−
μα ≤− nszx
)1(2/2/ −= ntzU αα or ns /
)1(2/2/ −−= n-tzL αα or
소표본 (모집단정규분포가정하에서) 신뢰구간
σ모를 때, σ 알면 정규분포사용하면 된다.
허용오차 (margin of error) E 개념을 이용한다.
2
22/
2/)(
Ezn
nzE σσ αα =⇒=
In-class Exercise (HW#8 due 05.01)
(#1) OO 식당을 찾는 손님이 지출하는 비용의 표준편차는 5$이다. 식당을 찾은 손님 49명을 조사한 결과 평균 24.8$을 지출하고 있었다 OO 식당 고객의 평균 지출 비용에 대한 95% 신뢰구간?
종류 100(1-α)%신뢰구간
상한nsntx )1( −+≤ αμ
었다. OO 식당 고객의 평균 지출 비용에 대한 95% 신뢰구간?
(#2) 모집단의 표준편차는 40이다. 95% 신뢰구간의 허용오차가10 가 되게 하려면 표본의 크기는 얼마이어야 하나?
(#3) 모집단 데이터의 범위가 36이었다. 모평균 95% 신뢰구간에서 허용오차가 3이려면 표본 데이터의 개수는 얼마?
양측
하한
nsntx
nsntx )1()1( 2/2/ −+≤≤−− αα μ
μα ≤−−sntx )1(
http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수
Statistics for Business and Economics (Spring, 2008)59
서 허용오차가 3이려면 표본 데이터의 개수는 얼마?n
Univariate Analysis모평균(μ) 가설검정
대표본 표본의크기결정 (가설검정)
단측검정 기준단측 하한 양측 단측상한1종 오류, 2종 오류 미리결정
모분산알아야 한다귀무가설
대립가설
검정통계량
01 : μμ H
xT 0μ−= α
귀무가설 H0: μ=μ0
기각 규칙(p-값 사용)
기각역
nsT
/=
αzT −≤ 2/|| αzT ≥ αzT ≥
α≤− valuep0μ
β
대립가설 Ha: μ
Univariate AnalysisIn-class Exercise (HW#8 due 05.01)
#4
정규 정규분포를 따르는 분포로부터 (10, 8, 12, 15, 13, 11, 6, 5) 크
#8
귀무가설: μ=120(생산 공정 기준), 대립가설 μ≠120 유의수준 5%에서 가기 8인 표본을 추출하였다. 모집단 평균에 대한 95% 신뢰구간?
#5
작년까지 통계학 시험 평균은 47점, 표준편차는 10이었다. 올해 수강생 성적이 달라졌는지 알아보기 위하여 수강생 100명을 표본 조
설검정하려고 한다. 공정 기준이 117일 때 기준에 미달한다고 결론내릴확률을 98%로하고 싶다. 모집단의 표준편차는 2로 알려져있다. 표본의크기는?
#9
사한 결과 49점이었다. 좋아졌다고 할 수 있나? 유의수준 5%
적절한 신뢰구간을 구하시오.
#6
자동차의 연비가 30마일(갤론당) 이상이라고 주장한다 진위를 알자동차의 연비가 30마일(갤론당) 이상이라고 주장한다. 진위를 알아보기 위하여 50번 테스트 한 결과 평균 29.5마일, 표준편차는1.7마일이었다. 유의수준 5%
기각역사용 / 유의확률사용
적절한 신뢰구간을 구하시오
#10
적절한 신뢰구간을 구하시오.
#7
작년 주가 한 주당 배당 액이 평균 3$이었다. 올해 한 주당 배당 액이 달라졌는지 알아보기 위하여 10명을 조사한 결과 평균이 3.09 분산이 0 465였다 유의수준 0 05분산이 0.465였다. 유의수준=0.05
기각역사용 / 유의학률사용
위에서 작년보다 올랐는지 알아보기 위해 조사하였다면?
기각역사용 / 유의확률사용
http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수
Statistics for Business and Economics (Spring, 2008)61
Univariate AnalysisIn-class Exercise (HW#8 due 05.01)
#11
#12
#13
http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수
Statistics for Business and Economics (Spring, 2008)62
Univariate Analysis모평균(μ) 추론 with Empirical Data
데이터노트북평가 NOTEBOOK.xls 히스토그램
우로 치우침
상자수염그리기
이상치
정규성진단결과
유의확률=0.037(AD값=0.755)
귀무가설(정규분포 따른다) 기각
http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수
Statistics for Business and Economics (Spring, 2008)63
귀무가설(정규분포 따른다) 기각
Univariate Analysis모평균(μ) 추론 with Empirical Data (cont.)
이상치포함 변수변환 (data transformation)
분포의 형태를 정규분포화 한 후 일변량 분석,
이상치제외
우로 치우친 분포▷ Log 변환, √변환
자연로그변환(변수명: LN) 후 나무상자 그림을 그렸다.
치우침문제가 해결되지 않은것처럼 보이지만
정규성검정결과: AD=0 706 p=0 05이므로 정규분포라 할 수 있다평균 추정치 overestimate 문제 완화
추정치 분산 줄어듬, 신뢰구간 폭 좁아짐.
정규성검정결과: AD=0.706, p=0.05이므로 정규분포라 할 수 있다.
자연로그변환 데이터로부터 신뢰구간을구하고 이것에 E를 해 주면원데이터신뢰구간, 이전보다 줄어듬
95% 신뢰구간: (76.6, 80.05)
http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수
Statistics for Business and Economics (Spring, 2008)64
Univariate Analysis모평균(μ) 추론 with Empirical Data (2)
데이터 n=30, 국가별주식시장가치변화율 (1988)
WORLD.XLS
in SPSS
http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수
Statistics for Business and Economics (Spring, 2008)65
Univariate Analysis모평균(μ) 추론 with Empirical Data (2)
이상치 2개제외
문제 해결
대표본(n>30)이므로 정규성 검정 필요 없음, SPSS에서 소표본일경우 어디서 하는지 알려주는 센스
정규분포따른다. 이것이 CLT? no way
년변화율 평균이 이었다 년에 올랐다고 할 수 있나? 1987년변화율 평균이 22이었다. 1988년에 올랐다고 할 수 있나? 유의수준 5%, 적절한 신뢰구간도 구하시오.
http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수
Statistics for Business and Economics (Spring, 2008)66
Univariate AnalysisIn-class Exercise (HW#9 due 05.08)
#1 데이터 GULFVIEW.XLS
Real estate 회사에서 분양하는 Gulf view condominium의 리
#4
스트 가격, 판매가격, 판매까지 걸린 시간을 조사한 데이터이다. (n=40, 단위 1,000$)
판매 가격에 대한 95% 신뢰구간을 구하시오.
판매까지걸리는 시간에 대한 95% 신뢰구간을 구하시오.
Real estate 회사에서 분양하는 No Gulf view condominium의리스트 가격, 판매가격, 판매까지 걸린 시간을 조사한 데이터이다. (n=18, 단위 1,000$)
판매가격에 대한 95% 상한 신뢰구간을 구하시오.
판매까지걸리는 시간에 대한 95% 상한 신뢰구간을 구하시오.
#2
WEBSITE.XLS 웹사이트 방문회수 데이터
95% 신뢰구간을 구하시오95% 신뢰구간을 구하시오.
방문회수가 9000번 이상이라 할수 있나? 유의수준 5% 적절한신뢰구간을구하시오.
#3
OPTIONS XLS 기업의 배당액(단위 만$)을 조사하였다OPTIONS.XLS 기업의 배당액(단위:100만$)을 조사하였다.
이상치가있으면 제외하시오. 그리고 95% 신뢰구간을 구하시오.
치우침을해결한 후(적절한 변환) 95% 신뢰구간을 구하시오.
작년배당액이 275였다. 낮아졌다고 할 수 있나? 유의수준 5%, 적절한신뢰구간을 구하시오
http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수
Statistics for Business and Economics (Spring, 2008)67
신뢰구간을 구하시오.