15
Univariate Analysis 개념 concept 정의 분석 대상인 변수가 하나인 경우 사용되는 분석 방법 모집단 Unknown 확률분포함수 f Xi 의 형태 측정형: 대상 개체의 실제 관측치 분류형: 관측 개체가 속하는 범주, 베르누이 시행의 경우에는 (0, 1) x~f(x; θ) 확률분포함수 f 적합성 검정 모수 parameter θ 평균 μ 분산 σ 2 비율 p 일변분석 ) ; ( ) ; ( ) ; ( ~ ) , , , ( 2 1 2 1 θ θ θ n n x f x f x f x x x " 표본 비율 p Random sample (확률표본) Independently and identically ) ( ˆ θ 그래프 분석 통계량 분석 통계량 ) , , , ( 2 1 n x x x g = θ 추정치 ) ˆ ( θ h t = 검정통계량 모집단 분포 통계량 이용 모수 추론에 대한 타당성 확보 통계량 분석 모수 추정 및 가설검정 ) , , , ( ˆ 2 1 n x x x g = θ 점 추정 ) 1 ( ) ) ˆ ( ( α θ = U h L P 구간 추분류형 바 차트, 파이 차트 측정형 히스토그램 상자 수염 그림 분류형 비율 측정형 평균 분산 ) 1 ( ) ) ( ( α θ U h L P α θ = ) ) ˆ ( ( RR h P 가설 검정 http://wolfpack.hnu.ac.kr 한남대학교 통계학과 권세혁교수 Statistics for Business and Economics (Spring, 2008) 53

Univariate SBE 20080424 - hnuwolfpack.hnu.ac.kr/Spring2008/S4BE08/Univariate SBE... · 2020. 11. 19. · 일변량추론요약 Univariate Analysis 모비율p 모평균μ 모분산σ2

  • Upload
    others

  • View
    10

  • Download
    0

Embed Size (px)

Citation preview

  • Univariate Analysis개념 concept

    정의

    분석 대상인 변수가 하나인 경우 사용되는 분석 방법 모집단Unknown

    확률분포함수 fXi 의 형태

    측정형: 대상 개체의 실제 관측치

    분류형: 관측 개체가 속하는 범주, 베르누이 시행의 경우에는 (0, 1)

    x~f(x; θ)확률분포함수 f•적합성 검정모수 parameter θ•평균 μ•분산 σ2비율 p

    일변량분석

    );();();(~),,,( 2121 θθθ nn xfxfxfxxx …표본

    •비율 pRandom sample (확률표본)Independently and identically

    )(θ̂량

    그래프분석통계량분석

    통계량),,,( 21 nxxxg …=θ추정치

    )ˆ(θht =검정통계량

    •모집단분포

    •통계량이용모수추론에대한 타당성확보

    통계량분석

    •모수추정및가설검정),,,(ˆ 21 nxxxg …=θ점 추정

    )1())ˆ(( αθ −=≤≤ UhLP구간 추정분류형

    •바차트, 파이차트

    측정형

    •히스토그램

    •상자수염그림

    분류형

    •비율

    측정형

    •평균

    •분산

    )1())(( αθ ≤≤ UhLP정

    αθ =⊆ ))ˆ(( RRhP가설 검정

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)53

  • Univariate Analysis그래프 분석 의미 (항상 분석 시작점)

    그래프내용

    분류형: 파이 차트 (비율)

    측정형: 히스토그램(분포 형태, 봉우리), 나무상자 그림(이상치)

    표본데이터그래프의미

    표본 분포 모집단의 분포와 동일표본 분포, 모집단의 분포와 동일

    치우침 (히스토그램, 상자-수염그림)

    평균을 사용해 추론해도 될 것인가? 판단평 용

    대표본: CLT에 의해 OK

    소표본: 정규성 검정 필요

    정규분포를따르지 않으면 변수변환후 (가장 널리사용하는 방법이LOG 변환 x2 변환) 비모수 검정 필요LOG 변환, x 변환) 비모수 검정 필요

    봉우리개수 (히스토그램)

    봉유리가 2개 이상이면 집단을 나누어 일변량 분석을 실시한다.

    이상치 (상자 수염그림)

    제거한 후 일변량 분석을 실시한다.

    때로는 이상치는 informative 관측치일 수 있으니 원인을 찾는다

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)54

    때로는 이상치는 informative 관측치일 수 있으니 원인을 찾는다.

  • Univariate Analysis일변량 추론 요약

    모비율 p 모평균 μ 모분산 σ2

    표본비율표본비율 표본평균표본평균 표본분산표본분산

    nxxn

    ii /

    1∑==

    )1/()(1

    22 −∑ −==

    nxxsn

    iineventsofp / #ˆ =

    대표본, min(pq, npq)>5대표본, min(pq, npq)>5 대표본, n>20~30대표본, n>20~30 모집단정규분포 가정모집단정규분포 가정

    pq )1,0(~ Nx μ−

    )1( 22− sn

    소표본

    유의확률개념 이용

    소표본

    유의확률개념 이용

    소표본, 모집단 정규분포 가정소표본, 모집단 정규분포 가정

    ),(~ˆnpqpNp

    )1,0(/

    Nns

    −x μ

    )1(~)1( 22 −− nsn χσ

    )1(~/

    −− nt

    nsx μ

    )),(~(# pnBinomialofeventsP

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)55

  • Univariate Analysis모평균(μ)추론 개요

    모집단 Target parameter이상치이상치•상자수염그림

    •이상치제거

    •상자수염그림

    •이상치제거x~f(x; θ)

    • θ = 모평균 μ

    Nuisance Parameter •분산 σ2

    진단이상치제거이상치제거

    추정

    •표본평균

    •모분산(σ2)을모를경우표본분

    산(s2)으로추정

    •표본평균

    •모분산(σ2)을모를경우표본분

    산(s2)으로추정

    대표본

    )3,,12,20( 21 === nxxx …표본

    Random sample (확률표본)Independently and identically

    ˆ

    산(s )으로추정산(s )으로추정

    가설검정•정규분포사용 (CLT)•정규분포사용 (CLT)

    OO 학과학생들의일주일공부시간

    통계량x=θ추정치

    )1(~/

    )ˆ( −−=== ntzns

    xxht 혹은μθ검정통계량

    정규성

    •히스토그램: 치우침

    •정규성검정: (변수변환, 비모수검정)

    •히스토그램: 치우침

    •정규성검정: (변수변환, 비모수검정)소표본

    OO 학과학생들의일주일공부시간

    모수 parameter: 공부시간 평균

    추론의시작점

    이상치

    •상자수염그림

    •이상치진단, 제거

    •상자수염그림

    •이상치진단, 제거

    •표본평균•표본평균

    모수의 MVUE (Minimum Variance unbiased estimator)

    점추정치

    MVUE의 sampling distribution

    추정•모분산(σ2)을모를경우표본분산(s2)

    으로추정

    •모분산(σ2)을모를경우표본분산(s2)

    으로추정

    가설검정가설검정 •T분포사용•T분포사용

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)56

    가설검정가설검정 분 사용분 사용

  • Univariate Analysis모평균(μ)추론 개요

    점추정치 (point estimator) 정규분포와 t-분포

    t(자유도=∞)는 정규분포ˆ

    Sampling distribution 확률분포함수

    대표본(n>20~30): 중심극한정리에 의해

    x=θn

    xVxE )(,)( σμ ==

    표본 분산 분포:

    )1,0(~),(~2

    Nxn

    Nxσμσμ −⇒

    )1()1(2s

    분포함수 관련 성질

    )1(~)1( 2 −− nn χσ

    )(~)1,0( mtN

    그러므로 소표본, 정규분포 가정하에서 (모 표준편차 σ 모를 때)

    모표준편차 σ를 알면 s대신 σ를 사용하면 된다.

    )(/)(2 mrχ

    )1(~/

    −− nt

    nsx μ

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)57

  • Univariate Analysis정규성 검정 (Normality Test)

    표본분포가정규분포인가?

    ⇔모집단의 분포는 정규분포인가?

    검정방법

    Kolmogorov-Smirnov D statistic

    Shapiro-Wilk W statistic

    Anderson-Darling AD statisticAnderson-Darling AD statistic

    활용

    소표본 모평균 검정)( 2∑ EO

    k

    소표본 모분산 검정 )1(~)(

    21

    2

    −−=∑ −

    = = ckdfE

    EOT

    i

    iii

    χ

    |)()(| xFxFSup zex

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)58

  • Univariate Analysis모평균(μ) 신뢰구간

    대표본 (σ를 알면 s 대신사용하면된다) 신뢰구간 신뢰구간의미

    종류 100(1-α)%신뢰구간

    zxzx σμσ +≤≤

    종류 100(1-α)%신뢰구간

    상한

    양측nszx αμ +≤

    )t(n-Nz 1))1,0((~ or

    2/α 2/α≤

    −≤

    x/μ

    표본의크기결정 (신뢰구간측면)

    nzx

    nzx μ αα 2/2/ +≤≤−양측

    하한nszx

    nszx 2/2/ αα μ +≤≤−

    μα ≤− nszx

    )1(2/2/ −= ntzU αα or ns /

    )1(2/2/ −−= n-tzL αα or

    소표본 (모집단정규분포가정하에서) 신뢰구간

    σ모를 때, σ 알면 정규분포사용하면 된다.

    허용오차 (margin of error) E 개념을 이용한다.

    2

    22/

    2/)(

    Ezn

    nzE σσ αα =⇒=

    In-class Exercise (HW#8 due 05.01)

    (#1) OO 식당을 찾는 손님이 지출하는 비용의 표준편차는 5$이다. 식당을 찾은 손님 49명을 조사한 결과 평균 24.8$을 지출하고 있었다 OO 식당 고객의 평균 지출 비용에 대한 95% 신뢰구간?

    종류 100(1-α)%신뢰구간

    상한nsntx )1( −+≤ αμ

    었다. OO 식당 고객의 평균 지출 비용에 대한 95% 신뢰구간?

    (#2) 모집단의 표준편차는 40이다. 95% 신뢰구간의 허용오차가10 가 되게 하려면 표본의 크기는 얼마이어야 하나?

    (#3) 모집단 데이터의 범위가 36이었다. 모평균 95% 신뢰구간에서 허용오차가 3이려면 표본 데이터의 개수는 얼마?

    양측

    하한

    nsntx

    nsntx )1()1( 2/2/ −+≤≤−− αα μ

    μα ≤−−sntx )1(

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)59

    서 허용오차가 3이려면 표본 데이터의 개수는 얼마?n

  • Univariate Analysis모평균(μ) 가설검정

    대표본 표본의크기결정 (가설검정)

    단측검정 기준단측 하한 양측 단측상한1종 오류, 2종 오류 미리결정

    모분산알아야 한다귀무가설

    대립가설

    검정통계량

    01 : μμ H

    xT 0μ−= α

    귀무가설 H0: μ=μ0

    기각 규칙(p-값 사용)

    기각역

    nsT

    /=

    αzT −≤ 2/|| αzT ≥ αzT ≥

    α≤− valuep0μ

    β

    대립가설 Ha: μ

  • Univariate AnalysisIn-class Exercise (HW#8 due 05.01)

    #4

    정규 정규분포를 따르는 분포로부터 (10, 8, 12, 15, 13, 11, 6, 5) 크

    #8

    귀무가설: μ=120(생산 공정 기준), 대립가설 μ≠120 유의수준 5%에서 가기 8인 표본을 추출하였다. 모집단 평균에 대한 95% 신뢰구간?

    #5

    작년까지 통계학 시험 평균은 47점, 표준편차는 10이었다. 올해 수강생 성적이 달라졌는지 알아보기 위하여 수강생 100명을 표본 조

    설검정하려고 한다. 공정 기준이 117일 때 기준에 미달한다고 결론내릴확률을 98%로하고 싶다. 모집단의 표준편차는 2로 알려져있다. 표본의크기는?

    #9

    사한 결과 49점이었다. 좋아졌다고 할 수 있나? 유의수준 5%

    적절한 신뢰구간을 구하시오.

    #6

    자동차의 연비가 30마일(갤론당) 이상이라고 주장한다 진위를 알자동차의 연비가 30마일(갤론당) 이상이라고 주장한다. 진위를 알아보기 위하여 50번 테스트 한 결과 평균 29.5마일, 표준편차는1.7마일이었다. 유의수준 5%

    기각역사용 / 유의확률사용

    적절한 신뢰구간을 구하시오

    #10

    적절한 신뢰구간을 구하시오.

    #7

    작년 주가 한 주당 배당 액이 평균 3$이었다. 올해 한 주당 배당 액이 달라졌는지 알아보기 위하여 10명을 조사한 결과 평균이 3.09 분산이 0 465였다 유의수준 0 05분산이 0.465였다. 유의수준=0.05

    기각역사용 / 유의학률사용

    위에서 작년보다 올랐는지 알아보기 위해 조사하였다면?

    기각역사용 / 유의확률사용

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)61

  • Univariate AnalysisIn-class Exercise (HW#8 due 05.01)

    #11

    #12

    #13

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)62

  • Univariate Analysis모평균(μ) 추론 with Empirical Data

    데이터노트북평가 NOTEBOOK.xls 히스토그램

    우로 치우침

    상자수염그리기

    이상치

    정규성진단결과

    유의확률=0.037(AD값=0.755)

    귀무가설(정규분포 따른다) 기각

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)63

    귀무가설(정규분포 따른다) 기각

  • Univariate Analysis모평균(μ) 추론 with Empirical Data (cont.)

    이상치포함 변수변환 (data transformation)

    분포의 형태를 정규분포화 한 후 일변량 분석,

    이상치제외

    우로 치우친 분포▷ Log 변환, √변환

    자연로그변환(변수명: LN) 후 나무상자 그림을 그렸다.

    치우침문제가 해결되지 않은것처럼 보이지만

    정규성검정결과: AD=0 706 p=0 05이므로 정규분포라 할 수 있다평균 추정치 overestimate 문제 완화

    추정치 분산 줄어듬, 신뢰구간 폭 좁아짐.

    정규성검정결과: AD=0.706, p=0.05이므로 정규분포라 할 수 있다.

    자연로그변환 데이터로부터 신뢰구간을구하고 이것에 E를 해 주면원데이터신뢰구간, 이전보다 줄어듬

    95% 신뢰구간: (76.6, 80.05)

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)64

  • Univariate Analysis모평균(μ) 추론 with Empirical Data (2)

    데이터 n=30, 국가별주식시장가치변화율 (1988)

    WORLD.XLS

    in SPSS

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)65

  • Univariate Analysis모평균(μ) 추론 with Empirical Data (2)

    이상치 2개제외

    문제 해결

    대표본(n>30)이므로 정규성 검정 필요 없음, SPSS에서 소표본일경우 어디서 하는지 알려주는 센스

    정규분포따른다. 이것이 CLT? no way

    년변화율 평균이 이었다 년에 올랐다고 할 수 있나? 1987년변화율 평균이 22이었다. 1988년에 올랐다고 할 수 있나? 유의수준 5%, 적절한 신뢰구간도 구하시오.

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)66

  • Univariate AnalysisIn-class Exercise (HW#9 due 05.08)

    #1 데이터 GULFVIEW.XLS

    Real estate 회사에서 분양하는 Gulf view condominium의 리

    #4

    스트 가격, 판매가격, 판매까지 걸린 시간을 조사한 데이터이다. (n=40, 단위 1,000$)

    판매 가격에 대한 95% 신뢰구간을 구하시오.

    판매까지걸리는 시간에 대한 95% 신뢰구간을 구하시오.

    Real estate 회사에서 분양하는 No Gulf view condominium의리스트 가격, 판매가격, 판매까지 걸린 시간을 조사한 데이터이다. (n=18, 단위 1,000$)

    판매가격에 대한 95% 상한 신뢰구간을 구하시오.

    판매까지걸리는 시간에 대한 95% 상한 신뢰구간을 구하시오.

    #2

    WEBSITE.XLS 웹사이트 방문회수 데이터

    95% 신뢰구간을 구하시오95% 신뢰구간을 구하시오.

    방문회수가 9000번 이상이라 할수 있나? 유의수준 5% 적절한신뢰구간을구하시오.

    #3

    OPTIONS XLS 기업의 배당액(단위 만$)을 조사하였다OPTIONS.XLS 기업의 배당액(단위:100만$)을 조사하였다.

    이상치가있으면 제외하시오. 그리고 95% 신뢰구간을 구하시오.

    치우침을해결한 후(적절한 변환) 95% 신뢰구간을 구하시오.

    작년배당액이 275였다. 낮아졌다고 할 수 있나? 유의수준 5%, 적절한신뢰구간을 구하시오

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)67

    신뢰구간을 구하시오.