View
3
Download
0
Category
Preview:
Citation preview
1/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
통계학
—확률 이론 II—
손호성
한국보건사회연구원
2017년 5월 22일(월요일)
강의 슬라이드 5-2
손호성 슬라이드 5-2: 확률 이론 II
2/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
목차
1 확률변수의 기대값(Expected Value)과 분산
2 조건부 확률(Conditional Probability)
손호성 슬라이드 5-2: 확률 이론 II
3/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
지난 시간 복습
통계적 추론의 논리: 모집단에서 표본을 무작위로 ‘여러 번’ 추출하면추출분포(sampling distribution)의 모양, 중앙, 그리고 변이에 일정한패턴이 생김
=⇒ 우리가 갖고 있는 하나의 표본을 통해 도출한 결론이 모집단과일치하는지 안 하는지에 대한 판단을 할 수 있음
수학적 확률이론이 위 통계적 추론의 논리가 성립함을 증명해줌
=⇒ 확률이론이 있기에 통계학의 논리를 연구에 활용할 수 있는 것임
확률은 어떤 것의 ‘반복을 무수히 많이 했을 때’를 기술하는 숫자!
손호성 슬라이드 5-2: 확률 이론 II
4/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
지난 시간 복습
몇 가지 중요한 용어 배움
1. 두 사건의 독립성(independence): 사건 A가 발생했다는 사실이 사건 B가발생할 확률에 아무런 영향을 주지 않을 때 ‘두 사건 A와 B는 독립(independent)
=⇒ 두 번 토익 연달아 치뤘을 때 첫 번째 토익 점수와 두 번째 토익점수는 독립이 아님!
=⇒ 두 사건이 독립이면 P (A ∩B) = P (A)P (B)
2. 확률변수(random variable): 어떤 실험이나 행위를 하기 전에 변수 X가취하는 값이 무엇인지 ‘확실하게’ 예측할 수 없을 때 그런 변수를확률변수라고 함
=⇒ 동전 던지기 결과, 통계량(x̄, β̂), ...
손호성 슬라이드 5-2: 확률 이론 II
5/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
지난 시간 복습
자료의 분포의 중앙(평균), 변이(산포도), 그리고 모양을 검토했듯이확률변수의 추출분포의 중앙, 변이, 그리고 모양을 검토해야 함!
확률변수(X)의 추출분포의 중앙(평균)? =⇒ 기대값(expected value)
확률변수의 기대값은 E(X)라고 표기
다음과 같은 것들의 차이점을 분명히 알고 있어야 함:
1. E(X) vs. X
2. E(X) vs. x̄
3. E(x̄) vs. x̄
4. E(β̂) vs. β̂
손호성 슬라이드 5-2: 확률 이론 II
6/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
통계적 추정과 대수의 법칙(Law of Large Numbers)확률변수의 기대값의 규칙확률변수의 변이: 분산(Variance)확률변수의 분산의 규칙
통계적 추정과 대수의 법칙(Law of Large Numbers)
자꾸 강조를 하지만, 통계학의 논리를 사용하는 목적은 표본을 통해도출한 결과를 토대로 모집단 모수를 추정하는 데 있음
=⇒ 모집단 모수 µ를 추정하기 위해 모집단에서 n개 크기의 표본 한개를 무작위로 추출. 그리고 이 표본의 평균 x̄로 모수 µ를 추정하는것임
다시 강조를 하지만 µ는 모수 그리고 x̄는 통계량!!
여기서 중요한 것은 이 표본 통계량 즉 x̄는 확률변수라는 사실. Why?
=⇒ 왜냐하면 이 통계량 값은 어떤 표본을 추출했냐에 따라 그 값이달라지게 되기 때문
따라서 이 표본 통계량 x̄의 추출분포(sampling distribution)를 이확률변수 x̄의 확률분포라고 간주할 수 있음
손호성 슬라이드 5-2: 확률 이론 II
7/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
통계적 추정과 대수의 법칙(Law of Large Numbers)확률변수의 기대값의 규칙확률변수의 변이: 분산(Variance)확률변수의 분산의 규칙
통계적 추정과 대수의 법칙(Law of Large Numbers)
모집단에서 표본을 무작위로 추출하면 그 표본이 모집단을 잘 대표할확률이 크기 때문에 이 표본을 통해 계산한 x̄는 µ값과 비슷할 것임
=⇒ 따라서 이 x̄를 이용해 모집단 µ를 추정할 합리적인 이유가 있음
하지만 어떤 한 개 표본을 통해 계산한 x̄가 반드시 µ와 완벽하게일치하지는 않을 것임. Why?
=⇒ 추출변이(sampling variance)라는 것이 존재하기 때문
질문:
“왜 x̄가 µ와 완벽하게 일치하지 않고또 어떤 표본을 추출했냐에 따라 x̄ 값이 달라지는데
이 x̄를 이용해서 모집단 µ를 추정할까?”
손호성 슬라이드 5-2: 확률 이론 II
8/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
통계적 추정과 대수의 법칙(Law of Large Numbers)확률변수의 기대값의 규칙확률변수의 변이: 분산(Variance)확률변수의 분산의 규칙
통계적 추정과 대수의 법칙(Law of Large Numbers)
“왜 x̄가 µ와 완벽하게 일치하지 않고또 어떤 표본을 추출했냐에 따라 x̄ 값이 달라지는데
이 x̄를 이용해서 모집단 µ를 추정할까?”
두 가지 사실 때문:
1. x̄가 µ의 비편의 추정량(unbiased estimator)이기 때문
=⇒ 이 추정량을 이용하면 어떤 표본을 통해 도출한 값이 모집단 모수값과 비슷할 확률이 굉장히 큼
2. 한 개의 표본을 추출할 때 표본 수를 크게 하면 통계량 x̄가 모집단 µ와근사하기 때문
=⇒ 이 두 번째 사실이 바로 소위 말하는 대수의 법칙(law of largenumbers, LLN)이라는 것
손호성 슬라이드 5-2: 확률 이론 II
9/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
통계적 추정과 대수의 법칙(Law of Large Numbers)확률변수의 기대값의 규칙확률변수의 변이: 분산(Variance)확률변수의 분산의 규칙
통계적 추정과 대수의 법칙(Law of Large Numbers)
대수의 법칙(LLN)
Definition
대수의 법칙(LLN)은 한 개의 표본을 추출할 때의 표본크기(n)가 커질수록표본 평균 x̄가 모집단 평균 µ에 수렴하게 된다는 것을 의미
이 대수의 법칙은 모집단이 어떤 특성을 갖고 있든 항상 성립하는 법칙!!
손호성 슬라이드 5-2: 확률 이론 II
10/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
통계적 추정과 대수의 법칙(Law of Large Numbers)확률변수의 기대값의 규칙확률변수의 변이: 분산(Variance)확률변수의 분산의 규칙
통계적 추정과 대수의 법칙(Law of Large Numbers)
우리나라 남성의 평균 체중은 68kg이라고 가정. 즉 µ = 68
모집단에서 표본을 무작위로 추출했을 때, 표본의 크기(n)에 따라체중의 표본 평균 x̄가 어떻게 변하는지를 밑의 그림에 표시
손호성 슬라이드 5-2: 확률 이론 II
11/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
통계적 추정과 대수의 법칙(Law of Large Numbers)확률변수의 기대값의 규칙확률변수의 변이: 분산(Variance)확률변수의 분산의 규칙
통계적 추정과 대수의 법칙(Law of Large Numbers)
대수의 법칙이 말하는 것은 ‘모집단이 어떻게 생겼던’ 표본 크기가커질수록 표본평균이 모집단의 평균과 일치하게 된다는 것을 말함
대수의 법칙은 직관적으로 명백:
1. 우리나라에 남성이 20,000,000명이 있다고 가정
2. 이 모집단에서 1,000명을 무작위로 뽑아서 그 1,000명의 체중의 평균을구해보면 그 값이 20,000,000명의 체중의 평균과 정확하게 일치하지는않을 것임
3. 만약 이 모집단에서 19,999,000명을 무작위로 추출하면 어떻게 될까?
=⇒ 이 19,999,000명의 체중의 평균은 20,000,000명의 체중과 완벽하게일치할 것임
손호성 슬라이드 5-2: 확률 이론 II
12/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
통계적 추정과 대수의 법칙(Law of Large Numbers)확률변수의 기대값의 규칙확률변수의 변이: 분산(Variance)확률변수의 분산의 규칙
통계적 추정과 대수의 법칙(Law of Large Numbers)
이 시점에서 많은 사람들이 질문을 하는 내용:
“그럼 도대체 얼마나 표본의 크기가 커야 하나요?”
위 질문에 대한 정확한 답은 없지만 일단 대수의 법칙이 성립하는 표본의
크기는 모집단의 변이(variability)가 얼마나 크냐에 달려 있음
모집단 관측치들의 값의 변이가 매우 크다면, 아무래도 표본수가 많이 커야 그모집단을 잘 대표할 수 있을 것임
극단적인 예로 만약 모집단 관측치 값들에 변이가 없다고 하면, 즉 모든 관측치값들이 동일한 값을 갖고 있으면, 이런 경우에는 표본수가 단 한 개면 족함
우리나라 임금근로자의 평균 임금을 추정하는 상황과 우리나라 가구의 평균
차량 소유량을 추정하는 상황이 있다고 한다면 어떤 경우에 좀 더 적은
표본수가 필요할까?
=⇒ 후자! Why? 대부분의 가구는 차를 3대 이상 갖고 있지 않기 때문에 후자의경우 모집단의 변이가 크지 않기 때문
손호성 슬라이드 5-2: 확률 이론 II
13/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
통계적 추정과 대수의 법칙(Law of Large Numbers)확률변수의 기대값의 규칙확률변수의 변이: 분산(Variance)확률변수의 분산의 규칙
확률변수의 기대값의 규칙
연구를 하다보면 두 개 이상의 확률변수의 기대값을 추정해야할 때가
있음. 그럴 때 다음과 같은 규칙이 굉장히 유용함
규칙 1: X는 확률변수이고 a와 b는 상수이면 다음이 성 립
E(a+ bX) = a+ bE(X)
a+ bX는 확률변수 X를 선형 변환(linear transformation)한 것임
규칙 2: X와 Y 모두 확률변수이면 다음이 성립
E(X + Y ) = E(X) + E(Y )
손호성 슬라이드 5-2: 확률 이론 II
14/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
통계적 추정과 대수의 법칙(Law of Large Numbers)확률변수의 기대값의 규칙확률변수의 변이: 분산(Variance)확률변수의 분산의 규칙
확률변수의 기대값의 규칙
규칙 3: X와 Y 모두 확률변수이면 다음이 성립
E(X − Y ) = E(X)− E(Y )
규칙 4: 규칙 1, 2, 그리고 3을 결합하면 다음과 같은 규칙이 도출됨
E(a+ bX + cY ) = a+ bE(X) + cE(Y ) E(a− bX + cY ) = a− bE(X) + cE(Y )
여기서 한 가지 주의할 점! 위 규칙은 곱셈과 나눗셈과 관련해서 성립할 수도있지만 일반적으로는 성립하지 않음
E(XY ) 6= E(X)E(Y ) E(X/Y ) 6= E(X)/E(Y )
손호성 슬라이드 5-2: 확률 이론 II
15/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
통계적 추정과 대수의 법칙(Law of Large Numbers)확률변수의 기대값의 규칙확률변수의 변이: 분산(Variance)확률변수의 분산의 규칙
확률변수의 기대값의 규칙
문제: X와 Y는 각각 A 대학교에서 학생들이 1학기와 2학기에 수강한 과목 수를나타내는 확률변수임. 이 두 확률변수의 확률분포는 다음과 같음
X가 취하는 값 1 2 3 4 5 6
확률 0.05 0.05 0.13 0.26 0.36 0.15
Y가 취하는 값 1 2 3 4 5 6
확률 0.06 0.08 0.15 0.25 0.34 0.12
이 상태에서 어떤 학생을 A 대학교에서 무작위로 추출했을 때, 이 학생이 1년 동안수강한 과목 수의 기대값은 무엇일까?
답: 문제는 E(X + Y )를 구하라는 것. 규칙 2에 따라 E(X + Y ) = E(X) + E(Y )
E(X) + E(Y ) = (1× 0.05 + 2× 0.05 + 3× 0.13 + 4× 0.26 + 5× 0.36 + 6× 0.15)
+ (1× 0.06 + 2× 0.08 + 3× 0.15 + 4× 0.25 + 5× 0.34 + 6× 0.12)
= 4.28 + 4.09 = 8.37
=⇒ 물론 어떤 학생이 8.37과목을 수강할 수는 없음. 이 8.37은 확률분포의 기대값을 말하는
것임
손호성 슬라이드 5-2: 확률 이론 II
16/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
통계적 추정과 대수의 법칙(Law of Large Numbers)확률변수의 기대값의 규칙확률변수의 변이: 분산(Variance)확률변수의 분산의 규칙
확률변수의 변이: 분산(Variance)
어떤 확률변수의 기대값은 확률변수의 확률분포의 중앙값을 나타내는
것이라고 배움
어떤 분포에 있어서 또 우리가 알아야 할 것은 바로 분포의 변이!
변이를 측정하는 지표는? 분산 혹은 표준편차
=⇒ 따라서 확률분포의 변이를 측정하기 위해 확률변수의 분산에대해서 공부
질문:
“V ar(x̄)와 s2의 차이점은?”
손호성 슬라이드 5-2: 확률 이론 II
17/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
통계적 추정과 대수의 법칙(Law of Large Numbers)확률변수의 기대값의 규칙확률변수의 변이: 분산(Variance)확률변수의 분산의 규칙
확률변수의 변이: 분산(Variance)
이산확률변수 X의 분산은 다음 공식에 의해 구할 수 있음
V ar(X) = σ2X = E
[(X − E(X))
2]
= [x1 − E(X)]2p1 + [x2 − E(X)]2p2 + · · ·+ [xk − E(X)]2pk
=
k∑i=1
(xi − E(X))2pi
이산확률변수의 분산을 구할 때 다음과 같은 대체 공식을 써도 됨
V ar(X) = E(X2)− [E(X)]2
손호성 슬라이드 5-2: 확률 이론 II
18/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
통계적 추정과 대수의 법칙(Law of Large Numbers)확률변수의 기대값의 규칙확률변수의 변이: 분산(Variance)확률변수의 분산의 규칙
확률변수의 변이: 분산(Variance)
V ar(X) = E(X2)− [E(X)]2
증명:
V ar(X) = E[(X − E(X))
2]
= E[X2 − 2XE(X) + [E(X)]2
]= E
(X2)− 2E(X)E(X) + [E(X)]2 (기대값의 규칙에 의해)
= E(X2)− [E(X)]2
=⇒ 기대값 E(X)가 정수가 아닐 때는 대체 공식을 이용해 확률변수의분산을 구하는 게 좀 더 용이함
손호성 슬라이드 5-2: 확률 이론 II
19/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
통계적 추정과 대수의 법칙(Law of Large Numbers)확률변수의 기대값의 규칙확률변수의 변이: 분산(Variance)확률변수의 분산의 규칙
확률변수의 변이: 분산(Variance)
Definition
이산확률변수의 표준편차 SD(X)는
SD(X) =√V ar(X)
다음과 같은 확률분포를 갖고 있는 이산확률변수 X의 분산과표준편차를 계산하시오
X가 취하는 값 0 3
확률 0.4 0.6
답:
1. 우선 E(X) = 0× 0.4 + 3× 0.6 = 1.82. E(X2) = 02 × 0.4 + 32 × 0.6 = 5.43. 따라서, V ar(X) = E(X2)− [E(X)]2 = 5.4− 1.82 = 2.164. 그리고 표준편차는 SD(X) =
√V ar(X) =
√2.16 ≈ 1.47
손호성 슬라이드 5-2: 확률 이론 II
20/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
통계적 추정과 대수의 법칙(Law of Large Numbers)확률변수의 기대값의 규칙확률변수의 변이: 분산(Variance)확률변수의 분산의 규칙
확률변수의 분산의 규칙
기대값에 규칙이 있듯이 분산과 표준편차에도 유용한 규칙이 있음
규칙 1: X가 확률변수이고, a와 b가 상수이면 다음이 성립
V ar(a+ bX) = b2V ar(X)
=⇒ 상수 a가 사라진 것에 주의!
규칙 2: X와 Y가 확률변수일 때 다음이 성립
V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X,Y )
그리고
V ar(X − Y ) = V ar(X) + V ar(Y )− 2Cov(X,Y )
=⇒ 공분산 앞에 있는 기호와 분산 간에 존재하는 부호가 모두 +인것에 주의!!
손호성 슬라이드 5-2: 확률 이론 II
21/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
통계적 추정과 대수의 법칙(Law of Large Numbers)확률변수의 기대값의 규칙확률변수의 변이: 분산(Variance)확률변수의 분산의 규칙
확률변수의 분산의 규칙
규칙 3: X와 Y가 서로 ‘독립’인 확률변수이면 다음이 성립
V ar(X + Y ) = V ar(X) + V ar(Y )
그리고
V ar(X − Y ) = V ar(X) + V ar(Y )
=⇒ 공분산이 사라진 것에 유의!!
확률변수 X가 발생했다는 사실이 확률변수 Y의 발생여부에 아무런영향을 끼치지 않을 때 이 두 확률변수 X와 Y는 독립이라고 함
규칙 3에 따르면 X와 Y가 독립이면, Cov(X,Y ) = 0이고Corr(X,Y ) = 0이 됨
손호성 슬라이드 5-2: 확률 이론 II
22/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
통계적 추정과 대수의 법칙(Law of Large Numbers)확률변수의 기대값의 규칙확률변수의 변이: 분산(Variance)확률변수의 분산의 규칙
확률변수의 분산의 규칙
두 확률변수의 독립성은 통계학 특히 계량경제학에서 매우 중요한 역할을 함
X는 어떤 학생이 통계학 과목을 대학교에 다닐 때 들었는지 안 들었는지를나타내는 확률변수이고 Y는 어떤 학생이 경제학과를 나왔는지 안 나왔는지를나타내는 확률변수
대부분의 경제학과에서는 통계학 과목이 필수 과목으로 등록되어 있기 때문에
만약 어떤 학생이 경제학과를 나왔다면 그 학생이 통계학 과목을 대학생 때
들었을 확률이 굉장히 큼
=⇒ 즉 Y에 대한 정보를 알면 X에 대한 정보를 아는데 도움이 되기 때문에 이경우에는 ‘X와 Y는 독립이 아니고 종속(dependent)이다’라고 함
반면 X가 어떤 학생의 발가락 크기라고 하면 이런 경우에 그 학생이경제학과를 나왔는지 안 나왔는지(Y )에 대한 정보가 있다고 해서 그 학생의발가락 크기(X)를 아는데 아무런 도움이 안됨
=⇒ 따라서 이런 경우에는 X와 Y가 독립!!
손호성 슬라이드 5-2: 확률 이론 II
23/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
통계적 추정과 대수의 법칙(Law of Large Numbers)확률변수의 기대값의 규칙확률변수의 변이: 분산(Variance)확률변수의 분산의 규칙
확률변수의 분산의 규칙
문제: 우리나라 가구가 지출하는 가스비의 평균은 12.5만 원이고표준편차는 7.5만 원임. 그리고 우리나라 가구가 지출하는 전기비의평균은 17.4만 원이고 표준편차는 4.1만 원임. 두 지출비용의상관계수는 −0.55일 때, 우리나라 가구의 가스비 지출과 전기값 지출의합의 기대값과 표준편차를 계산해 보시오
답: X를 가스비 Y를 전기비라고 하면 총 지출은 X + Y로 나타낼 수있음. 물론 X + Y는 확률변수임. 그럼 E(X + Y )는
E(X + Y ) = E(X) + E(Y ) = 12.5 + 17.4 = 29.9
이제 X + Y의 표준편차를 구해야 하는데, 표준편차를 구하기 위해우선 분산을 구해야 함
V ar(X + Y ) = V ar(X) + V ar(Y )− 2Cov(X,Y )
손호성 슬라이드 5-2: 확률 이론 II
24/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
통계적 추정과 대수의 법칙(Law of Large Numbers)확률변수의 기대값의 규칙확률변수의 변이: 분산(Variance)확률변수의 분산의 규칙
확률변수의 분산의 규칙
V ar(X + Y ) = V ar(X) + V ar(Y )− 2Cov(X,Y )
두 확률변수가 독립이면 Cov(X,Y ) = 0이 되어서 분산을 쉽게 구할 수 있지만, 이예에서 두 확률변수 X와 Y가 독립인가?
=⇒ No! Why? 가스는 대개 추울 때, 그리고 전기는 대개 더울 때 많이 사용하게 되기때문에 가스비가 많이 나올 때는 대개 전기비가 낮게 나오고 전기비가 많이 나올 때는
가스비가 적게 나오게 됨
따라서 이 두 확률변수는 독립이 아님. 문제에서 두 지출비용의 상관계수가 −0.55로제시된 이유가 있는 것임
그렇기 때문에 V ar(X + Y )는
V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X,Y )
= 7.52 + 4.12 − 2(0.55)(7.5)(4.1)
= 39.235
=⇒ SD(X + Y ) =√
V ar(X + Y ) =√39.235 ≈ 6.26
손호성 슬라이드 5-2: 확률 이론 II
25/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
조건부 확률(Conditional Probability)
연구를 하다 보면 어떤 사건 A가 일어났다는 전제 하에 어떤 사건 B가 일어날확률이 어떻게 될지 알고 싶을 때가 있음
이 확률을 조건부 확률이라고 함
앞서 어떤 한 사건이 일어날 확률이 다른 사건이 일어날 확률에 영향을 받을 때
우리는 이 두 사건이 종속적이라고 한다고 배웠음
예를 들어 사건 A는 어떤 사람이 대학 학위를 보유하고 있는지를 나타내고사건 B는 어떤 임금근로자의 연봉이 3천만 원 이상이 되는지를 나타낸다고하겠음
이 두 사건은 독립이 아님. Why? ‘무작위로 어떤 임금근로자를 뽑았을 때 이사람의 연봉이 3천만 원 이상일 확률, 즉 P (B)’는 ‘대학 학위를 보유하고 있는임금근로자를 무작위로 뽑았을 때 그 임금근로자(즉 사건 A에 대한 정보가있는)의 연봉이 3천만 원 이상일 확률’과 같지 않기 때문
=⇒ 우리나라는 평균적으로 대학 학위가 있는 임금근로자의 연봉이 그렇지않은 사람의 연봉에 비해 높음
손호성 슬라이드 5-2: 확률 이론 II
26/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
조건부 확률(Conditional Probability)
이 예에서 P (B)는 무조건부(unconditional) 확률
반면 대학 학위를 보유하고 있는 임금근로자가 연봉이 3천만 원 이상일확률은 조건부(conditional) 확률
이 후자의 확률을 표시할 때 P (B|A)라고 표기함
Definition
사건 A가 발생했다는 상황 하에 사건 B가 발생할 조건부 확률은 다음과같이 계산할 수 있음
P (B|A) =P (A ∩B)
P (A), 단 P (A) 6= 0
손호성 슬라이드 5-2: 확률 이론 II
27/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
조건부 확률(Conditional Probability)
P (B|A) =P (A ∩B)
P (A), 단 P (A) 6= 0
위 조건부 확률의 정의에 따르면 다음과 같은 곱셈 법칙이 성립
P (A ∩B) = P (B|A)× P (A)
만약 이 곱셉 법칙을 세 개의 사건에 확장 적용하면 다음과 같은 법칙이
성립
P (A ∩B ∩ C) = P (A)× P (B|A)× P (C|A ∩B)
재밌는 것은 만약 사건 A와 B가 독립이면 다음이 성립
P (B|A) = P (B)
손호성 슬라이드 5-2: 확률 이론 II
28/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
조건부 확률(Conditional Probability)
P (B|A) = P (B)
증명:
P (B|A) =P (A ∩B)
P (A)
=P (A)× P (B)
P (A)(A와 B가 독립이므로)
= P (B)
=⇒ 즉 두 사건이 독립이면 사건 A가 발생했다는 사실을 아는 것이사건 B가 일어날 확률을 아는데 아무런 도움이 안된다는 것임
이 조건부 확률 식을 이용하면 굉장히 유용한 정보를 끄집어 낼 수
있음. 예를 통해 알아보도록 하겠음손호성 슬라이드 5-2: 확률 이론 II
29/ 29
확률변수의 기대값(Expected Value)과 분산조건부 확률(Conditional Probability)
조건부 확률(Conditional Probability)
예: 고등학교 때 운동 선수로 활약한 사람 중 약 5%만이 대학 운동 선수로 활약한다고 함. 그리고 이대학 운동 선수 중에 약 1.7%만이 프로 세계 진입에 성공한다고 함. 그리고 프로선수가 된 선수중에 약 40% 정도만이 3년 이상을 버틴다고 함. 이를 사건화 하면
A = {대학 운동 선수로 활약}B = {프로 세계에 진입}C = {프로에서 3년 버팀}
질문: 고등학교 때 운동 선수로 활약한 사람이 대학 운동 선수로 활약하게 되고 또 프로 세계에진입을 해서 3년 이상 버틸 확률이 얼마나 될까?
답: 질문에서 다음과 같은 확률이 주어졌음:
P (A) = 0.05 P (B|A) = 0.017 P (C|A ∩ B) = 0.4
우리가 알고 싶은 확률은 P (A ∩ B ∩ C):
P (A ∩ B ∩ C) = P (A)× P (B|A)× P (C|A ∩ B) = 0.05× 0.017× 0.4 = 0.00034
=⇒ 즉 10,000명의 운동 선수가 있다고 할 때, 이 중에 약 세명만이 대학에서 운동 선수로 활약하고또 프로에 진입을 한 후 3년 이상을 버티게 된다는 것임
만약 여러분의 자녀가 고등학교 때 하던 공부를 떼려치우고 갑자기 운동 선수를 하겠다고 선언을하면 여러분은 어떻게 하실 건가요?
손호성 슬라이드 5-2: 확률 이론 II
Recommended