Upload
cs-center
View
2.305
Download
0
Embed Size (px)
Citation preview
Лекция 1. Выборочное пространство
Буре В.М., Грауэр Л.В.
ШАД
Санкт-Петербург, 2013
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 1 / 35
Cодержание
Содержание
1 Выборка. Выборочное пространство
2 Эмпирическая вероятностная мера. Гистограмма
3 Теорема Гливенко-Кантелли.
4 Описательная статистика
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 2 / 35
Выборка. Выборочное пространство
Выборка. Выборочное пространство
Рассмотрим случайную величину ξ(ω) : Ω −→ R и вероятностноепространство значений случайной величины
(R,B(R),Pξ),
где B(R) — сигма-алгебра борелевских множеств числовой прямой,Pξ — вероятностная мера такая, что
Pξ(−∞, x ] = Fξ(x) = Pξ 6 x.
Если речь идет о наборе случайных величин (ξ1, . . . , ξn) : Ω −→ Rn, товероятностное пространство определим следующим образом:
(Rn,B(Rn),Pξ) ,
здесь Pξ — совместное распределение случайных величин:
Pξ(−∞, x1]× . . .× (−∞, xn] = Fξ(x1, . . . , xn).
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 3 / 35
Выборка. Выборочное пространство
Часто, в практических задачах, функция распределения неизвестна.Аппроксимация неизвестных функций распределения — одна из задачматематической статистики.
Определение 1
Совокупность взаимно независимых реализаций случайной величины ξобразует выборку X[n] объема n:
X[n] = (X1, . . . ,Xn) ,
где Xi — числовая реализация случайной величины ξ в i-омэксперименте (i = 1, . . . , n).
Определение 2
Случайная величина ξ, реализации которой мы наблюдаем, частоназывается генеральной совокупностью.
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 4 / 35
Выборка. Выборочное пространство
Следует отметить, что требование взаимной независимости сужаетдопустимую область исследований. Однако, требование взаимнойнезависимости наблюдений необходимо для построения строгойматематической теории.Функция распределения выборки строится по функции распределениягенеральной совокупности:
FX[n](x1, . . . , xn) = Fξ(x1) . . .Fξ(xn),
где xi — числовая переменная, соответствующая i-ой координатной оси.Получили выборочное пространство(
Rn,B(Rn),PX[n]
),
соответствующее выборкам объема n, где вероятностная мера PX[n]
взаимно однозначно соответствует функции распределения FX[n].
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 5 / 35
Выборка. Выборочное пространство
Учитывая необходимость предельного перехода, когда n→∞,рассмотрим бесконечномерное пространство:(
R∞,B(R∞),PX[∞]
).
Элементарным событием в этом пространстве является бесконечнаячисловая последовательность (бесконечная выборка).Указанное выше, конечномерное пространство размерности n длявыборок объема n является подпространством бесконечномерногопространства, соответствующим первым n координатам.
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 6 / 35
Выборка. Выборочное пространство
Пусть B ∈ B(Rn), рассмотрим цилиндрическое множество
Jn(B) = x ∈ R∞ : x = (x1, . . . , xn, . . .), (x1, . . . , xn) ∈ B,
тогдаPX[∞]
(Jn(B)) = PX[n](B).
Определение 3
Статистикой будем называть любую борелевскую функцию, заданнуюна выборочном пространстве.
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 7 / 35
Выборка. Выборочное пространство
Если ξ = (ξ1, . . . , ξm)T — случайный вектор, то при проведении экспери-ментов фиксируются значения всей совокупности, получаются взаимнонезависимые вектора
X1 =
X11
X21...
Xm1
, . . . ,Xn =
X1n
X2n...
Xmn
.
Аналогично скалярному случаю можно построить выборочноевероятностное пространство для выборок такого типа.
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 8 / 35
Выборка. Выборочное пространство
Введем обозначения X = Rm, получаем(X n,B(X )⊗ . . .⊗ B(X ),PX[n]
),
гдеPX[n]
(B1 × . . .× Bn) = Pξ(B1)Pξ(B2) . . .Pξ(Bn),
B1 ∈ B(X ), . . . ,Bn ∈ B(X ).
Можно считать, что все построенные конечномерные пространстваявляются проекциями бесконечномерного пространства
(X∞,B(X∞)⊗ . . .⊗ B(X∞),PX∞) .
Элементарными событиями будут бесконечные выборки.
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 9 / 35
Эмпирическая вероятностная мера. Гистограмма
Эмпирическая вероятностная мера. Гистограмма
Пусть имеется генеральная совокупность ξ, представляющая собойслучайную величину, и выборка X[n] = (X1, . . . , Xn).
Определение 4Эмпирическим распределением назовем вероятностную меру,определенную следующим образом
P∗n(B) =ν(B)
n,
где B ∈ B(R), а ν(B) — количество элементов выборки, попавших в B .
Если n фиксировано, и выборка X[n] фиксирована, то P∗n(·) являетсявероятностной мерой на (R,B(R)), следовательно, ей соответствуетединственная функция распределения.
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 10 / 35
Эмпирическая вероятностная мера. Гистограмма
Определение 5Эмпирической функцией распределения называется функция
F ∗n (x) = P∗n(−∞; x ] =ν(−∞; x ]
n, x ∈ R.
Введем порядковые статистики:X(1) = min X1, . . . ,Xn — первая порядковая статистика,X(2) = min
X1, . . . ,Xn \X(1)
— вторая порядковая статистика,
X(3) = minX1, . . . ,Xn \
X(1),X(2)
— третья порядковая статистика,
. . .X(n) = max X1, . . . ,Xn — n-ая порядковая статистика.
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 11 / 35
Эмпирическая вероятностная мера. Гистограмма
Очевидно, что X(1) 6 X(2) 6 . . . 6 X(n). Величины X(1), X(2), . . ., X(n)
образуют вариационный ряд. Если предположить, что все элементывариационного ряда различны, то есть X(1) < X(2) < . . . < X(n), томожно определить эмпирическую функцию распределения следующимобразом:
F ∗n (x) =
0, если x < X(1);1n , если X(1) 6 x < X(2);2n , если X(2) 6 x < X(3);. . .kn , если X(k) 6 x < X(k+1);. . .
1, если x > X(n).
(1)
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 12 / 35
Эмпирическая вероятностная мера. Гистограмма
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 13 / 35
Эмпирическая вероятностная мера. Гистограмма
Имея вариационный ряд, можно построить гистограмму. Возьмеминтервал (a, b), где a < X(1) и X(n) < b, разобьем этот интервал наконечную совокупность непересекающихся промежутков:
a0 = a < a1 < a2 < . . . < am = b,
(ai−1, ai ], i = 1, . . . ,m.
Пусть ni — количество элементов выборки, попавших в полуинтервал(ai−1, ai ]. Тогда
n1 + n2 + . . .+ nm = n,
li = ai − ai−1,
hi =nilin.
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 14 / 35
Эмпирическая вероятностная мера. Гистограмма
Получаем гистограмму:
f ∗n (x) =
0, если x 6 a0;h1, если a0 < x 6 a1;. . .
hm, если am−1 < x 6 am;0, если x > am.
Гистограмма f ∗n (x) — эмпирический аналог плотности распределения.Если в знаменателе при вычислении hi убрать li , получитсягистограмма относительных частот, если, кроме того, в знаменателеубрать n, то получится гистограмма частот ni . Часто при построениигистограммы полагают li = l = const.
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 15 / 35
Эмпирическая вероятностная мера. Гистограмма
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 16 / 35
Теорема Гливенко-Кантелли.
Теорема Гливенко-Кантелли. Теорема о предельномраспределении эмпирических вероятностей
Справедливы следующие теоремы.
Теорема 1
Для любого B ∈ B(R) выполняется:
P∗n(B)п.н.−−−−→
n−→∞Pξ(B). (2)
и для любого x ∈ R выполняется:
F ∗n (x)п.н.−−−−→
n−→∞Fξ(x). (3)
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 17 / 35
Теорема Гливенко-Кантелли.
ДоказательствоОчевидно, что справедливо равенство:
P∗n(B) =1
n
n∑k=1
IXk ∈ B,
все слагаемые в этой сумме случайные величины, они независимы иодинаково распределены. Каждая случайная величина принимаетзначение 1 с вероятностью Pξ(B) и 0 с вероятностью 1−Pξ(B). Очевидныравенства:
PXk ∈ B = Pξ ∈ B = Pξ(B),
тогда EIXk ∈ B = Pξ(B), откуда, учитывая усиленный закон большихчисел Колмогорова следует условие (2):
P∗n(B) =1
n
n∑k=1
IXk ∈ B п.н.−−−−→n−→∞
Pξ(B).
Для доказательства второго утверждения возьмем B = (−∞, x ].
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 18 / 35
Теорема Гливенко-Кантелли.
Теорема 2 (Гливенко-Кантелли)
Пусть заданы функция распределения Fξ(x) и эмпирическая функцияраспределения F ∗n (x), тогда
supx∈R|F ∗n (x)− Fξ(x)| п.н.−−−−→
n−→∞0
Доказательство1. Рассмотрим случай, когда Fξ(x) непрерывна на R. Выберем любоеε > 0, разобьем ось ординат шагом меньше ε, на оси абсцисс получимточки дробления:
−∞ = z0 < z1 < . . . < zr =∞.
При этом:0 ≤ Fξ(zk+1)− Fξ(zk) < ε.
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 19 / 35
Теорема Гливенко-Кантелли.
Введем событие Ak = F ∗n (zk)п−−−−→
n−→∞Fξ(zk), тогда по Теореме (1):
P(Ak) = 1 для всех k = 1, . . . , r − 1.Рассмотрим событие A =
⋂r−1k=1 Ak , тогда справедливо равенство
A =⋃r−1
k=1 Ak .Очевидно, что P(A) ≤
∑r−1k=1 P(Ak) = 0, следовательно, P(A) = 0 или
P(A) = 1.Будем рассматривать только ω ∈ A. В каждой из точек z1,. . .,zr−1выполняется сходимость, тогда существует номер n0 такой, что для всехномеров n ≥ n0 и для любого k = 1, . . . , r − 1 выполнено:
|F ∗n (zk)− Fξ(zk)| < ε.
Возьмем любую точку x ∈ R. Она обязательно попадет в какой-нибудьпромежуток zk < x < zk+1.
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 20 / 35
Теорема Гливенко-Кантелли.
Оценим сверху и снизу разность F ∗n (x)− Fξ(x):
F ∗n (x)− Fξ(x) ≤ F ∗n (zk+1)− Fξ(zk) ≤ F ∗n (zk+1)− Fξ(zk+1) + ε ≤ 2ε,
F ∗n (x)− Fξ(x) ≥ F ∗n (zk)− Fξ(zk+1) ≥ F ∗n (zk)− Fξ(zk)− ε ≥ −2ε,
Следовательно для любого x ∈ R справедливо неравенство:
|F ∗n (x)− Fξ(x)| ≤ 2ε.
Таким образом, мы доказали утверждение о равномерной сходимостис вероятностью единица, так как P(A) = 1.
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 21 / 35
Теорема Гливенко-Кантелли.
2. Pассмотрим случай, когда Fξ(x) может иметь разрывы, то естьсуществует точка x , для которой: Fξ(x − 0) < Fξ(x).Выберем произвольное ε > 0 и такие точки разрыва, для которых имеетместо неравенство:
Fξ(yk)− Fξ(yk − 0) >ε
2.
Таких точек yk конечное число, включаем их в точки дробления. Далеебудем рассматривать участки [yk , yk+1], где yk < yk+1, каждый участокразобьем точками дробления:
yk = y1 < y2 < ... < yl = yk+1,
F (yi+1 − 0)− F (yi+1) < ε.
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 22 / 35
Теорема Гливенко-Кантелли.
Обозначим через zi , i = 1, . . . , r − 1 все получившиеся в итоге точкидробления:
−∞ = z0 < z1 < ... < zr =∞,
Fξ(zk+1 − 0)− Fξ(zk) < ε.
Рассмотрим событияAk = F ∗n (zk)− Fξ(zk) и A−k = F ∗n (zk − 0)− Fξ(zk − 0).Очевидно, что P(Ak) = 1, P(A−k ) = 1, так как Fξ(zk − 0) = Pξ(−∞, zk)и B = (−∞, zk).Рассмотрим A =
⋂r−1k=1(Ak ∩ A−k ). Далее полностью повторяются
рассуждения предыдущего пункта доказательства.
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 23 / 35
Теорема Гливенко-Кантелли.
Теорема 3
Для любого борелевского множества B ∈ B(R) выполняется:
√n (P∗n(B)− Pξ(B))
d−−−−→n−→∞
√Pξ(B)(1− Pξ(B))ζ,
где ζ ∼ N(0, 1).
Доказательство
Справедливо: P∗n(B)− Pξ(B) = 1n
n∑k=1
(IXk ∈ B − Pξ(B)).
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 24 / 35
Теорема Гливенко-Кантелли.
Применим центральную предельную теорему для одинаково распреде-ленных слагаемых:
√n(P∗n(B)− Pξ(B)) =
n∑k=1
(IXk ∈ B − Pξ(B))
√n
.
Из последнего равенства следует доказательство теоремы.
Замечание 1Теоремы 1, 2, 3 справедливы и в многомерном случае.
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 25 / 35
Описательная статистика
Описательная статистика
В описательную статистику входят оценки числовых характеристикгенеральной совокупности ξ, найденные по имеющейся у статистикавыборке X[n] = (X1, . . . ,Xn) объема n, а также всевозможные функцииот выборки.
Если элементы одномерной выборки упорядочить по возрастанию(построить вариационный ряд X(1) 6 X(2) 6 . . . 6 X(n)) и отметитьповторяемость наблюдений (подсчитать частоту), то получитсястатистический ряд, построенный по одномерной выборке X[n].
Разность между максимальным и минимальным элементами выборкиназывается размахом, R = Xmax − Xmin.
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 26 / 35
Описательная статистика
При большом объеме выборки ее элементы иногда объединяются вгруппы, представляя результаты опытов в виде группированногостатистического ряда.Для этого интервал, содержащий все элементы выборки, разбиваетсяна k непересекающихся интервалов. Обычно разбиение производится наинтервалы одинаковой длины b = R/k . После чего нетрудно определитьчастоты — количества ni элементов выборки, попавших в i-ый интервал.
Статистический ряд часто записывают в виде таблицы. В первой строкетаблицы указывают середины интервалов группировки Xi , а во второй— частоты ni .Подсчитываются также
накопленные частоты∑i
j=1 nj ,относительные частоты ni/n,накопленные относительные частоты
∑ij=1 nj/n.
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 27 / 35
Описательная статистика
Для наглядного представления выборки применяют гистограмму иполигон частот.
Гистограммой частот группированной выборки называется функция,постоянная на интервалах группировки и принимающая на каждом изних значения ni/b. Площадь ступенчатой фигуры равна n.
Аналогично определяется гистограмма относительных частот — площадьпод графиком равна единице. При увеличении объема выборки иуменьшении ширины интервала группировки гистограмма относительныхчастот становится похожей на график плотности распределения генераль-ной совокупности.
Полигоном частот называется ломаная с вершинами в точках (Xi , ni/b),а полигоном относительных частот — ломаная с вершинами в точках(Xi , ni (nb)).Эмпирическая функция распределения определяется равенством (1).
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 28 / 35
Описательная статистика
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 29 / 35
Описательная статистика
Выборочный начальный момент r -го порядка определяется равенством
a∗r =1
n
n∑i=1
X ri ,
если выборка представлена статистическим рядом, то
a∗r =1
n
k∑i=1
niXri ,
выборочный центральный момент r -го порядка определяется равенством
a0∗r =1
n
n∑i=1
(Xi − X
)r,
если выборка представлена статистическим рядом, то
a0∗r =1
n
k∑i=1
ni(Xi − X
)r,
где X = a∗1 = 1n
∑ni=1 Xi — выборочное среднее.
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 30 / 35
Описательная статистика
Выборочная квантиль xp порядка p определяется как элемент вариацион-ного ряда X(1) 6 X(2) 6 . . . 6 X(n) выборки X[n] с номером [np] + 1, где[a] — целая часть числа a.
В описательной статистике используют ряд квантилей, имеющихспециальные названия
персентили (квантили порядков 0.01; 0.02;. . . ;0.99),децили (квантили порядков 0.1; 0.2;. . . ;0.9),квартили (квантили порядков 0.25; 0.5; 0.75).
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 31 / 35
Описательная статистика
Наиболее распространенными характеристиками положения являютсявыборочное среднее,выборочная медиана (медианой называется число, которое делитвариационный ряд на две части, содержащие равное количествоэлементов; если n = 2k + 1, то медианой выборки являетсяэлемент вариационного ряда X(k+1), если n = 2k , то медианойвыборки является число (X(k) + X(k+1))/2),выборочная мода (модой называется элемент выборки, имеющийнаибольшую частоту).
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 32 / 35
Описательная статистика
Наиболее распространенными мерами рассеяния являютсяразмах (размах R = Xmax − Xmin),средний межквартильный размах (три квартили Q1,Q2,Q3 делятвариационный ряд на четыре части с равным числом элементов,тогда средний межквартильный размах равен (Q3 − Q1)/2),персентильный размах (персентильный размах равен разностиперсентилей P90 − P10),дисперсия (дисперсия s2 = a0∗2 ;исправленная дисперсия s2 = ns2/(n − 1))среднее квадратическое отклонение (среднее квадратическоеотклонение s =
√s2).
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 33 / 35
Описательная статистика
В качестве меры относительного разброса используют коэффициентвариации v = s/X , иногда коэффициент записывают в процентахCv = v · 100%.
Для оценки формы распределения служаткоэффициент асимметрии Sk1 = µ∗3/s
3 икоэффициент эксцесса K = µ∗4/s
4 − 3,для нормального распределения теоретические коэффициентыасимметрии и эксцесса, вычисляемые по распределению генеральнойсовокупности, равны нулю.
Еще один показатель асимметрии вычисляется на основе квантилейSk2 = (Q3 − Q1 − 2Q2)/(Q3 − Q1).
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 34 / 35
Описательная статистика
В случае многомерных случайных выборок помимо характеристикположения и рассеивания рассматривают выборочный коэффициенткорреляция (меру линейной связи).Рассмотрим на примере двумерного случайного вектора (ξ, η)T . Пустьвыборка наблюдений объема n(
X1
Y1
), . . . ,
(Xn
Yn
),
тогда коэффициент выборочной корреляциии определяется по формуле
rξ,η =1n
∑ni=1 XiYi − X Y
sX sY
Графически двумерные выборки удобно представлять с помощьюдиаграмм рассеивания.
Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 35 / 35