2013 02 20_statistics_lecture01

Лекция 1. Выборочное пространство

Буре В.М., Грауэр Л.В.

ШАД

Санкт-Петербург, 2013

Буре В.М., Грауэр Л.В. (ШАД) Лекция 1. Выборочное пространство Санкт-Петербург, 2013 1 / 35

Cодержание

Содержание

1 Выборка. Выборочное пространство

2 Эмпирическая вероятностная мера. Гистограмма

3 Теорема Гливенко-Кантелли.

4 Описательная статистика


Выборка. Выборочное пространство


Рассмотрим случайную величину ξ(ω) : Ω −→ R и вероятностноепространство значений случайной величины

(R,B(R),Pξ),

где B(R) — сигма-алгебра борелевских множеств числовой прямой,Pξ — вероятностная мера такая, что

Pξ(−∞, x ] = Fξ(x) = Pξ 6 x.

Если речь идет о наборе случайных величин (ξ1, . . . , ξn) : Ω −→ Rn, товероятностное пространство определим следующим образом:

(Rn,B(Rn),Pξ) ,

здесь Pξ — совместное распределение случайных величин:

Pξ(−∞, x1]× . . .× (−∞, xn] = Fξ(x1, . . . , xn).



Часто, в практических задачах, функция распределения неизвестна.Аппроксимация неизвестных функций распределения — одна из задачматематической статистики.

Определение 1

Совокупность взаимно независимых реализаций случайной величины ξобразует выборку X[n] объема n:

X[n] = (X1, . . . ,Xn) ,

где Xi — числовая реализация случайной величины ξ в i-омэксперименте (i = 1, . . . , n).


Случайная величина ξ, реализации которой мы наблюдаем, частоназывается генеральной совокупностью.



Следует отметить, что требование взаимной независимости сужаетдопустимую область исследований. Однако, требование взаимнойнезависимости наблюдений необходимо для построения строгойматематической теории.Функция распределения выборки строится по функции распределениягенеральной совокупности:

FX[n](x1, . . . , xn) = Fξ(x1) . . .Fξ(xn),

где xi — числовая переменная, соответствующая i-ой координатной оси.Получили выборочное пространство(

Rn,B(Rn),PX[n]

),

соответствующее выборкам объема n, где вероятностная мера PX[n]

взаимно однозначно соответствует функции распределения FX[n].



Учитывая необходимость предельного перехода, когда n→∞,рассмотрим бесконечномерное пространство:(

R∞,B(R∞),PX[∞]

).

Элементарным событием в этом пространстве является бесконечнаячисловая последовательность (бесконечная выборка).Указанное выше, конечномерное пространство размерности n длявыборок объема n является подпространством бесконечномерногопространства, соответствующим первым n координатам.



Пусть B ∈ B(Rn), рассмотрим цилиндрическое множество

Jn(B) = x ∈ R∞ : x = (x1, . . . , xn, . . .), (x1, . . . , xn) ∈ B,

тогдаPX[∞]

(Jn(B)) = PX[n](B).


Статистикой будем называть любую борелевскую функцию, заданнуюна выборочном пространстве.



Если ξ = (ξ1, . . . , ξm)T — случайный вектор, то при проведении экспери-ментов фиксируются значения всей совокупности, получаются взаимнонезависимые вектора

X1 =

X11

X21...

Xm1

, . . . ,Xn =

X1n

X2n...

Xmn

.

Аналогично скалярному случаю можно построить выборочноевероятностное пространство для выборок такого типа.



Введем обозначения X = Rm, получаем(X n,B(X )⊗ . . .⊗ B(X ),PX[n]

),

гдеPX[n]

(B1 × . . .× Bn) = Pξ(B1)Pξ(B2) . . .Pξ(Bn),

B1 ∈ B(X ), . . . ,Bn ∈ B(X ).

Можно считать, что все построенные конечномерные пространстваявляются проекциями бесконечномерного пространства

(X∞,B(X∞)⊗ . . .⊗ B(X∞),PX∞) .

Элементарными событиями будут бесконечные выборки.


Эмпирическая вероятностная мера. Гистограмма


Пусть имеется генеральная совокупность ξ, представляющая собойслучайную величину, и выборка X[n] = (X1, . . . , Xn).

Определение 4Эмпирическим распределением назовем вероятностную меру,определенную следующим образом

P∗n(B) =ν(B)

n,

где B ∈ B(R), а ν(B) — количество элементов выборки, попавших в B .

Если n фиксировано, и выборка X[n] фиксирована, то P∗n(·) являетсявероятностной мерой на (R,B(R)), следовательно, ей соответствуетединственная функция распределения.



Определение 5Эмпирической функцией распределения называется функция

F ∗n (x) = P∗n(−∞; x ] =ν(−∞; x ]

n, x ∈ R.

Введем порядковые статистики:X(1) = min X1, . . . ,Xn — первая порядковая статистика,X(2) = min

X1, . . . ,Xn \X(1)

— вторая порядковая статистика,

X(3) = minX1, . . . ,Xn \

X(1),X(2)

— третья порядковая статистика,

. . .X(n) = max X1, . . . ,Xn — n-ая порядковая статистика.



Очевидно, что X(1) 6 X(2) 6 . . . 6 X(n). Величины X(1), X(2), . . ., X(n)

образуют вариационный ряд. Если предположить, что все элементывариационного ряда различны, то есть X(1) < X(2) < . . . < X(n), томожно определить эмпирическую функцию распределения следующимобразом:

F ∗n (x) =

0, если x < X(1);1n , если X(1) 6 x < X(2);2n , если X(2) 6 x < X(3);. . .kn , если X(k) 6 x < X(k+1);. . .

1, если x > X(n).

(1)





Имея вариационный ряд, можно построить гистограмму. Возьмеминтервал (a, b), где a < X(1) и X(n) < b, разобьем этот интервал наконечную совокупность непересекающихся промежутков:

a0 = a < a1 < a2 < . . . < am = b,

(ai−1, ai ], i = 1, . . . ,m.

Пусть ni — количество элементов выборки, попавших в полуинтервал(ai−1, ai ]. Тогда

n1 + n2 + . . .+ nm = n,

li = ai − ai−1,

hi =nilin.



Получаем гистограмму:

f ∗n (x) =

0, если x 6 a0;h1, если a0 < x 6 a1;. . .

hm, если am−1 < x 6 am;0, если x > am.

Гистограмма f ∗n (x) — эмпирический аналог плотности распределения.Если в знаменателе при вычислении hi убрать li , получитсягистограмма относительных частот, если, кроме того, в знаменателеубрать n, то получится гистограмма частот ni . Часто при построениигистограммы полагают li = l = const.




Теорема Гливенко-Кантелли.

Теорема Гливенко-Кантелли. Теорема о предельномраспределении эмпирических вероятностей

Справедливы следующие теоремы.

Теорема 1

Для любого B ∈ B(R) выполняется:

P∗n(B)п.н.−−−−→

n−→∞Pξ(B). (2)

и для любого x ∈ R выполняется:

F ∗n (x)п.н.−−−−→

n−→∞Fξ(x). (3)



ДоказательствоОчевидно, что справедливо равенство:

P∗n(B) =1

n

n∑k=1

IXk ∈ B,

все слагаемые в этой сумме случайные величины, они независимы иодинаково распределены. Каждая случайная величина принимаетзначение 1 с вероятностью Pξ(B) и 0 с вероятностью 1−Pξ(B). Очевидныравенства:

PXk ∈ B = Pξ ∈ B = Pξ(B),

тогда EIXk ∈ B = Pξ(B), откуда, учитывая усиленный закон большихчисел Колмогорова следует условие (2):

P∗n(B) =1

n

n∑k=1

IXk ∈ B п.н.−−−−→n−→∞

Pξ(B).

Для доказательства второго утверждения возьмем B = (−∞, x ].



Теорема 2 (Гливенко-Кантелли)

Пусть заданы функция распределения Fξ(x) и эмпирическая функцияраспределения F ∗n (x), тогда

supx∈R|F ∗n (x)− Fξ(x)| п.н.−−−−→

n−→∞0

Доказательство1. Рассмотрим случай, когда Fξ(x) непрерывна на R. Выберем любоеε > 0, разобьем ось ординат шагом меньше ε, на оси абсцисс получимточки дробления:

−∞ = z0 < z1 < . . . < zr =∞.

При этом:0 ≤ Fξ(zk+1)− Fξ(zk) < ε.



Введем событие Ak = F ∗n (zk)п−−−−→

n−→∞Fξ(zk), тогда по Теореме (1):

P(Ak) = 1 для всех k = 1, . . . , r − 1.Рассмотрим событие A =

⋂r−1k=1 Ak , тогда справедливо равенство

A =⋃r−1

k=1 Ak .Очевидно, что P(A) ≤

∑r−1k=1 P(Ak) = 0, следовательно, P(A) = 0 или

P(A) = 1.Будем рассматривать только ω ∈ A. В каждой из точек z1,. . .,zr−1выполняется сходимость, тогда существует номер n0 такой, что для всехномеров n ≥ n0 и для любого k = 1, . . . , r − 1 выполнено:

|F ∗n (zk)− Fξ(zk)| < ε.

Возьмем любую точку x ∈ R. Она обязательно попадет в какой-нибудьпромежуток zk < x < zk+1.



Оценим сверху и снизу разность F ∗n (x)− Fξ(x):

F ∗n (x)− Fξ(x) ≤ F ∗n (zk+1)− Fξ(zk) ≤ F ∗n (zk+1)− Fξ(zk+1) + ε ≤ 2ε,

F ∗n (x)− Fξ(x) ≥ F ∗n (zk)− Fξ(zk+1) ≥ F ∗n (zk)− Fξ(zk)− ε ≥ −2ε,

Следовательно для любого x ∈ R справедливо неравенство:

|F ∗n (x)− Fξ(x)| ≤ 2ε.

Таким образом, мы доказали утверждение о равномерной сходимостис вероятностью единица, так как P(A) = 1.



2. Pассмотрим случай, когда Fξ(x) может иметь разрывы, то естьсуществует точка x , для которой: Fξ(x − 0) < Fξ(x).Выберем произвольное ε > 0 и такие точки разрыва, для которых имеетместо неравенство:

Fξ(yk)− Fξ(yk − 0) >ε

2.

Таких точек yk конечное число, включаем их в точки дробления. Далеебудем рассматривать участки [yk , yk+1], где yk < yk+1, каждый участокразобьем точками дробления:

yk = y1 < y2 < ... < yl = yk+1,

F (yi+1 − 0)− F (yi+1) < ε.



Обозначим через zi , i = 1, . . . , r − 1 все получившиеся в итоге точкидробления:

−∞ = z0 < z1 < ... < zr =∞,

Fξ(zk+1 − 0)− Fξ(zk) < ε.

Рассмотрим событияAk = F ∗n (zk)− Fξ(zk) и A−k = F ∗n (zk − 0)− Fξ(zk − 0).Очевидно, что P(Ak) = 1, P(A−k ) = 1, так как Fξ(zk − 0) = Pξ(−∞, zk)и B = (−∞, zk).Рассмотрим A =

⋂r−1k=1(Ak ∩ A−k ). Далее полностью повторяются

рассуждения предыдущего пункта доказательства.



Теорема 3

Для любого борелевского множества B ∈ B(R) выполняется:

√n (P∗n(B)− Pξ(B))

d−−−−→n−→∞

√Pξ(B)(1− Pξ(B))ζ,

где ζ ∼ N(0, 1).

Доказательство

Справедливо: P∗n(B)− Pξ(B) = 1n

n∑k=1

(IXk ∈ B − Pξ(B)).



Применим центральную предельную теорему для одинаково распреде-ленных слагаемых:

√n(P∗n(B)− Pξ(B)) =

n∑k=1

(IXk ∈ B − Pξ(B))

√n

.

Из последнего равенства следует доказательство теоремы.

Замечание 1Теоремы 1, 2, 3 справедливы и в многомерном случае.


Описательная статистика


В описательную статистику входят оценки числовых характеристикгенеральной совокупности ξ, найденные по имеющейся у статистикавыборке X[n] = (X1, . . . ,Xn) объема n, а также всевозможные функцииот выборки.

Если элементы одномерной выборки упорядочить по возрастанию(построить вариационный ряд X(1) 6 X(2) 6 . . . 6 X(n)) и отметитьповторяемость наблюдений (подсчитать частоту), то получитсястатистический ряд, построенный по одномерной выборке X[n].

Разность между максимальным и минимальным элементами выборкиназывается размахом, R = Xmax − Xmin.



При большом объеме выборки ее элементы иногда объединяются вгруппы, представляя результаты опытов в виде группированногостатистического ряда.Для этого интервал, содержащий все элементы выборки, разбиваетсяна k непересекающихся интервалов. Обычно разбиение производится наинтервалы одинаковой длины b = R/k . После чего нетрудно определитьчастоты — количества ni элементов выборки, попавших в i-ый интервал.

Статистический ряд часто записывают в виде таблицы. В первой строкетаблицы указывают середины интервалов группировки Xi , а во второй— частоты ni .Подсчитываются также

накопленные частоты∑i

j=1 nj ,относительные частоты ni/n,накопленные относительные частоты

∑ij=1 nj/n.



Для наглядного представления выборки применяют гистограмму иполигон частот.

Гистограммой частот группированной выборки называется функция,постоянная на интервалах группировки и принимающая на каждом изних значения ni/b. Площадь ступенчатой фигуры равна n.

Аналогично определяется гистограмма относительных частот — площадьпод графиком равна единице. При увеличении объема выборки иуменьшении ширины интервала группировки гистограмма относительныхчастот становится похожей на график плотности распределения генераль-ной совокупности.

Полигоном частот называется ломаная с вершинами в точках (Xi , ni/b),а полигоном относительных частот — ломаная с вершинами в точках(Xi , ni (nb)).Эмпирическая функция распределения определяется равенством (1).





Выборочный начальный момент r -го порядка определяется равенством

a∗r =1

n

n∑i=1

X ri ,

если выборка представлена статистическим рядом, то

a∗r =1

n

k∑i=1

niXri ,

выборочный центральный момент r -го порядка определяется равенством

a0∗r =1

n

n∑i=1

(Xi − X

)r,

если выборка представлена статистическим рядом, то

a0∗r =1

n

k∑i=1

ni(Xi − X

)r,

где X = a∗1 = 1n

∑ni=1 Xi — выборочное среднее.



Выборочная квантиль xp порядка p определяется как элемент вариацион-ного ряда X(1) 6 X(2) 6 . . . 6 X(n) выборки X[n] с номером [np] + 1, где[a] — целая часть числа a.

В описательной статистике используют ряд квантилей, имеющихспециальные названия

персентили (квантили порядков 0.01; 0.02;. . . ;0.99),децили (квантили порядков 0.1; 0.2;. . . ;0.9),квартили (квантили порядков 0.25; 0.5; 0.75).



Наиболее распространенными характеристиками положения являютсявыборочное среднее,выборочная медиана (медианой называется число, которое делитвариационный ряд на две части, содержащие равное количествоэлементов; если n = 2k + 1, то медианой выборки являетсяэлемент вариационного ряда X(k+1), если n = 2k , то медианойвыборки является число (X(k) + X(k+1))/2),выборочная мода (модой называется элемент выборки, имеющийнаибольшую частоту).



Наиболее распространенными мерами рассеяния являютсяразмах (размах R = Xmax − Xmin),средний межквартильный размах (три квартили Q1,Q2,Q3 делятвариационный ряд на четыре части с равным числом элементов,тогда средний межквартильный размах равен (Q3 − Q1)/2),персентильный размах (персентильный размах равен разностиперсентилей P90 − P10),дисперсия (дисперсия s2 = a0∗2 ;исправленная дисперсия s2 = ns2/(n − 1))среднее квадратическое отклонение (среднее квадратическоеотклонение s =

√s2).



В качестве меры относительного разброса используют коэффициентвариации v = s/X , иногда коэффициент записывают в процентахCv = v · 100%.

Для оценки формы распределения служаткоэффициент асимметрии Sk1 = µ∗3/s

3 икоэффициент эксцесса K = µ∗4/s

4 − 3,для нормального распределения теоретические коэффициентыасимметрии и эксцесса, вычисляемые по распределению генеральнойсовокупности, равны нулю.

Еще один показатель асимметрии вычисляется на основе квантилейSk2 = (Q3 − Q1 − 2Q2)/(Q3 − Q1).



В случае многомерных случайных выборок помимо характеристикположения и рассеивания рассматривают выборочный коэффициенткорреляция (меру линейной связи).Рассмотрим на примере двумерного случайного вектора (ξ, η)T . Пустьвыборка наблюдений объема n(

X1

Y1

), . . . ,

(Xn

Yn

),

тогда коэффициент выборочной корреляциии определяется по формуле

rξ,η =1n

∑ni=1 XiYi − X Y

sX sY

Графически двумерные выборки удобно представлять с помощьюдиаграмм рассеивания.


Documents

2013 02 20_statistics_lecture01