Слайд 1 - spbu.ru · 2018. 4. 3. · Title: Слайд 1 Author: natasha Created Date:...

Preview:

Citation preview

Регрессионный анализ

Методыанализа

ФакторыНезависи-

мые

ОткликиЗависимые Результат

Дисперсионный Любыешкалы

Интерваль-ные

Стат.значи-мость и силавлияния

Корреляционный Нет разделенияЛюбые шкалы

(разные коэффициенты)

Сила инаправление

связи

Регрессионный Интерваль-ные

(предикторы)

Интерваль-ные

Прогноз(интер- но неэкстаполяция

?)

Регрессия

• Моделирование, описание зависимостимежду переменными

• Количественная оценка поведения откликапри изменении предиктора

- >> уравнение регрессии• Предсказание значений переменной откликапри заданных значениях предиктора

- >> прогноз

ДовольноДовольно часточасто длядля описанияописаниязависимостизависимости достаточнодостаточнополучитьполучить графическоеграфическоеизображениеизображение имеющихсяимеющихся данныхданных..

ШирокоШироко применяютсяприменяются««точечныеточечные диаграммыдиаграммы»» = =

scatterscatter--plotplot

ЕслиЕсли имеютсяимеются нене отдельныеотдельныезначениязначения, , аа рядряд группгрупп((выбороквыборок, , вариантоввариантов……) ) --

1 2 3 4 5 38 39 41 42 43

N

300

350

400

450

500L

КаждаяКаждая точкаточка --безбез оценкиоценки!!!.....!!!.....

1 2 3 4 5 38 39 41 42 43

N

300

350

400

450

500

LКаждаяКаждая точкаточка!!!.....!!!.....

((ноно –– доверительныйдоверительныйинтервалинтервал!)!)

1 2 3 4 5 38 39 41 42 43

N

300

320

340

360

380

400

420

440

460

480

500

520

L

СмотритеСмотрите самисами..........

1 2 3 4 5 38 39 41 42 43

N

300

320

340

360

380

400

420

440

460

480

500

520

LГИПОТЕЗЫГИПОТЕЗЫ……

НекотораяНекоторая тенденциятенденция......

1 2 3 4 5 38 39 41 42 43

N

300

320

340

360

380

400

420

440

460

480

500

520L

ГИПОТЕЗЫГИПОТЕЗЫ……

««ЧеткаяЧеткая»» тенденциятенденция......

1 2 3 4 5 38 39 41 42 43

N

300

320

340

360

380

400

420

440

460

480

500

520L

ГИПОТЕЗЫГИПОТЕЗЫ……

««ОченьОчень четкаячеткая»» тенденциятенденция......

1 2 3 4 5 38 39 41 42 43

N

300

320

340

360

380

400

420

440

460

480

500

520L

ГИПОТЕЗЫГИПОТЕЗЫ --

ДваДва этапаэтапа......

1 2 3 4 5 38 39 41 42 43

N

300

350

400

450

500

LГИПОТЕЗЫГИПОТЕЗЫ…… --

ДвеДве областиобласти……..

1 2 3 4 5 38 39 41 42 43

N

300

320

340

360

380

400

420

440

460

480

500

520

L

СмотритеСмотрите самисами..........

• Обязательно показыватьдоверительные интервалы

• Не придавать значения отдельнымточкам (по крайней мере - без вескихоснований) – важны тенденции!

• Учитывать = показывать (и обсуждать) ВСЕ возможные гипотезы

• В дальнейшем исследованииПРОВЕРЯТЬ и ДОКАЗЫВАТЬ

Г.Г.Винберг (1980)Условия корректного применения вбиологии элементарныхэмпирических формул (Колич. методы в экологии животных, Л.,1980, с.34-36)

1. Предпочтение следует отдавать, во-первых, формулам, приложимым ко всем или к большей части относящихся кним материалам разных авторов

2. Нередко результаты отдельных наблюдений за проявлениямиодной и той же биологические закономерности выражают спомощью разных элементарных функций. Это ведет кнакоплению несравнимых или трудно сравнимых формул, чторезко снижает эффективность исследований. Необходимодостигнуть договоренности об единообразных способахматематического выражения каждой из изучаемыхзависимостей.

• 3. Практика исследований показала существеннуюособенность биологических данных. Материалы, полученные при, казалось бы, идентичных условиях, часто статистически достоверно различаются. Поэтому, помимо статистической обработкинаблюдений, весьма важно устанавливать, в какоймере воспроизводимы полученныеколичественные зависимости, к какому кругуобъектов и каким условиям они приложимы.4. Количественному выражению подлежат достаточнооднородные по отношению к изучаемому факторубиологические материалы. Этим важным условиемплодотворности устанавливаемых количественныхсоотношений очень часто пренебрегают. В результатеполучают формально правильные, но биологическибессодержательные и ненужные, часто неоправданноусложненные математические выражения.

• 5. В практике исследований зависимости разныхвзаимосвязанных функций организма (или в болееобщей форме - разных взаимосвязанных элементовбиологической системы) от некоторого фактора чащевсего изучаются раздельно. Результаты изучениякаждой отдельной функции организма выражают ввиде соответствующего уравнения. Сопоставлениеэтих уравнений между собой, как показываютконкретные примеры, может приводить к абсурднымвыводам. Следовательно, зависимость отопределенного фактора разныхвзаимосвязанных функций организма илисистемы надо устанавливать на одном и том жеобъекте и при одинаковых условиях. Прираздельном изучении функций нужно принимать вовнимание необходимость согласования получаемыхрезультатов с результатами изучения зависимости отрассматриваемого фактора другихвзаимосвязанных функций организма илиэлементов системы.

Линейные и нелинейные• Внутренне линейные функции.

Y=exp(θ1 + θ2 t2 + ε)• Внутренне линейные функции можнопреобразовать к линейному виду.

• Например: y = ax2

при замене y - lg(y)x - lg(x)

принимает линейный вид

• Шмидт В.М. Математические методы в ботанике. Изд. ЛГУ. 1984 (с. 101)

• Терентьев П.В., Ростова Н.С. Практикум побиометрии. Изд. ЛГУ. 1977 (с. 100-101)

Подбор варианта линеаризации

• «Опасность нелинейности» зачастуюпреувеличивается!

• Степень точности (неточности) измерений в биологическихисследованиях может превышать«искажения от нелинейности»

• Обычно интервал имеющихся значенийнаходится в области линейнойзависимости

0 2 4 6 8 10 12 14 16 18 20 22

Var1

-2

0

2

4

6

8

10

12

14

16

18

20Va

r2

СильноеСильноеискажениеискажение

ТолькоТолько областьобластьлинейнойлинейной зависимостизависимости

Анализ роста

• «Соотносительный рост» - аллометрия(Huxley, 1932)

y = bxα

Где α – «константа равновесия»;При α >1 – положительная аллометрия

α <1 – отрицательная аллометрия

α = 1 – равномерный рост

Примеры нелинейных связей

• S-образные кривые ростаЛогистическая функция:

Y = A /[(1 + 10a+bx) + c]А – окончательный размер, a и b –константы (определяют наклон, изгиби точку перегиба), с – исходныйразмер

Функция Гомпертца (несимметричная: растянутая верхняя ветвь)

Y = A /1010a+bxСм. Шмидт В.М. 1984, с. 129-148.

Анализ роста

Уравнение регрессии

Y = b0 + b1X

X – независимаяпеременная,

предиктор, фактор

independent variable, predictor

b0 – ожидаемоезначение Y при X = 0

Оценка β0

intercept

b1 – угол наклонаграфика по отношению

к оси X,

среднее изменение Y на единицу изменения

Х в выборке

Оценка β1

slope

Y – зависимаяпеременная, откликОценка μ(yi)dependent variable, response variable

0 40 80 120 160 200CWD_BASAL

600

1000

1400

1800

2200

RIP_D

ENS

Y = 879.43+5.49*xCorrelation: r = 0.80

Какую линию выбрать?

• На графике рассеяния можно провестимножество линий, которые проходятчерез точки данных

0 40 80 120 160 200CWD_BASAL

600

1000

1400

1800

2200

RIP_D

ENS

Y = 879.43+5.49*xCorrelation: r = 0.80

• Для полученной линии регрессии

ДОВЕРИТЕЛЬНАЯ ЗОНАи –

доверительные интервалы длякаждого из коэффициентов уравнения

Сравнение двух линий регрессии

Урбах В.Ю. Статистический анализ в биол. Имедицинских исследованиях. М. 1975. (с.203-220)

Метод наименьших квадратов

• Функция потерь• Loss = ∑(yi – yi exp)2

• Сумма квадратов отклонений наблюдаемыхот ожидаемых значений должна бытьминимальна

X

YНаблюдаемые значения Y приданном X

Ошибки – отклонениянаблюдаемых значений отпредсказанных регрессией

Предсказанные регрессиейзначения Y при данном X

Рассчет коэффициентовуравнения линейной

регрессии•Модель Yi exp = β0+β1X+ εi

•Оценка модели yi exp = b0 + b1xi•Нужноминимизироватьзначение функциипотерь

•Берем производныепервого порядка отфункции потерь по β0и β1 и приравниваемих к нулюX

YФункция потерь

Loss = ∑ εi2 = ∑ (Yi exp – β0 – β1Xi)2

Рассчет коэффициентовуравнения линейной

регрессии•Система т. наз. нормальных уравнений•-2∑ (Yi exp – b0 – b1Xi) = 0•-2∑ Xi (Yi exp – b0 – b1Xi) = 0 •Коэффициенты регрессии

•b0 = Y– b1X•b1 = [ ∑ (xi – X) (yi – Y)]/

∑ (xi – X)2

Стандартные ошибкикоэффициентов•SEb0 = sqrt[mSe{1/n+X2/∑(xi - X)2}]•SEb1 = sqrt[mSe/∑(xi - X)2]X

Y

• Интерпретация полученного уравнениярегрессии – по коэффициентам (???)

Стандартизированныекоэффициенты регрессии

• Оценка коэффициентов, которая не зависит отединиц измерения X и Y

• Как получить стандартизованные коэффициенты?– Умножить обычный коэффициент на отношение

SDX и SDY

– или– Подобрать уравнение регрессии постандартизованным X и Y

b1* = b1 * SDX/SDY

Структура общейизменчивости

X

Y

Наблюдаемые значения Y приданном X

Общее среднее значение Y

Предсказанные регрессиейзначения Y при данном X

Y

yi

yi exp

Общаяизменчивость

∑(yi – Y)2

Изменчивостьотносительнорегрессионной прямой

∑(yi exp – Y)2

Остаточнаяизменчивость

∑(yi – yi exp)2= +

Y

yi

yi exp

«Особые» случаи«Особые» случаи

• Анализ кривых «доза – эффект» = probit analysis (Bliss C.)

• «Временные ряды» = ряды динамики =Time series

• Анализ кривых «доза – эффект» = probit (Bliss C.)в фармакологии, токсикологии... (экологии)

Литература:1.Урбах В.Ю. Статистический анализ в биологических имедицинских исследованиях. 1975. (глава 9)

2.Беленький М.Л. Элементы количественной оценкифармакологического эффекта. 1963.

3.Зайцев Г.Н. Математический анализ биологическихданных. 1991. (с.99-103)

4.Кудрин А.Н., Пономарева Г.Т. Применениематематики в экспериментальной и клиническоймедицине. 1967.

• Варианты различаются по ДОЗЕ илиДЛИТЕЛЬНОСТИ ВОЗДЕЙСТВИЯ(количественная оценка)

• Интервалы между вариантами поинтенсивности воздействия могут бытьравные или неравные

• ЭФФЕКТ оценивается как числообъектов в группе (варианте) сзарегистрированной реакцией (погибли– вылечились - ….)

• Группы небольшие (например, n=5-6)

• РЕЗУЛЬТАТ АНАЛИЗА --->• LD50 - летальная доза для 50% выборки

или –эффективная доза (ED50)эффективное время

(длительность) воздействия (ET50, LT50)

• Несколько методов, использующих• Логарифмирование• «Пробиты» -

дляа) логарифмов долей выборки, демонстрирующих наличие эффекта –

используютсяб) накопленные частости нормальногораспределения

• Отсюда: probability -> probite

• Методы, основанные налогарифмировании, (Рида и Минча; Кербера) а) более строги к данным(равноотстоящие значения доз, равенствообъема групп)б) менее точны (недостаточнаялинеаризация)

• «Слабое место» пробит-анализа –допущение о нормальности кривой «доза-эффект»

• Для величины LD50 имеется методоценки ошибки и доверительногоинтервала (также – сравнения междуэтими величинами для разныхвоздействий)

• Основная часть вычислений можетбыть сделана по таблицам значенийпробитов (см. пп. 1 и 3 в списке литературы)

• Показатель является стандартным иего можно сравнивать с результатами, полученными другми исследователями

Преимущества пробит-анализа

DOSE

50%

EFFE

CT

(%%

)

LD50

lg(DOSE)

50%

EFFE

CT

(%%

)

LD50

• В пакете STATISTICA – Nonlinear Models -> Nonlinear Estimation

• Предварительно в файле данных нужносделать логарифмирование обеихпеременных

Пробит-анализ• Доля «реагирующих» приравнивается кнакопленным частостям (z) нормального распределения, длякоторых

Z = Φ((x-μ)/σ)где Φ – интеграл вероятностей, μ и σ -математическое ожидание истандартное отклонениераспределения.

• Заменяем Z на p%, x на lgD, μ на lgD50 иполучаем

p% = Φ ((lgD - lgD50)/ σ)• или (упрощая обозначения)–

p = Φ ((l - l50)/ σ) [*]• После замены Φ на ψ (функция, обратная кинтегралу вероятностей)

y’ = ψ (p)• получаем

y’ = (1/σ)l - l50/σ

• В области p<0.5 величина y’ принимаетотрицательное значение. Для удобствазаменяем y’ на

y = y’+a,• где a=5. • Теперь, если по оси абсцисс откладыватьзначения l (логарифм дозы – по вариантам), а по оси ординат y = ψ (p) + 5

• то точки расположатся примерно по прямойлинии.

• Величина y = ψ(p) + 5 получила названиепробит (от probability unit= вероятностнаяединица).

Для групп с объемом n 3-15 – специальные таблицызначения пробитов (не нужны не только таблицывероятностей, но и вычисление процентов).

Число объектов с проявляющейся реакциейЧислообъектов вгруппе 0 1 2 3 4 5 …15

3 3.50 4.57 5.43 6.50 - -

4 3.36 4.33 5.00 5.67 6.64 -

5 3.25 4.16 4.75 5.25 5.84 6.75

6 3.16 4.03 4.57 5.00 5.43 5.97

7 3.10 3.93 4.43 4.82 5.18 5.57

8 3.04 3.85 4.33 4.68 5.00 5.32

…15 2.78 3.50 3.89 4.16 4.38 4.57 7.22

((частьчасть таблицытаблицы пробитовпробитов –– УрбахУрбах, 1975:245, 1975:245)

Пример

Частотаэффекта

Накопленная частота

есть нет есть нет сумма

%%

2.4 6 0 6 0.0 0 17 17 0 3.16

2.8 7 1 6 14.3 1 11 12 8.2 3.93

3.2 7 3 4 42.9 4 5 9 44.5 4.82

3.6 6 5 1 83.3 9 1 10 90.0 5.97

4.0 6 6 0 100. 15 0 15 100 6.84

Пробит

% положит.

Логарифмдозы

N группы

МожноМожно простопросто сосчитатьсосчитать попо ««серединесередине интервалаинтервала»»::LgLg ЭДЭД5050 = 3.2 + (3.6= 3.2 + (3.6--3.2) (53.2) (50.00.0--42.9)/(83.342.9)/(83.3--42.9) = 3.2742.9) = 3.27ТогдаТогда ЭДЭД5050 = 1.86 = 1.86 ·· 101033..НОНО -- ПриПри этомэтом мымы используемиспользуем толькотолько двадва изиз пятипяти вариантоввариантов!!

А) логарифмированиеБ) пробиты

1

2

3

4

5

2.2 2.4 2.6 2.8 3.0 3.2 3.4 3.6 3.8 4.0 4.2

LgD

-20

0

20

40

60

80

100

120

procent

1

2

3

4

5

2.2 2.4 2.6 2.8 3.0 3.2 3.4 3.6 3.8 4.0 4.2

Lg Doze

3.0

3.5

4.0

4.5

5.0

5.5

6.0

6.5

7.0

Probit

• «Временные ряды» = рядыдинамики = Time seriesа) Закономерная (фиксированная) последовательность значений в рядузначений исследуемой(ых) переменнойкорреляции междупоследовательными значениями в ряду(автокорреляция) и/или между рядами(кросскорреляция)

«Особые» случаи

«Временные ряды» = ряды динамики= Time series

а) Фиксированнаяпоследовательностьб) Компоненты временных рядов

• Общая тенденция• Периодическая (ие) колебания

- их может быть несколько! (продолжительность общего срока идлина интервалов)

• Случайные колебания

Не только для «настоящих» рядовдинамики –

• «Ряды» в пространстве• «Ряды» метамерных органов

• Условие:достаточное число членов ряда!!!

• «Сглаживание» значений во временныхрядах - метод «скользящей средней»(аналогичен «линии свободной руки», но более обоснован!!!)

• Интервал сглаживания• Коэффициенты у значений в пределахинтервала (для нелинейногосглаживания)

• Пример использования

• Барман Ракхал Чандра «Экологическаяизменчивость морфологических признаков побегаPhragmites australis и P.karka»

(канд. диссертация, 1993)

Материал: Fragmites australis избассейна р. Ижора (+ Красный Бор) и из

Лондона; F. carka из Бангладеж.

• Измерения последовательных метамеров попобегу (N = 360)

• «Стандартизация» интервала (разное числометамеров!)

• Всего 8 признаков -> 2 компоненты (PCA)• Фурье-преобразование значений компонент• По коэффициентам Фурье – PCA -> ординация выборок и отдельных растений

• Интерпретация полученной ординации(влияние фенофазы и загрязнения)

Верховья Ижоры

«Агрозона»

Окрестности хранилищатоксичных отходов

Ям-Ижора Пудость

Красный Бор

Временные ряды =ряды динамики

= time series

• Проверка последовательных значенийна наличие ТРЕНДАЗакс Л. Статистическоеоценивание.1976, с. 347-356.

//Обратите внимание:очень полезный справочник!!!//

Отношение «разбросов» (дисперсий) разностей (метод Neumann, Moore)

• Если последовательные значения независимы, тоSS (i; i+1) ≈ 2SStotal т.е.SS (i; i+1) / SStotal ≈ 2.0

(тренда нет ≥2.0)• Если есть тренд, то

SS (i; i+1) / SStotal < 2.0(обе величины – суммы квадратов разностей:между «соседними» значениями и - со средним)

• Общая дисперсия сравнивается с дисперсиейпоследовательных разностей (по SS)

SStotal и SS (i; i+1) (напомним: последовательность – фиксирована!)

|xi – X| xi |xi – xi+1| |2 – 8.3|= 6.3 2 |2 – 3|= 1 |3 – 8.3|= 5.3 3 |3 – 5|= 2|5 – 8.3|= 3.3 5 |5 – 6|= 1|6 – 8.3|= 2.3 6 |6 – 7|= 1|7 – 8.3|= 1.3 7 |7 – 9|= 2|9 – 8.3|=0.7 9 |9 – 10|= 1

|10 – 8.3|=1.7 10 |10 – 12|= 2|12 – 8.3|=3.7 12 |12 – 14|= 2|14 – 8.3|=5.7 14 |14 – 15|= 1|15 – 8.3|=6.7 15

Суммы квадратов разностей

180.1 SS 21.0

Тренд явноЕСТЬ:

21/180.1= 0.12

т.е. <<2

|xi – X| xi |xi – xi+1| |5 – 8.3|= 3.3 5 |5 – 15|= 10|15 – 8.3|=6.7 15 |15 – 2|= 13|2 – 8.3|= 6.3 2 |2 – 6|= 4

|12 – 8.3|=3.7 12 |12 – 3|= 9|3 – 8.3|= 5.3 3 |3 – 10|= 7

|6 – 8.3|= 2.3 6 |6 – 12|= 6

|10 – 8.3|=1.7 10 |10 – 9|= 1|9 – 8.3|=0.7 9 |9 – 14|= 5

|14 – 8.3|=5.7 14 |14 – 7|= 7|7 – 8.3|= 1.3 7

Суммы квадратов разностей

180.1 SS 526.0

ТрендаНЕТ!!!

526/180.1>>2

Т.е. – чем меньшесумма квадратов «последовательныхразностей»

(между соседними значениями)по сравнению с

суммой квадратов отклонений от среднегоТЕМ БОЛЕЕ ВЕРОЯТНО НАЛИЧИЕ ТРЕНДА

Знаковый критерий Cox, Stuart-1955• Весь ряд разделяется на 3 части (первая итретья – одинакового объема)

• Знаки разностей между последовательнымизначениями в первой-третьей частях:число плюсов или – минусов (S)

• Ожидаемое значение (если тренда нет) –S = n/6, его дисперсия – n/12, а SD = (n/12)0.5

• Оцениваем отношение полученного и –ожидаемого значений

Первая треть 4 7 3 5 6 7 8 9Вторая треть 5 6 2 3 5 6 4 3

Знаки разностей – + + + + + + +

ПРИМЕР: Всего значений n=22, берем по 8из первой и последней частей:

z = (│S-n/6│ – 0.5)/ ((n/12) 0.5)

Получаем:

z = (│6-22/6│ – 0.5)/ (22/12) 0.5 = 2.83/1.35 = 2 .10

что соответствует Р0=0.0357

Установлен возрастающий тренд при Р0≤0.05

• Для n<30 z = (|S-n/6| - 0.5) / (n/12)0.5

• Для n>30 z = (|S-n/6| ) / (n/12)0.5

• Критические значения для одно-(1) идвухстороннего (2) критерия -

α 1 2

0.05 1.64 1.96

0.01 2.33 2.58

• Приблизительная оценка возможна – пографику последовательных значений

Многомерная регрессия

Прогнозы• Эпидемий• Численности «вредных» видов• Изменений климата на Земле• Медицинская диагностика• Пренатальная диагностика (как особыйслучай)

• Все предикторы• Последовательное включение (forward)• Последовательное исключение

(backward)• Пошаговый – включение (stepwise=step

by step forward)• Пошаговый – исключение (stepwise=step

by step backward)Сейчас в стат. пакетах программ –> >

пошаговые = stepwise

Выбор «наилучшего» уравнения

Оценка «наилучшего»уравнения

По предикторам• По F-критерию (при включении и приисключении... – «добавка»)

• По множественному и частнымкоэффициентам детерминации (привключении и при исключении... –«добавка»)

• В пошаговых алгоритмах – и длявсех ранее включенных (иисключенных)

• Дополнительная характеристика:Толерантность признака

Т = 1 – R2

Чем больше толерантность (то есть- меньше детерминированность)

использованных для уравнения признаков, тем ниже «избыточность» полученныхфункций!!!

Recommended