Статистика в биоинформатике

План лекции

Проверка стат. гипотез
Множественные сравнения
Сэмплирование
Критерии на все случаи жизни
Популярные ошибки статистики
Сжатие размерности данных

Проверка стат. гипотез

p-value
уровень значимости (False Positive rate)
мощность критерия
(1 - False Negative rate)

Выборка

Гипотезы

Критерий проверки

Статистика критерия

P-value

H_0, H_1

H_0, H_1

Ответ

Наводящий пример

Множественные сравнения

Уровень значимости

\alpha=0.05 \Rightarrow p(false\ positive)=0.05

\alpha=0.05 \Rightarrow p(false\ positive)=0.05

Для одной гипотезы:

\alpha=0.05 \Rightarrow p(false\ positive)=1 - (1 - 0.05)^k

\alpha=0.05 \Rightarrow p(false\ positive)=1 - (1 - 0.05)^k

Для k гипотез:

\alpha=0.05 \Rightarrow p(false\ positive)=1 - (1 - 0.05)^{20} = 0.64

\alpha=0.05 \Rightarrow p(false\ positive)=1 - (1 - 0.05)^{20} = 0.64

Частный случай (для 20 гипотез):

Пример из жизни

В следствие ошибки ни одна мартышка не пострадала!

Постановка задачи

Выборка 1

...

Гипотеза 1

p_1

p_1

Выборка 2

Гипотеза 2

p_2

p_2

Выборка k

Гипотеза k

p_k

p_k

...

Хотим:

Вероятность хотя бы одной ошибки 1-го рода

p(FP)< 0.05

p(FP)< 0.05

Решение 1: тесты для сложных гипотез

Выборка 1

...

Гипотеза 1

p_1

p_1

Выборка 2

Выборка k

Пример гипотезы:

Все средние всех выборок равны.

H_0:

H_0:

Хотя бы одно из средних отличается от остальных

H_1:

H_1:

Решение 2: поправки p-values

Выборка 1

...

Гипотеза 1

p_1

p_1

Выборка 2

Гипотеза 2

p_2

p_2

Выборка 3

Гипотеза 3

p_3

p_3

Выборка k

Гипотеза k

p_k

p_k

...

p_1'

p_1'

p_2'

p_2'

p_3'

p_3'

p_k'

p_k'

...

Family-Wise Error Rate

Метод Бонферрони
Метод Шидака (требует независимости)
Метод Холма
Метод Шидака-Холма (требует независимости)

p_i'=kp_i

p_i'=kp_i

p_i'= 1 - (1 - p_i)^k

p_i'= 1 - (1 - p_i)^k

p_i'= (k-i+1)p_i

p_i'= (k-i+1)p_i

p_i'= 1 - (1 - p_i)^{k-i+1}

p_i'= 1 - (1 - p_i)^{k-i+1}

False Discovery Rate

Метод Бенджамини-Хохберга

p_i'=\frac{kp_i}{i}

p_i'=\frac{kp_i}{i}

Хотим:

Вероятность хотя бы одной ошибки 1-го рода

p(FP)< 0.05

p(FP)< 0.05

Хотим:

Доля ошибок 1-го рода

\frac{FP}{FP + TP} < 0.05

\frac{FP}{FP + TP} < 0.05

Области применения

Не исправлять: первичный анализ данных и обзор, формулировка гипотез и свойств. Всегда следует приводить общее количество тестов: «Мы провели 40 тестов и 10 отвергли нулевую гипотезу».
Контроль FDR (обычно FDR < 0.1): исследование и отбор признаков для последующего (более сложного и дорогого) анализа. Баланс между мощностью и ложными срабатываниями.
Контроль FWER (обычно FWER < 0.05): подтверждение выводов, строгий контроль за вероятностью ошибок первого рода.

Области применения

Не исправлять: первичный анализ данных и обзор, формулировка гипотез и свойств. Всегда следует приводить общее количество тестов: «Мы провели 40 тестов и 10 отвергли нулевую гипотезу».
Контроль FDR (обычно FDR < 0.1): исследование и отбор признаков для последующего (более сложного и дорогого) анализа. Баланс между мощностью и ложными срабатываниями.
Контроль FWER (обычно FWER < 0.05): подтверждение выводов, строгий контроль за вероятностью ошибок первого рода.

Сэмплирование

Исходная выборка:

Подвыборка:

Задача 1: слишком много данных

Задача 2: оценка неоцениваемого

Распределения:

Среднего
Медианы
Дисперсии
...

Задача 2: оценка неоцениваемого

Тестирование гипотез

Задача 3: слишком мало данных

Критерии на все случаи жизни

ANOVA
t-критерий
Критерий Шапиро-Уилка
Непараметрические критерии (Манна-Уитни, Вилкокса)
Критерий Колмогорова-Смирнова
Критерий Хи-квадрат
Критерий Фишера

Сравнение средних

Student's t-test

Есть 2 нормально распределённые выборки
Считаем разницу в средних
Считаем стандартную ошибку среднего для двух выборок
Делим, статистика имеет t-распределение

X_1, X_2

X_1, X_2

\bar{X_1} - \bar{X_2}

\bar{X_1} - \bar{X_2}

\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}

\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}

\frac{\bar{X_1} - \bar{X_2}}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}

\frac{\bar{X_1} - \bar{X_2}}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}

Сравнение средних

ANalysis Of VAriance (ANOVA)

Внутригрупповая дисперсия:
Межгрупповая дисперсия:
Статистика - их соотношение:
(имеет распределение Фишера)

S_{bg}

S_{bg}

S_{wg}

S_{wg}

\frac{S_{wg}}{S_{bg}}

\frac{S_{wg}}{S_{bg}}

Требует нормальности!

Проверка на нормальность

Критерий Шапиро-Уилка

Сравнение средних в общем случае

Критерий Манна-Уитни

Составить единый ранжированный ряд из обеих сопоставляемых выборок, расставив их элементы по степени нарастания признака и приписав меньшему значению меньший ранг.
Разделить единый ранжированный ряд на два, состоящие соответственно из единиц первой и второй выборок. Подсчитать отдельно сумму рангов, пришедшихся на долю элементов первой выборки, и отдельно — на долю элементов второй выборки. Определить большую из двух ранговых сумм.
Определить значение критерия.

Сравнение средних в общем случае

Критерий Вилкокса

Принадлежность к распределению

Критерий Колмогорова-Смирнова

Принадлежность к распределению

Критерий Хи-квадрат

Анализ таблиц сопряженности

Точный тест Фишера

	Кантри	Рок-н-рол	Джаз	Всего
Город	15	30	5	50
Село	25	20	5	50
Всего	40	50	10	100

Сжатие размерности

Метод главных компонент (PCA)

Доп. материалы

А. Карпов: Основы статистики (видеокуср):
https://stepik.org/course/76/syllabus
Статистика и котики:
http://www.statcats.ru/p/blog-page_29.html

Статистика в биоинформатике

By Viktor Petukhov

Статистика в биоинформатике

1,108

Viktor Petukhov

PhD student at the University of Copenhagen

github.com/VPetukhov

Статистика в биоинформатике

План лекции

Проверка стат. гипотез

Наводящий пример

Наводящий пример

Наводящий пример

Множественные сравнения

Пример из жизни

Постановка задачи

Решение 1: тесты для сложных гипотез

Решение 2: поправки p-values

Family-Wise Error Rate

False Discovery Rate

Метод Бенджамини-Хохберга

Области применения

Области применения

Сэмплирование

Задача 1: слишком много данных

Задача 2: оценка неоцениваемого

Задача 2: оценка неоцениваемого

Тестирование гипотез

Задача 3: слишком мало данных

Критерии на все случаи жизни

Сравнение средних

Student's t-test

Сравнение средних

ANalysis Of VAriance (ANOVA)

Проверка на нормальность

Критерий Шапиро-Уилка

Сравнение средних в общем случае

Критерий Манна-Уитни

Сравнение средних в общем случае

Критерий Вилкокса

Принадлежность к распределению

Критерий Колмогорова-Смирнова

Принадлежность к распределению

Критерий Хи-квадрат

Анализ таблиц сопряженности

Точный тест Фишера

Популярные ошибки

Сжатие размерности

Метод главных компонент (PCA)

Доп. материалы

Статистика в биоинформатике

More from Viktor Petukhov