Статистика в биоинформатике

План лекции

  1. Проверка стат. гипотез
  2. Множественные сравнения
  3. Сэмплирование
  4. Критерии на все случаи жизни
  5. Популярные ошибки статистики
  6. Сжатие размерности данных

Проверка стат. гипотез

  • p-value
  • уровень значимости (False Positive rate)
  • мощность критерия
    (1 - False Negative rate)

Выборка

Гипотезы

Критерий проверки

Статистика критерия

P-value

H_0, H_1
H0,H1H_0, H_1

Ответ

Наводящий пример

Наводящий пример

Наводящий пример

Множественные сравнения

Уровень значимости                                                              

\alpha=0.05 \Rightarrow p(false\ positive)=0.05
α=0.05p(false positive)=0.05\alpha=0.05 \Rightarrow p(false\ positive)=0.05

Для одной гипотезы:

\alpha=0.05 \Rightarrow p(false\ positive)=1 - (1 - 0.05)^k
α=0.05p(false positive)=1(10.05)k\alpha=0.05 \Rightarrow p(false\ positive)=1 - (1 - 0.05)^k

Для k гипотез:

\alpha=0.05 \Rightarrow p(false\ positive)=1 - (1 - 0.05)^{20} = 0.64
α=0.05p(false positive)=1(10.05)20=0.64\alpha=0.05 \Rightarrow p(false\ positive)=1 - (1 - 0.05)^{20} = 0.64

Частный случай (для 20 гипотез):

Пример из жизни

В следствие ошибки ни одна мартышка не пострадала!

Постановка задачи

Выборка 1

...

Гипотеза 1

p_1
p1p_1

Выборка 2

Гипотеза 2

p_2
p2p_2

Выборка k

Гипотеза k

p_k
pkp_k

...

...

Хотим:

Вероятность хотя бы одной ошибки 1-го рода

p(FP)< 0.05
p(FP)<0.05p(FP)< 0.05

Решение 1: тесты для сложных гипотез

Выборка 1

...

Гипотеза 1

p_1
p1p_1

Выборка 2

Выборка k

Пример гипотезы:

Все средние всех выборок равны.

H_0:
H0:H_0:

Хотя бы одно из средних отличается от остальных

H_1:
H1:H_1:

Решение 2: поправки p-values

Выборка 1

...

Гипотеза 1

p_1
p1p_1

Выборка 2

Гипотеза 2

p_2
p2p_2

Выборка 3

Гипотеза 3

p_3
p3p_3

Выборка k

Гипотеза k

p_k
pkp_k

...

...

p_1'
p1p_1'
p_2'
p2p_2'
p_3'
p3p_3'
p_k'
pkp_k'

...

Family-Wise Error Rate

  1. Метод Бонферрони

     
  2. Метод Шидака (требует независимости)

     
  3. Метод Холма

     
  4. Метод Шидака-Холма (требует независимости)
p_i'=kp_i
pi=kpip_i'=kp_i
p_i'= 1 - (1 - p_i)^k
pi=1(1pi)kp_i'= 1 - (1 - p_i)^k
p_i'= (k-i+1)p_i
pi=(ki+1)pip_i'= (k-i+1)p_i
p_i'= 1 - (1 - p_i)^{k-i+1}
pi=1(1pi)ki+1p_i'= 1 - (1 - p_i)^{k-i+1}

False Discovery Rate

Метод Бенджамини-Хохберга

p_i'=\frac{kp_i}{i}
pi=kpiip_i'=\frac{kp_i}{i}

Хотим:

Вероятность хотя бы одной ошибки 1-го рода

p(FP)< 0.05
p(FP)<0.05p(FP)< 0.05

Хотим:

Доля ошибок 1-го рода

\frac{FP}{FP + TP} < 0.05
FPFP+TP<0.05\frac{FP}{FP + TP} < 0.05

Области применения

  • Не исправлять: первичный анализ данных и обзор, формулировка гипотез и свойств. Всегда следует приводить общее количество тестов: «Мы провели 40 тестов и 10 отвергли нулевую гипотезу».

  • Контроль FDR (обычно FDR < 0.1): исследование и отбор признаков для последующего (более сложного и дорогого) анализа. Баланс между мощностью и ложными срабатываниями.

  • Контроль FWER (обычно FWER < 0.05): подтверждение выводов, строгий контроль за вероятностью ошибок первого рода.

Области применения

  • Не исправлять: первичный анализ данных и обзор, формулировка гипотез и свойств. Всегда следует приводить общее количество тестов: «Мы провели 40 тестов и 10 отвергли нулевую гипотезу».

  • Контроль FDR (обычно FDR < 0.1): исследование и отбор признаков для последующего (более сложного и дорогого) анализа. Баланс между мощностью и ложными срабатываниями.

  • Контроль FWER (обычно FWER < 0.05): подтверждение выводов, строгий контроль за вероятностью ошибок первого рода.

Сэмплирование

Исходная выборка:

Подвыборка:

Задача 1: слишком много данных

Задача 2: оценка неоцениваемого

Распределения:

  • Среднего
  • Медианы
  • Дисперсии
  • ...

Задача 2: оценка неоцениваемого

Тестирование гипотез

Задача 3: слишком мало данных

Критерии на все случаи жизни

  • ANOVA
  • t-критерий
  • Критерий Шапиро-Уилка
  • Непараметрические критерии (Манна-Уитни, Вилкокса)
  • Критерий Колмогорова-Смирнова
  • Критерий Хи-квадрат
  • Критерий Фишера

Сравнение средних

Student's t-test

  1. Есть 2 нормально распределённые выборки

     
  2. Считаем разницу в  средних

     
  3. Считаем стандартную ошибку среднего для двух выборок


     
  4. Делим, статистика имеет t-распределение
X_1, X_2
X1,X2X_1, X_2
\bar{X_1} - \bar{X_2}
X1¯X2¯\bar{X_1} - \bar{X_2}
\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}
s12n1+s22n2\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}
\frac{\bar{X_1} - \bar{X_2}}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}
X1¯X2¯s12n1+s22n2\frac{\bar{X_1} - \bar{X_2}}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}

Сравнение средних

ANalysis Of VAriance (ANOVA)

  1. Внутригрупповая дисперсия:
  2. Межгрупповая дисперсия:
  3. Статистика - их соотношение:
    (имеет  распределение Фишера)
S_{bg}
SbgS_{bg}
S_{wg}
SwgS_{wg}
\frac{S_{wg}}{S_{bg}}
SwgSbg\frac{S_{wg}}{S_{bg}}

Требует нормальности!

Проверка на нормальность

Критерий Шапиро-Уилка

Сравнение средних в общем случае

Критерий Манна-Уитни

  1. Составить единый ранжированный ряд из обеих сопоставляемых выборок, расставив их элементы по степени нарастания признака и приписав меньшему значению меньший ранг.
     
  2. Разделить единый ранжированный ряд на два, состоящие соответственно из единиц первой и второй выборок. Подсчитать отдельно сумму рангов, пришедшихся на долю элементов первой выборки, и отдельно — на долю элементов второй выборки. Определить большую из двух ранговых сумм.
     
  3. Определить значение критерия.

Сравнение средних в общем случае

Критерий Вилкокса

Принадлежность к распределению

Критерий Колмогорова-Смирнова

Принадлежность к распределению

Критерий Хи-квадрат

Анализ таблиц сопряженности

Точный тест Фишера

Кантри Рок-н-рол Джаз Всего
Город 15 30 5 50
Село 25 20 5 50
Всего 40 50 10 100

Популярные ошибки

  • Исследователь не должен влиять на эксперимент
  • Корреляция - не причинно-следственная связь
  • Используйте поправки на множественные сравнения
  • Проверяйте нормальность распределения
  • Если критерий требует независимости - убедитесь, что она есть
  • Читайте необходимые условия теста перед его использованием

Сжатие размерности

Метод главных компонент (PCA)

Доп. материалы

Статистика в биоинформатике

By Viktor Petukhov

Статистика в биоинформатике

  • 858