close

Вход

Забыли?

вход по аккаунту

каталог (4,6 MБ);pdf

код для вставкиСкачать
Проблема множественной проверки
статистических гипотез
что делать, если признаков 100500, а наблюдений 42
Антон Коробейников
Летняя школа по биоинформатике
29 июля 2014 года
Содержание
1
Введение. Наводящий пример
2
Использование знаний о конкретной задаче и тесте
3
Контроль FWER
4
Контроль FDR
Введение
Пример
Частные вещи
Контроль FWER
Контроль FDR
Введение
Пример
Частные вещи
Контроль FWER
Контроль FDR
Введение
Пример
Частные вещи
Контроль FWER
Контроль FDR
Введение
Пример
Частные вещи
Контроль FWER
Контроль FDR
Введение
Частные вещи
Контроль FWER
Вероятность «ложного срабатывания»
Эксперимент:
Две группы: те, кто ел, и контрольная
Сравниваем средние в двух группах
Если средние отличаются — делаем вывод о влиянии
Контроль FDR
Введение
Частные вещи
Контроль FWER
Контроль FDR
Вероятность «ложного срабатывания»
Эксперимент:
Две группы: те, кто ел, и контрольная
Сравниваем средние в двух группах
Если средние отличаются — делаем вывод о влиянии
Проблемы:
Вероятность увидеть случайно разницу в средних, даже
если их нет: 0.05
Введение
Частные вещи
Контроль FWER
Контроль FDR
Вероятность «ложного срабатывания»
Эксперимент:
Две группы: те, кто ел, и контрольная
Сравниваем средние в двух группах
Если средние отличаются — делаем вывод о влиянии
Проблемы:
Вероятность увидеть случайно разницу в средних, даже
если их нет: 0.05
Вероятность увидеть случайно разницу в средних, даже
если их нет, в 21 тесте: 1 − (1 − 0.05)21 = 0.66
Введение
Частные вещи
Контроль FWER
Контроль FDR
Вероятность «ложного срабатывания»
Эксперимент:
Две группы: те, кто ел, и контрольная
Сравниваем средние в двух группах
Если средние отличаются — делаем вывод о влиянии
Проблемы:
Вероятность увидеть случайно разницу в средних, даже
если их нет: 0.05
Вероятность увидеть случайно разницу в средних, даже
если их нет, в 21 тесте: 1 − (1 − 0.05)21 = 0.66
So, uh, we did the green study again and got no link. It was
probably a– "RESEARCH CONFLICTED ON GREEN JELLY
BEAN/ACNE LINK; MORE STUDY RECOMMENDED!"
Введение
Частные вещи
Контроль FWER
Контроль FDR
Поиск взаимосвязи
(Rieger et al., 2004): исследование отклика на лечение у
n = 58 пациентов. 44 пациента в контрольной группе и 14
в исследуемой группе
Уровни экспрессии m = 12625 генов
Задача: обнаружить «интересные» гены: те, которые
экспрессируются иначе в исследуемой группе.
Введение
Частные вещи
Контроль FWER
Контроль FDR
Поиск взаимосвязи
(Rieger et al., 2004): исследование отклика на лечение у
n = 58 пациентов. 44 пациента в контрольной группе и 14
в исследуемой группе
Уровни экспрессии m = 12625 генов
Задача: обнаружить «интересные» гены: те, которые
экспрессируются иначе в исследуемой группе.
Построим статистику t-критерия для каждого гена:
tj =
x
¯1j − x
¯2j
,
sej
x
¯ij — среднее для гена j в группе i, sej — оценка стандартной
ошибки в группе j
Введение
Частные вещи
Контроль FWER
Контроль FDR
0
200
400
600
800
Поиск взаимосвязи
−4
−2
0
2
4
t−statistics
FIGURE 18.18. Radiation sensitivity microarray example. A histogram of the 12, 625 t-statistics com-
Введение
Частные вещи
Контроль FWER
Контроль FDR
0
200
400
600
800
Поиск взаимосвязи
−4
−2
0
2
4
t−statistics
Всего 1189 генов с |tj | > 2
FIGURE
Radiation
Если 18.18.
бы взаимосвязи
никакойsensitivity
не было, и всеmicroarray
гены были бы exто в of
среднем
бы 631t-statistics
гена с |tj | > 2 comample. независимыми,
A histogram
the было
12, 625
Введение
Частные вещи
Контроль FWER
Контроль FDR
Проверка статистических гипотез: формализация
Выборка: X = (X1 , . . . , Xn )
Гипотеза: H0 — некоторое высказывание относительно
распределения X
Статистика критерия: t(X) = t(X1 , . . . , Xn )
Критическая область: Rα : P0 (t(X) ∈ Rα ) = α, 0 < α < 1.
Rα ⊆ Rα0 ,
α > α0
p-значение: p(X) = inf α {t(X) ∈ Rα }
P0 (p(X) < u) = P0 (t(X) ∈ Ru ) = u.
Введение
Частные вещи
Контроль FWER
Контроль FDR
Проверка статистических гипотез: формализация
Выборка: X = (X1 , . . . , Xn )
Гипотеза: H0 — некоторое высказывание относительно
распределения X
Статистика критерия: t(X) = t(X1 , . . . , Xn )
Критическая область: Rα : P0 (t(X) ∈ Rα ) = α, 0 < α < 1.
Rα ⊆ Rα0 ,
α > α0
p-значение: p(X) = inf α {t(X) ∈ Rα }
P0 (p(X) < u) = P0 (t(X) ∈ Ru ) = u.
Гипотеза H0 отвергается, если t(X) ∈ Rα
Введение
Частные вещи
Контроль FWER
Контроль FDR
Об ошибках
Ошибка первого рода: Отвергнуть H0 тогда, когда она верна.
Ошибка второго рода: Не отвергать H0 тогда, когда она не
верна.
Введение
Частные вещи
Контроль FWER
Контроль FDR
Об ошибках
Ошибка первого рода: Отвергнуть H0 тогда, когда она верна.
Ошибка второго рода: Не отвергать H0 тогда, когда она не
верна.
Ошибки не симметричны:
Вероятность ошибки первого рода:
αI = P0 (t(X) ∈ Rα ) = P0 (p(X) < α) = α
Вероятность ошибки второго рода: αII = P? (t(X) 6∈ Rα ) =?
Введение
Частные вещи
Контроль FWER
Контроль FDR
ith a single hypothesis test, we choose a rejection
Об ошибках
reshold to control the Type I error rate,
Type I
Error Rate
Type II
Error Rate
Threshold
hile achieving a desirable Type II error rate for
evant alternatives.
Введение
Частные вещи
Контроль FWER
Контроль FDR
ith a single hypothesis test, we choose a rejection
Об ошибках
reshold to control the Type I error rate,
Type I
Error Rate
Type II
Error Rate
Threshold
Борьба за мощность:
найти тест,
обладающей
наибольшей
hile achieving
a desirable
Type
II error
rate for
мощностью (наименьшей ошибкой второго рода) при
evantфиксированной
alternatives.
ошибке первого рода
Введение
Частные вещи
Еще раз коротко об ошибках
Контроль FWER
Контроль FDR
Введение
Частные вещи
Контроль FWER
Контроль FDR
Много гипотез
Выборка: X = (X1 , . . . , Xm )
Гипотезы H1 , . . . , Hm
Статистики критериев: ti (Xi ), i = 1, . . . , m
(i)
(i)
Критические области: Rα : P0 ti (Xi ) ∈ Rα = α, 0 < α < 1.
n
o
(i)
p-значения: pi = pi (Xi ) = inf α t(Xi ) ∈ Rα
Введение
Частные вещи
Контроль FWER
Контроль FDR
Снова об ошибках
Ошибки первого и второго рода могут происходить
Many Tests, One Threshold
одновременно!
With multiple tests, the problem is more complicated
Each test has possible Type I and Type II errors, and there are many
Введение
Частные вещи
Контроль FWER
Снова об ошибках
Все гипотезы: M = {1, . . . , m}.
Верные гипотезы: M0 = {i : Hi верна}. m0 = |M0 |.
Отвергнутые гипотезы: R = {i : Hi отвергнута}
Количество ошибок первого рода: V = |M0 ∩ R|
Количество ошибок второго рода: T = |M \ (M0 ∪ R)|
Контроль FDR
Введение
Частные вещи
Контроль FWER
Снова об ошибках
Все гипотезы: M = {1, . . . , m}.
Верные гипотезы: M0 = {i : Hi верна}. m0 = |M0 |.
Отвергнутые гипотезы: R = {i : Hi отвергнута}
Количество ошибок первого рода: V = |M0 ∩ R|
Количество ошибок второго рода: T = |M \ (M0 ∪ R)|
Проблема: P(V > 1) = 1 − (1 − α)m ≈ 1
Контроль FDR
Введение
Частные вещи
Контроль FWER
Снова об ошибках
Все гипотезы: M = {1, . . . , m}.
Верные гипотезы: M0 = {i : Hi верна}. m0 = |M0 |.
Отвергнутые гипотезы: R = {i : Hi отвергнута}
Количество ошибок первого рода: V = |M0 ∩ R|
Количество ошибок второго рода: T = |M \ (M0 ∪ R)|
Проблема: P(V > 1) = 1 − (1 − α)m ≈ 1
Задача: P(V > 1) ≈ α
Контроль FDR
Введение
Частные вещи
Контроль FWER
Используем знания о предметной области
Post-hoc тесты в ANOVA:
Tukey HSD test
Dunnett’s test
Фактически набор гипотез превращается в одну
«сложную»
Контроль FDR
Введение
Частные вещи
Контроль FWER
Контроль FDR
Tukey HSD Test
Задача: попарное сравнение средних в группах
Предположения:
Все наблюдения независимы
Дисперсии в группах одинаковы
H0 : µ1 = µ2 = · · · µ m
Статистика критерия:
qs =
¯A, X
¯ B } − min{X
¯A, X
¯B }
max{X
se
ˆ
При верной H0 статистика qs имеет известное распределение
(studentized range distribution).
Введение
Частные вещи
Контроль FWER
Контроль FDR
FWER
FWER — familywise error rate (групповая вероятность ошибки
первого рода):
F W ER = P(V > 1)
Контроль FWER на уровне α:
F W ER = P(V > 1) 6 α при любом наборе M0 .
Введение
Частные вещи
Контроль FWER
Контроль FDR
Общая схема методов
Стандартный подход
Контроль размера критической
области.
Выбираем αi = αi (α)
(i)
и строим Rαi : αi = P0 ti (Xi ) ∈ Rαi так, чтобы
F W ER 6 α
Альтернативный вариант
Cчитаем «подправленные» p-значения:
p˜i = p˜i (pi , α)
и отвергаем те Hi , для которых p˜i < α.
Введение
Частные вещи
Контроль FWER
Контроль FDR
Общая схема методов
Стандартный подход
Контроль размера критической
области.
Выбираем αi = αi (α)
(i)
и строим Rαi : αi = P0 ti (Xi ) ∈ Rαi так, чтобы
F W ER 6 α
Альтернативный вариант
Cчитаем «подправленные» p-значения:
p˜i = p˜i (pi , α)
и отвергаем те Hi , для которых p˜i < α.
Но... как?
Введение
Частные вещи
Контроль FWER
Метод Бонферрони
Рецепт:
αi = α/m
Контроль FDR
Введение
Частные вещи
Контроль FWER
Контроль FDR
Метод Бонферрони
Рецепт:
αi = α/m
Почему все работает?


o
[ n
F W ER = P(V > 1) = P 
ti (Xi ) ∈ Rα(i)i  6
i∈M0
6
X
i∈M0
m
0
P0 ti (Xi ) ∈ Rα(i)i =
α6α
m
Введение
Частные вещи
Контроль FWER
Контроль FDR
Метод Бонферрони
Рецепт:
αi = α/m
Почему все работает?


o
[ n
F W ER = P(V > 1) = P 
ti (Xi ) ∈ Rα(i)i  6
i∈M0
6
X
i∈M0
m
0
P0 ti (Xi ) ∈ Rα(i)i =
α6α
m
Альтернативный рецепт:
p˜i = min {1, mpi }
Введение
Частные вещи
Контроль FWER
Контроль FDR
Исходные p-значения
10^0
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●●●●●
●●
●●●●
●●
●
●●●
●
●●
●
●●●
Adjusted p−value
10^−1
10^−2
10^−3
10^−4
●●
●●
●
●
●
10^−5
●
● ●
●
●
10^−6
●
●
●
●
10^0
10^1
10^2
10^3
Genes ordered by a p−value
Total: 1127 significant
10^4
Введение
Частные вещи
Контроль FWER
Контроль FDR
Скорректированные по Бонферрони p-значения
10^0.0
●●●●●●●●●●●●●●●●●●●●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
Adjusted p−value
●
10^−0.5
●
●
10^−1.0
●
●
●
●
10^−1.5
●
●
10^−2.0
●
●
●
10^0
10^1
10^2
10^3
Genes ordered by a p−value
Total: 5 significant
10^4
Введение
Частные вещи
Контроль FWER
Контроль FDR
Особенности
Проблемы:
Мощность падает с ростом m
Консервативен: что если если m0 < m?
Сложна интерпретация: понятие «значимо» зависит от
кол-ва проведенных тестов
Достоинства:
Универсален: не зависит от характера гипотез, их
взаимосвязи и т.п.
Введение
Частные вещи
Контроль FWER
Можно ли лучше?
˘ ak):
Метод Шидака (Sid´
α1 = · · · = αm = 1 − (1 − α)m ,
p˜i = 1 − (1 − pi )m
Работает в случае, когда ti (Xi ) независимы
Контроль FDR
Введение
Частные вещи
Контроль FWER
Контроль FDR
Метод Холма
1
Упорядочить все p-значения:
p[1] < p[2] < · · · < p[m]
2
Соответствующим образом переупорядочить гипотезы:
H[1] , . . . , H[m]
3
Отвергнуть все H[j] , j = 1, . . . , j0 , для которых
p[j] 6
α
m−j+1
Имеем пошаговую процедуру!
Введение
Частные вещи
Контроль FWER
Метод Холма
Исправленные p-значения:
p˜[i] = max max (m − j + 1)p[j] , 1
j6i
Если все независимо, то можно «улучшить» при помощи
метода Шидака (метод Шидака-Холма):
p˜[i] = max max 1 − (1 − p[j] )m−j+1 , 1
j6i
Контроль FDR
Введение
Частные вещи
Контроль FWER
Контроль FDR
Скорректированные по Холму p-значения
10^0.0
●●●●●●●●●●●●●●●●●●●●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
Adjusted p−value
●
10^−0.5
●
●
10^−1.0
●
●
●
●
10^−1.5
●
●
10^−2.0
●
●
●
10^0
10^1
10^2
10^3
Genes ordered by a p−value
Total: 5 significant
10^4
Введение
Частные вещи
Контроль FWER
Контроль FDR
Метод Холма
Не сильно лучше метода Бонферрони, т.к. мы смотрим на:
!
α
α
1
p[j] 6
=
,
m−j+1
m 1 + j−1
m
а j/m обычно очень мало в задачах биоинформатики...
Введение
Частные вещи
Можно ли все-таки лучше?
Контроль FWER
Контроль FDR
Введение
Частные вещи
Контроль FWER
Можно ли все-таки лучше?
Мир жесток
Контроль FDR
Введение
Частные вещи
Контроль FWER
Контроль FDR
Можно ли все-таки лучше?
Оказывается в общем случае нет:
Вообще говоря, без дополнительных предположений
нельзя построить более мощную процедуру, нежели метод
Холма
А если все независимо, то нельзя построить более мощную
процедуру, нежели метод Шидака-Холма
Введение
Частные вещи
Контроль FWER
Контроль FDR
Можно ли все-таки лучше?
Оказывается в общем случае нет:
Вообще говоря, без дополнительных предположений
нельзя построить более мощную процедуру, нежели метод
Холма
А если все независимо, то нельзя построить более мощную
процедуру, нежели метод Шидака-Холма
Для того, чтобы получить что-то разумное, нужно от чего-то
отказаться
Введение
Частные вещи
Контроль FWER
FDR
False Discovery Rate:
F DR = E
V
[R > 0]
R
Контроль False Discovery Rate на уровне α:
V
F DR = E
[R > 0] 6 α при любом наборе M0
R
Контроль FDR
Введение
Частные вещи
Контроль FWER
Контроль FDR
Почему FDR?
Часто тесты используются для «отбора» интересных
признаков
Основан на принципе, что 4 ошибки из 10 отвергнутых
гипотез — это более неприятная вещь, нежели 20 ошибок
из 100 отвергнутых гипотез
Увеличение мощности при сохранении того же принципа
ошибок.
Введение
Частные вещи
Контроль FWER
Контроль FDR
Метод Бенджамини-Хохберга
Снова пошаговая процедура:
Упорядочить все p-значения:
p[1] < p[2] < · · · < p[m]
Соответствующим образом переупорядочить гипотезы:
H[1] , . . . , H[m]
Положить
α1 =
α
αi
, . . . , αi = , . . . , αm = α
m
m
Отвергнуть H[1] , . . . , H[j] , если:
p[j+1] > αj+1 , . . . , p[m] > αm
Введение
Частные вещи
Контроль FWER
Контроль FDR
5*10^−4
5*10^−5
5*10^−6
p−value
5*10^−3
Метод Бенджамини-Хохберга
• •
•
• ••
•••
•••••••
•
•
•
•
•
•••••
•••••••
•
•
•••••••
••••••••
•
•
•••
••••••••
•
•
•
•
•
•
•
•
•
••••••
•
•
•
•••••
•
••
•
•
1
5
10
50
Genes ordered by p−value
100
Введение
Частные вещи
Контроль FWER
Контроль FDR
Метод Бенджамини-Хохберга
Модифицированные p-значения:
p˜[i] = min min{p[j]
j>i
m
, 1}
j
Свойства:
Осуществляет контроль FDR на уровне α при условии
независимости ti (Xi ):
F DR 6
m0
α
m
Обычно более мощный, нежели методы, контролирующие
FWER
Мощность может быть увеличена в случае m0 < m.
Введение
Частные вещи
Контроль FWER
Контроль FDR
Метод Бенджамини-Хохберга
10^0.0
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
Adjusted p−value
10^−0.5
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●●●●●●●●●
●●
●●
●●●
10^−1.0
●
●
●●●●
● ●●●
10^−1.5
●
●
●
10^−2.0
●
● ● ●
●
10^−2.5
●
10^0
●
●
●
10^1
10^2
10^3
Genes ordered by a p−value
Total: 19 significant
10^4
Введение
Частные вещи
Контроль FWER
Контроль FDR
Метод Бенджамини-Кригера-Иекутелли
Увеличение мощности за счет оценки m0 :
1
Метод BH с уровнем F DR = β1 =
отвергнутых гипотез
2
Если r1 = 0, то ничего не делать
3
Положить m
ˆ 0 = m − r1
4
Метод BH с уровнем F DR =
β2 m
m
ˆ0 ,
α
1+α .
Пусть r1 — кол-во
β2 =
α
1+α .
Метод работает достаточно хорошо в случае, когда структура
зависимости между гипотезами не известна.
Введение
Частные вещи
Контроль FWER
Контроль FDR
Метод Бенджамини-Кригера-Иекутелли
10^0.0
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
Adjusted p−value
10^−0.5
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●●●●●●●●●
●●
●●
●●●
10^−1.0
●
●
●●●●
● ●●●
10^−1.5
●
●
●
10^−2.0
●
● ● ●
●
10^−2.5
●
10^0
●
●
●
10^1
10^2
10^3
Genes ordered by a p−value
Total: 19 significant
10^4
Введение
Частные вещи
Контроль FWER
Что есть в R
Функция p.adjust
Пакет mutoss
Пакет multcomp на BioConductor’е
Пакет fdrtool для оценивания FDR
Контроль FDR
Введение
Частные вещи
Контроль FWER
Контроль FDR
Когда надо и когда не надо исправлять p-значения
Не исправлять: первичный анализ данных и обзор,
формулировка гипотез и свойств. Всегда следует
приводить общее количество тестов: «Мы провели 40
тестов и 10 отвергли нулевую гипотезу»
Контроль FDR (обычно FDR < 0.1): исследование и отбор
признаков для последующего (более сложного и дорогого)
анализа. Баланс между мощностью и ложными
срабатываниями.
Контроль FWER (обычно FWER < 0.05): подтверждение
выводов, строгий контроль за вероятностью ошибок
первого рода.
Спасибо за внимание!
1/--страниц
Пожаловаться на содержимое документа