Применяя однофакторный дисперсионный анализ, мы можем проверить нулевую гипотезу о том, что все сравниваемые группы происходят из одной генеральной совокупности, и следовательно их средние значения не различаются, т.е. \(H_0: \mu_1 =  \mu_2 = \dots = \mu_m\). Если нулевую гипотезу не удается отвергнуть при заданном уровне значимости (например, \(\alpha = 0.05\)), в дальнейшем анализе, в принципе, нет необходимости. Но что, если нулевая гипотеза отвергается? В этом случае мы делаем заключение о том, что средние значения сравниваемых групп значительно различаются (другими словами, изучаемый фактор оказывает существенное влияние на интересующую нас переменную). Это единственный вывод, который можно сделать при помощи дисперсионного анализа как такового. Однако обычно нам интересно пойти дальше и выяснить, где именно лежат различия, т.е. какие именно группы отличаются друг от друга. Чтобы узнать это, необходимо выполнить попарные сравнения средних значений имеющихся групп. Как было отмечено ранее, критерий Стьюдента "в чистом виде" для таких сравнений неприменим в силу возникновения эффекта множественных сравнений. Теоретически, Р-значения, получаемые при помощи критерия Стьюдента можно было бы скорректировать при помощи поправки Бонферрони. Однако при наличии большого числа сравниваемых групп метод Бонферрони становится очень консервативным, часто не позволяя отвергнуть даже те гипотезы, которые со всей очевидностью должны быть отвергнуты. Для решения описанной проблемы (т.е. для выполнения большого числа попарных сравнений групповых средних без потери статистической мощности) было разработано несколько методов. Это сообщение посвящено одному из них - популярному критерию Тьюки, или критерию достоверно значимой разности Тьюки (англ. Tukey's honestly significant difference test, или просто Tukey's HSD test). Критерий назван так в честь предложившего его американского математика и статистика Джона Тьюки (John Tukey).




Немного теории

Критерий Тьюки используется для проверки нулевой гипотезы \(H_0: \mu_B = \mu_A\) против альтернативной гипотезы \(H_0: \mu_B \neq \mu_A\), где индексы \(A\) и \(B\) обозначают любые две сравниваемые группы. При наличии \(m\) групп всего возможно выполнить \(m(m - 1)/2\) попарных сравнений.

Первый шаг заключается в упорядочивании всех имеющихся групповых средних значений по возрастанию (от 1 до \(m\)). Далее выполняют попарные сравнения этих средних так, что сначала сравнивают наибольшее среднее с наименьшим, т.е. \(m\)-ое с 1-ым, затем \(m\)-ое со 2-ым, 3-м, и т.д. вплоть до \((m - 1)\)-го. Затем предпоследнее среднее, \((m - 1)\)-ое, тем же образом сравнивают с 1-ым, 2-ым, и т.д. до \((m - 2)\)-го. Эти сравнения продолжаются до тех пор, пока не будут перебраны все пары.

Указанные сравнения выполняются при помощи критерия Тьюки, который представляет собой модифицированный критерий Стьюдента:

\[ q = \frac{\bar{x}_B - \bar{x}_A}{SE} \]

Отличие от критерия Стьюдента заключается в том, как рассчитывается стандартная ошибка \(SE\):

\[ SE = \sqrt{\frac{MS_w}{n}}, \]

где \(MS_w\) - рассчитываемая в ходе дисперсионного анализа внутригрупповая дисперсия.

Приведенная формула для критерия Тьюки верна для случаев, когда все сравниваемые группы содержат одинаковое число наблюдений, \(n\). Если сравниваемые группы неодинаковы по размеру, стандартная ошибка будет рассчитываться следующим образом:

\[ SE = \sqrt{\frac{MS_w}{2} \left ( \frac{1}{n_A} + \frac{1}{n_B} \right ) } \]

Благодаря тому обстоятельству, что в приведенные выше формулы стандартной ошибки входит внутригрупповая дисперсия \(MS_w\), обеспечивается контроль над групповой вероятностью ошибки первого рода. Именно это делает критерий Тьюки подходящим критерием для выполнения большого числа попарных сравнений групповых средних.

Проверяемые нулевые гипотезы принимают или отвергают либо путем сравнения получаемых значений критерия \(q\) с определенным критическим значением для выбранного уровня значимости, либо рассчитывая соответствующие Р-значения (подробнее см. примеры для критерия Стьюдента). 


Реализация в R

В R множественные сравнения групповых средних при помощи теста Тьюки можно выполнить несколькими способами. В этом сообщении мы рассмотрим функцию TukeyHSD(), входящую в базовую версию R.

В качестве примера используем данные по содержанию стронция (мг/мл) в пяти водоемах США (пример заимствован из книги Zar 1999):

waterbodies <- data.frame(Water = rep(c("Grayson", "Beaver",
                                       "Angler", "Appletree",
                                       "Rock"), each = 6),
                          Sr = c(28.2, 33.2, 36.4, 34.6, 29.1, 31.0,
                                 39.6, 40.8, 37.9, 37.1, 43.6, 42.4,
                                 46.3, 42.1, 43.5, 48.8, 43.7, 40.1,
                                 41.0, 44.1, 46.4, 40.2, 38.6, 36.3,
                                 56.3, 54.1, 59.4, 62.7, 60.0, 57.3)
                          )

На рисунке ниже эти данные представлены графически:



Необходимо выяснить, 1) есть ли существенные различия между этими водоёмами по содержанию стронция в целом и, если есть, 2) какие именно водоемы отличаются друг от друга. Для ответа на первый вопрос выполним дисперсионный анализ при помощи функции aov():

M <- aov(Sr ~ Water, data = waterbodies)
summary(M)
 
            Df Sum Sq Mean Sq F value   Pr(>F)    
Water        4 2193.4   548.4   56.16 3.95e-12 ***
Residuals   25  244.1     9.8                     
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Как видно из полученных результатов, обследованные водоемы статистически значимо различаются по содержанию стронция. Для того чтобы выяснить, где именно лежат различия, достаточно подать объект M на функцию TukeyHSD():

TukeyHSD(M)

  Tukey multiple comparisons of means
    95% family-wise confidence level
 
Fit: aov(formula = Sr ~ Water, data = waterbodies)
 
$Water
                         diff        lwr       upr     p adj
Appletree-Angler   -2.9833333  -8.281979  2.315312 0.4791100
Beaver-Angler      -3.8500000  -9.148645  1.448645 0.2376217
Grayson-Angler    -12.0000000 -17.298645 -6.701355 0.0000053
Rock-Angler        14.2166667   8.918021 19.515312 0.0000003
Beaver-Appletree   -0.8666667  -6.165312  4.431979 0.9884803
Grayson-Appletree  -9.0166667 -14.315312 -3.718021 0.0003339
Rock-Appletree     17.2000000  11.901355 22.498645 0.0000000
Grayson-Beaver     -8.1500000 -13.448645 -2.851355 0.0011293
Rock-Beaver        18.0666667  12.768021 23.365312 0.0000000
Rock-Grayson       26.2166667  20.918021 31.515312 0.0000000

В первом столбце полученной таблицы перечислены пары сравниваемых водоемов. Во втором столбце содержатся разности между соответствующими групповыми средними. Третий и четвертый столбцы содержат значения нижнего (lwr) и верхнего (upr) 95%-ных доверительных пределов для соответствующих разностей. Наконец, в пятом столбце представлены Р-значения для каждой из сравниваемых пар водоемов. Хорошо видно, что существенной  разницы в парах "Appletree-Angler", "Beaver-Angler" и "Beaver-Appletree"  нет (Р > 0.05), тогда как во всех остальных случаях разница статистически значима. В целом полученные результаты хорошо согласуются визуальной оценкой различий, которую можно сделать, глядя на приведенную выше диаграмму размахов.

Результаты попарных сравнений групповых средних можно легко изобразить на графике:

par(mar = c(4.5, 8, 4.5, 4.5))
plot(TukeyHSD(M), las = 1)



На представленном рисунке приведены разности между групповыми средними (Differences in mean levels of Water) и их доверительные интервалы, рассчитанные с учетом контроля над групповой вероятностью ошибки (95% family-wise confidence level). В трех случаях доверительные интервалы включают 0, что указывает на отсутствие различий между соответствующими группами (сравните с Р-значениями выше).


Условия применимости критерия Тьюки

Хотя теория того не требует, критерий Тьюки и другие подобные ему методы рекомендуется применять после того, как дисперсионный анализ установил наличие существенной разницы между группами в целом (Zar 1999). В связи с этим критерий Тьюки относится к методам апостериорного анализа (post-hoc analysis).

Критерий Тьюки имеет те же условия применимости, что и собственно дисперсионный анализ, т.е. нормальность распределения данных и (особенно важно!) однородность групповых дисперсий (подробнее см. здесь). Устойчивость к отклонению от этих условий, равно как и статистическая мощность критерия Тьюки, возрастают при одинаковом числе наблюдений во всех сравниваемых группах (Zar 1999).

10 Комментарии

Анонимный написал(а)…
Сергей, здравствуйте. Очень надеюсь, что вы заметите этот комментарий и сможете нам помочь.
Мы – небольшая группа, которая затеяла некоммерческий краудфандинговый фармакологический проект. Суть его сводится к тестированию веществ на крысах. У нас есть контракт с одной лабораторией, и мы можем за ту сумму, которую планируем собрать, испытать 5 веществ (плюс плацебо и интактные) на 7 крысах, т.е. 7 групп по 7 крыс.
Проблема в том, что мы не знаем, как прикинуть, какую статистически значимую разницу мы сможем на таком количестве животных засечь, и нам не хочется проводить исследование, заведомо понимая, что статистически достоверного результата не будет. Сами мы химики, и со сложной статистикой не сталкивались, а там ненормальное распределение и куча множественных сравнений. У нас есть материалы одной диссертации, которые вроде как должны помочь, но мы не очень понимаем, как именно их использовать. Помогите, нам, пожалуйста. С уважением, Дмитрий.
(superhimik.livejournal.com)
Sergey Mastitsky написал(а)…
Здравствуйте, Дмитрий!


Описанная Вами проблема – по сути, проблема о статистической мощности при наличии нескольких зависимых переменных – не имеет простого решения. Если копнете литературу по клиническим испытаниям – увидите, насколько эта проблема обширна и обсуждаема. В значительной мере отсутствие «простого» решения затрудняется тем, что не существует какого-то общепринятого подхода (читай «модели») для анализа такого рода данных, тогда как разговор о статистической мощности можно вести только в приложении к конкретному методу/модели. Кроме того, сам исследовательский вопрос можно сформулировать по-разному, что также будет определять выбор соответствующих статистических методов (например, можно попробовать multivariate analysis of variance (MANOVA), но можно также рассматривать все и как проблему классификации на основе большого числа предикторов, с последующим выявлением предикторов, наиболее «важных» для разграничения классов).


Максимум, что я могу сделать со своей стороны для вас – это подсказать, в «какую сторону смотреть» для нахождения приемлемого решения. Для начала, несколько, статей, обсуждающих проблему:


http://goo.gl/dj2iYO
http://goo.gl/rvfelw
http://goo.gl/UPUAjW
http://goo.gl/FAyNrp


Многие из обсуждаемых в этих статьях методы легко реализуются в R. Примеры здесь:


http://r-analytics.blogspot.de/2014/01/multcomp.html
http://r-analytics.blogspot.de/2013/11/blog-post_11.html
http://r-analytics.blogspot.de/2013/11/blog-post.html
http://r-analytics.blogspot.de/2013/10/blog-post_13.html


Для R имеются также специальные пакеты, позволяющие выполнять множественные сравнения при наличии нескольких зависимых переменных:


http://cran.r-project.org/web/packages/multxpert/index.html
http://cran.r-project.org/web/packages/SimComp/index.html
см. также комментарии к сообщению: http://r-analytics.blogspot.de/2013/10/blog-post.html


Наконец, просто чтобы примерно прикинуть, чего можно ожидать от ваших размеров групп, попробуйте сделать расчеты мощности, игнорируя тот факт, что в действительности будет проводиться большое число сравнений для нескольких зависимых переменных, измеренных на одних и тех же животных. См. примеры здесь:


http://r-analytics.blogspot.de/2012/10/t.html
http://r-analytics.blogspot.de/2012/10/blog-post.html
http://www.statmethods.net/stats/power.html


Надеюсь, это как-то поможет. Успехов с проектом!
Анонимный написал(а)…
Сергей, спасибо!
Артем написал(а)…
А в чем разница в учете эффекта множественных критериев в описанном случае (с помощью критерия Тьюки) и в случае когда мы изучаем влияние фактора на несколько параметров (где обычно применяется например FDR или какой-нибудь FWER)? Разве это не аналогичные ситуации?
Kella написал(а)…
Здравствуйте!
Интересная статья, спасибо!

Не понятен один момент - внутригрупповая дисперсия для подсчёта критерий Тьюки (MSw) считается на двух проверяемых парах групп в данный момент или над всеми выборками?
Добрый день, такой вопрос: а если для метода Тьюки использовать рандомизацию разности средних, тогда отпадает условие равенства дисперсий и нормальности распределения?
Анонимный написал(а)…
"Отличие от критерия Стьюдента заключается в том, как рассчитывается стандартная ошибка SE"
При расчете доверительных интервалов используется квантиль(95%)*SE. В случае со Стьюдентом квантиль находится по известной таблице со степенью свободы n-1. Как найти квантиль в данном случае и какие у него будут степени свободы?
Александр
Unknown написал(а)…
Доброго времени суток, есть ли непараметрический аналог критерия Тьюки? я правильно понимаю: после проведения дисперсионный анализ по Краскелу-Уоллису, по идее, что бы получить p.value с поправкой на множественные сравнения нужно и можно использовать TukeyHSD(), но R не дает этого сделать, может я что то не так делаю, или где-то ошибаюсь.
q <- kruskal.test(возраст ~ Диагноз, data = mydata)
TukeyHSD(q)
# Диагноз: Factor w/ 5 levels "Норма","ОГ","ПОУГ",..: 1 2 4 5 4 4

И второй вопрос: реализована ли в R возможность расчета отличий средних значений другой переменной (например уровень систолического артериального давления), с поправкой на возраст, при условии отличного от нормального распределения возраста в подгруппах.
Заранее спасибо за ответ.
White Unicorn написал(а)…
Здравствуйте! Очень интересная и информативная статья! Я на данный момент студент второго курса и пока недостаточно хорошо владею основами статистики. Моей целью является сравнение 4 групп животных (по 30 особей каждая) по 13 морфологическим признакам т.е. по каким из этих признаков значимо отличаются группы и какие именно группы. Я правильно понимаю, что для этого я должен использовать MANOVA? Для того чтобы сделать поправку на множественное сравнение, должен ли я использовать поправку Бонферрони (так как имею 4 группы) или критерий Тьюки, а может для подобного анализа существует другой критарий? Заранее спасибо!
Dr. Tseitlin написал(а)…
Мне не нравится представление, предложенное выдающимся статистиком Тьюки. Оно – и громоздкое, и малоэффективное (какие-то нелепые коробки)! Я предпочитаю пользоваться построением и сравнением функций распределения выборок более иллюстративным методом доверительных интервалов (МДИ) http://biometrica.tomsk.ru/A-metod-HPI-2.pdf
Новые Старые