Позволяет ли правильное лечение сократить срок госпитализации?

Стоимость пребывания в больнице — самая весомая статья расходов на здравоохранение. Сокращение госпитализации без снижения качества лечения дало бы значительный экономический эффект. Способствует ли соблюдение официальных схем лечения сокращению госпитализации? Чтобы ответить на этот вопрос, Кнапп и соавт.* изучили истории болезни лиц, поступивших в бесплатную больницу с острым пиелонефритом. Острый пиелонефрит был выбран как заболевание, имеющее четко очерченную клиническую картину и столь же четко регламентированные методы лечения.

Эта работа — пример обсервационного исследования. В отличие от экспериментального исследования, где исследователь сам формирует группы и сам оказывает то или иное воздействиев обсервационном исследовании он может лишь наблюдать течение процесса. С другой стороны, это исследование — ретроспективное, поскольку имеет дело с данными, полученными в прошлом (в отличие от проспективного). В обсервационном исследовании мы никогда не можем гарантировать, что группы различаются только тем признаком, по которому они были сформированы. Этот неустранимый недостаток исследований такого рода. Известно, например, что курильщики чаще болеют раком легких. Это считается доказательством того, что курение вызывает рак легких. Однако возможна и другая точка зрения у людей с генетической предрасположенностью к раку легких существует и генетическая предрасположенность к курению. В обсервационном исследовании отвергнуть такое объяснение невозможно.

Ретроспективное исследование, естественно, всегда является обсервационным, разделяя недостатки последнего, оно обладает и рядом собственных. Исследователь использует информацию, собранную для других целей, — естественно, часть ее приходится реконструировать, еще часть неизбежно теряется. Меняются методы исследования, диагностические критерии, наконец, истории болезни ведутся порой небрежно. Кроме того, имея весь материал в руках, здесь особенно трудно удержаться от непреднамеренной подтасовки.

Тем не менее, ретроспективные исследования проводились и будут проводиться. Они недороги и позволяют получить большой объем информации в короткий срок. Последнее особенно важно в случае редкого заболевания при проспективном исследовании на сбор данных уйдут годы. В примере, который мы разбираем, проспективное исследование вообще невозможно нельзя же, в самом деле, одну группу больных лечить правильно, а другую неправильно.

Чтобы избежать ловушек обсервационного (и особенно ретроспективного) исследования, чрезвычайно важно в явном виде задать критерии, по которым больных относили к той или иной группе. Самому исследователю это поможет избежать невольного самообмана, читателю работы это даст возможность судить, насколько результаты исследования приложимы к его больным. Кнапп и соавт. сформулировали следующие критерии включения в исследование.

1. Диагноз при выписке — острый пиелонефрит.

2. При поступлении — боли в пояснице, температура выше 37,8°С.

3. Бактериурия более 100 000 колоний/мл, определена чувствительность к антибиотикам.

4. Возраст от 18 до 44 лет (больных старше 44 лет не включали в связи с высокой вероятностью сопутствующих заболеваний, ограничивающих выбор терапии).

5. Отсутствие почечной, печеночной недостаточности, а также заболеваний, требующих хирургического лечения (эти состояния тоже ограничивают выбор терапии).

6. Больной был выписан в связи с улучшением (то есть не покинул больницу самовольно, не умер и не был переведен в другое лечебное учреждение).

Кроме того, исследователи сформулировали критерий того, что считать «правильным» лечением. Правильным считалось лечение, соответствующее рекомендациям авторитетного справочника по лекарственным средствам «Physicians’ Desk Reference» («Настольный справочник врача»). По этому критерию больных разделили на две группы леченных правильно (1-я группа) и неправильно (2-я группа). В обеих группах было по 36 больных. Результат представлен на рис. 3.7. Средняя длительность госпитализации составила для первой группы 4,51 сут. (стандартное отклонение 1,98 сут.), для второй группы 6,28 сут. (стандартное отклонение 2,54 сут). Можно ли считать эти различия случайными? Прибегнем к дисперсионному анализу.

можно вычислить F — как отношение межгрупповой к внутригрупповой дисперсии:

Рассчитаем межгрупповое и внутри групповое число степеней свободы νмеж = 2 – 1 = 1, νвну = 2 (36 – 1) = 70. Теперь по таблице найдем критическое значение F. На пересечении столбца «1» и строки «70» находим число 7,01, набранное жирным шрифтом. То есть при уровне значимости 0,01 критическое значение F составляет 7,01. Итак, на наш вопрос можно ли считать различия в длительности госпитализации случайными мы можем дать ответ, вероятность этого весьма мала меньше 1%. Леченные правильно находились в больнице меньше чем, леченные неправильно и различия эти статистически значимы.

Значит ли это, что благодаря правильному лечению больные выздоравливают быстрее? Увы, нет. Как это всегда бывает в обсервационном исследовании, мы не можем исключить того, что группы различались чем-то еще кроме лечения. Может быть, врачи, которые лечат «по справочнику» просто более склонны быстрее выписывать своих больных?

Критерий Стьюдента

Нередко нужно сравнить только две группы. В этом случае можно применить критерий Стьюдента. Критерий Стьюдента — это частный случаи дисперсионного анализа. Критерий Стьюдента чрезвычайно популярен, он используется более чем в половине медицинских публикаций.

Однако следует помнить, что этот критерий предназначен для сравнения именно двух групп, а не нескольких групп попарно.

Ошибочное использование критерия Стьюдента увеличивает вероятность «выявить» не существующие различия. Например, вместо того чтобы признать несколько методов лечения равно эффективными (или неэффективными), один из них объявляют «лучшим».

Принцип метода

Для двух случайных выборок извлеченных из одной нормально распределенной совокупности это отношение, как правило, будет близко к нулю.

Чем меньше (по абсолютной величине) t, тем больше вероятность нулевой гипотезы. Чем больше t, тем больше оснований отвергнуть нулевую гипотезу и считать, что различия статистически значимы.

Для двух случайных выборок извлеченных из одной нормально распределенной совокупности это отношение, как правило, будет близко к нулю. Чем меньше (по абсолютной величине, по модулю) t, тем больше вероятность справедливости нулевой гипотезы. Чем больше t, тем больше оснований отвергнуть нулевую гипотезу и считать, что различия статистически значимы.

Величина критерия Стьюдента, начиная с которой отвергается нулевая гипотеза, называется критическим значением критерия Стьюдента (t_кр).

Если значение t критерия Стьюдента по модулю больше чем критическое значение критерия Стьюдента (найденное по таблице критических значений или рассчитанное при помощи программного обеспечения) для заданного уровня значимости, то нулевая гипотеза отвергается,и различия считаются статистически значимыми

Это означает, что если бы группы представляли собой две случайные выборки из одной и той же совокупности, то вероятность получить наблюдаемые различия (или более сильные) равна 0,05 (или другому значению выбранного уровня значимости). Следовательно, ошибочный вывод о существовании различий мы будем делать в 5% случаев. Застраховаться от подобных ошибок можно приняв уровень значимости не 0,05, а к примеру 0,01. Однако даже в этом случае ошибочные выводы о существовании различий все же не исключены - их вероятность снижается до 1% и в тоже время вероятность не найти различии там где они есть теперь повысилась

Критические значения t (подобно критическим значениям F они сведены в таблицу) зависят не только от уровня значимости, но и от числа степеней свободы ν= 2(n – 1), где n – объем выборок. Чем больше объем выборок, тем меньше критическое значение t. Это и понятно — чем больше выборка, тем менее выборочные оценки зависят от случайных отклонении и тем точнее представляют исходную совокупность.

Пример таблицы результатов анализа с использованием критерия Стьюдента

Критерий Стьюдента для двух разных выборок

Где

- объединенная оценка дисперсии

Это определение t для выборок произвольного объема. Число степеней свободы ν = n₁ + n₂ – 2.

Ошибки в использовании критерия Стьюдента

Критерий Стьюдента предназначен для сравнения двух групп. Однако на практике он широко используется для оценки различии большего числа групп посредством попарного их сравнения. При этом вступает в силу эффект множественных сравнений.

Рассмотрим пример. Исследуют влияние препаратов А и Б на уровень глюкозы плазмы. Исследование проводят на трех группах — получавших препарат А, получавших препарат Б и получавших плацебо В. С помощью критерия Стьюдента проводят 3 парных сравнения: группу А сравнивают с группой В, группу Б — с группой В и наконец А с Б. Получив достаточно высокое значение t в каком либо из трех сравнении сообщают что «P < 0,05». Это означает, что вероятность ошибочного заключения о существовании различии не превышает 5%. Но это неверно: вероятность ошибки значительно превышает 5%. Разберемся подробнее. В исследовании был принят 5% уровень значимости. Значит, вероятность ошибиться при сравнении групп А и В — 5%. Казалось бы все правильно. Но точно также мы ошибемся в 5% случаев при сравнении групп Б и В. И наконец при сравнении групп А и Б ошибка возможна также в 5% случаев. Следовательно, вероятность ошибиться хотя бы в одном из трех сравнении составит не 5%, а значительно больше. Итак, в нашем исследовании вероятность ошибиться хотя бы в одном из сравнений составляет примерно 15%. При сравнении четырех групп число пар и соответственно возможных попарных сравнений равно 6. Поэтому при уровне значимости в каждом из сравнений 0,05 вероятность ошибочно обнаружить различие хотя бы в одном равна уже не 0,05, а примерно 6 × 0,05 = 0,30. И когда исследователь, выявив таким способом «эффективный» препарат будет говорить про 5% вероятность ошибки, на самом деле эта вероятность равна 30%.

Правила использования критерия Стьюдента:

• Критерий Стьюдента может быть использован только в случае выборок с нормально распределенными значениями признака;

• Критерий Стьюдента может быть использован для проверки гипотезы о различии средних только для двух групп;

• Если схема эксперимента предполагает большее число групп, необходимо воспользоваться дисперсионным анализом;

• Если критерии Стьюдента был использован для проверки различий между несколькими группами, то истинный уровень значимости можно получить, умножив уровень значимости, приводимый авторами на число возможных сравнений

Ø Общая последовательность действий при использовании критерия Стьюдента:

1. Формирование таблиц результатов измерения (записываются и организуются в таблицу исследуемые показатели первой группы и показатели второй группы)

2. Выполняется анализ полученных данных (описательная статистика)

3. Проверка соответствия распределения данных нормальному закону распределения

4. Выбирается значение уровня значимости (в зависимости от строгости исследования: 0,1 или 0,05 или 0,01)

5. Формулируется нулевая гипотеза (различие между группами незначимо или является следствием случайности)

6. Рассчитывается значение критерия Стьюдента t (значение критерия, начиная с которого мы отвергаем нулевую гипотезу) и вероятность ошибочного результата P (вероятность ошибочно отвергнуть верную нулевую гипотезу, то есть найти различия там, где их нет)

7. На основании значения уровня значимости и количества элементов выборки определяется величина критического значения критерия t_кр(значение критерия, начиная с которого мы отвергаем нулевую гипотезу).

8. Сравниваются между собой t и t_кр, а также P и α, если t > t_кри P < α,то нулевая гипотеза отвергается и различия между группами статистически значимы, в противном случае различия – случайны или незначимы. Следует учитывать, что даже при обнаруженной статистической значимости различий исследователь может ошибаться, но допустимая вероятность равна уровню значимости.

Непараметрические критерии

Для определения эффективности одного или нескольких методов лечения используется дисперсионный анализ, в частности критерий Стьюдента. Эти критерии основаны на допущении, что наблюдаемый признак подчиняется нормальному распределению. Более того, для применимости этих методов требуется, чтобы сравниваемые совокупности имели одинаковые дисперсии. Различными могут быть только значения средних. По их различию и судят о различии совокупностей. Применяя тот или иной метод, нужно быть уверенным, что допущения, на которых он основан, выполняются хотя бы приближенно. Иначе велик риск, что, выполнив, казалось бы, правильную последовательность действий, мы придем к ошибочным выводам.

Условия применимости дисперсионного анализа и критерия Стьюдента выполняются часто, но не всегда. В одних случаях слишком велика разница дисперсий, в других распределение далеко от нормального. Наконец, измеряемый признак может оказаться нечисловым или «не вполне числовым». В такой ситуации следует воспользоваться непараметрическими методами (критерий χ2, другой пример — критерий Мак-Нимара)

Зачастую не представляется возможным с точностью говорить о нормальном распределении признака, или признак имеет не совсем числовой характер (например, порядковые признаки) (Любой количественный признак можно рассматривать как порядковый, но не наоборот.) В этом случае использовать параметрические критерии для сравнения групп недопустимо. И необходимо использовать критерии, основанные на рангах. Критерии, основанные на рангах, не нуждаются в предположениях о типе распределения. Единственное требование состоит в том, чтобы тип распределения в сравниваемых совокупностях был одинаковым. При этом не нужно знать, что это за распределение и каковы его параметры.

Поэтому зачастую (а в медицинских исследованиях даже очень часто) исследователю приходится пользоваться методами, которые не столь требовательны к типу распределения. Такие методы называются непараметрическими.

Непараметрические методы заменяют реальные значения признака рангами.

Каждому значению признака в группе присваивается свой ранг в зависимости от величины значения признака.

Пример:

Вариационный ряд 17,2 21,8 24,6

Ранги

Критерии, основанные на рангах, не нуждаются в предположениях о типе распределения. Единственное требование состоит в том, чтобы тип распределения в сравниваемых совокупностях был одинаковым. При этом не нужно знать, что это за распределение и каковы его параметры

При использовании непараметрических критериев большая часть информации о распределении сохраняется, но нет необходимости знать, что это за распределение. Исследователя не интересуют более параметры распределения, отпадает и необходимость равенства дисперсий.

Если выполняется условие нормальности распределения, параметрические критерии обеспечивают наибольшую чувствительность. Если же это условие не выполняется хотя бы приблизительно, их чувствительность существенно снижается и непараметрические критерии дают больше шансов выявить реально существующие различия

Как выяснить, согласуются ли данные с предположением о нормальности распределения? Простейший способ состоит в том, чтобы нанести их на график. Нарисовав график, посмотрите, похож ли он на нормальное распределение:

· Похожа ли его форма на график нормального распределения;

· Важным моментом является достаточная симметричность относительно среднего;

· Покрывают ли интервал (равный плюс-минус двум стандартным отклонениям от среднего) практически все наблюдения?

· Сравните графики для разных групп;

· Близок ли разброс значений? Выясните, насколько близки по величине значения дисперсий в обеих группах.

Если ответы на все вопросы утвердительны (допускаются небольшие отклонения), воспользуйтесь параметрическим критерием. В противном случае следует использовать непараметрический критерий. Изложенный прием почти наверняка поможет правильно выбрать тип критерия и как следствие правильный метод анализа.

Сравнение двух выборок: критерий Манна—Уитни

Упорядочив значения признака и перейдя от реальных значений к рангам, мы поступим несколько иначе. Мы просто перечислим все возможные варианты упорядочивания двух групп. Мерой отличия рангов в групах изберем сумму рангов в меньшей из групп и обозначим ее Т - T-критерий Манна—Уитни.

Ø Порядок его вычисления таков:

1. Данные обеих групп объединяют и упорядочивают по возрастанию. Ранг 1 присваивают наименьшему из всех значений, ранг 2 — следующему и так далее. Наибольший ранг присваивают самому большому среди значений в обеих группах. Если значения совпадают, им присваивают один и тот же средний ранг (например, если два значения поделили 3-е и 4-е места, обоим присваивают ранг 3,5).

2. Для меньшей группы вычисляют Т — сумму рангов ее членов. Если численность групп одинакова, Т можно вычислить для любой из них.

3. Полученное значение T сравнивают с критическими значениями. Если Т меньше или равно первому из них либо больше или равно второму, то нулевая гипотеза отвергается (различия статистически значимы).

Сравнение наблюдений до и после лечения:критерий Уилкоксона

Принцип критерия следующий. Для каждого больного вычисляют величину изменения признака. Все изменения упорядочивают по абсолютной величине (без учета знака). Затем рангам приписывают знак изменения и суммируют эти «знаковые ранги» — в результате получается значение критерия Уилкоксона W. Как видим, используется информация об абсолютной величине изменения и его знаке (то есть уменьшении или увеличении наблюдаемого признака). Метод основан на рангах, поэтому не нуждается в предположениях о типе распределения изменений. Как в случае с критерием Манна— Уитни, здесь также можно перечислить все возможные величины W и найти критическое значение. Исходно ранги присваиваются в соответствии с абсолютной величиной изменения.

Ø Последовательность шагов:

1. Вычислите величины изменений наблюдаемого признака. Отбросьте пары наблюдений, которым соответствует нулевое изменение.

2. Упорядочите изменения по возрастанию их абсолютной величины и присвойте соответствующие ранги. Рангами одинаковых величин назначьте средние тех мест, которые они делят в упорядоченном ряду.

3. Присвойте каждому рангу знак в соответствии с направлением изменения: если значение увеличилось — «+», если уменьшилось — «–».

4. Вычислите сумму знаковых рангов W (Существует вариант критерия Уилкоксона, в котором суммируют только положительные или только отрицательные знаковые ранги. На выводе это никак не сказывается, однако значение W, естественно, получается другим. Поэтому важно знать, на какой вариант критерия рассчитана имеющаяся в вашем распоряжении таблица критических значений.).

5. Сравните полученную величину W с критическим значением. Если она больше критического значения, изменение показателя статистически значимо.

Сравнение нескольких групп: критерий Крускала-Уоллиса

Эта задача возникает, например, когда нужно определить, одинаково ли эффективны несколько методов лечения, каждый из которых испытывается на отдельной группе. Предполагалось, что данные, полученные для каждой из групп, подчиняются нормальному распределению, причем дисперсии по всем группам примерно одинаковы. Познакомимся с непараметрическим аналогом дисперсионного анализа, не требующим предположения о нормальности распределения. Это критерий Крускала—Уоллиса.

Критерий Крускала—Уоллиса представляет собой обобщение критерия Манна—Уитни. Сначала все значения, независимо от того, какой выборке они принадлежат, упорядочивают по возрастанию. Каждому значению присваивается ранг — номер его места в упорядоченном ряду. (Совпадающим значениям присваивают общий ранг, равный среднему тех мест, которые эти величины делят между собой в общем упорядоченном ряду.) Затем вычисляют суммы рангов, относящихся к каждой группе, и для каждой группы определяют средний ранг. При отсутствии межгрупповых различий средние ранги групп должны оказаться близки. Напротив, если существует значительное расхождение средних рангов, то гипотезу об отсутствии межгрупповых различий следует отвергнуть. Значение критерия Крускала—Уоллиса H и является мерой такого расхождения средних рангов.

Ø Последовательность анализа:

1. Объединив все наблюдения, упорядочить их по возрастанию. Совпадающим значениям ранги присваиваются как среднее тех мест, которые делят между собой эти значения.

2. Вычислить критерий Крускала—Уоллиса Н.

3. Сравнить вычисленное значение Н с критическим значением χ2 для числа степеней свободы, на единицу меньшего числа групп. Если вычисленное значение Н окажется больше критического, различия групп статистически значимы.

Непараметрическое множественное сравнение

Потребность во множественном сравнении возникает всякий раз, когда с помощью дисперсионного анализа (или его непараметрического аналога — критерия Крускала—Уоллиса) обнаруживается различие нескольких выборок. В этом случае и требуется установить, в чем состоит это различие. В гл. 4 мы познакомились с параметрическими методами множественного сравнения. Они позволяют сравнить группы попарно и затем объединить их в несколько однородных наборов так, что различия между группами из одного набора статистически незначимы, а между группами из разных наборов — значимы. Кроме того, они позволяют сравнить все группы с контрольной. К счастью, параметрические методы множественного сравнения легко преобразовать в непараметрические. Когда объемы выборок равны, для множественного сравнения используют непараметрические варианты критериев Ньюмена—Кейлса и Даннета. Когда же объемы выборок различны, применяется критерий Данна.

Повторные измерения: критерий Фридмана

Если одна и та же группа больных последовательно подвергается нескольким методам лечения или просто наблюдается в разные моменты времени, применяют дисперсионный анализ повторных измерений (гл. 9). Но чтобы использование дисперсионного анализа было правомерно, данные должны подчиняться нормальному распределению. Если вы в этом не уверены, лучше воспользоваться критерием Фридмана — непараметрическим аналогом дисперсионного анализа повторных измерений.

Логика критерия Фридмана очень проста. Каждый больной ровно один раз подвергается каждому методу лечения (или наблюдается в фиксированные моменты времени). Результаты наблюдений у каждого больного упорядочиваются. Обратите внимание, что если раньше мы упорядочивали группы, то теперь мы отдельно упорядочиваем значения у каждого больного независимо от всех остальных. Таким образом, получается столько упорядоченных рядов, сколько больных участвует в исследовании. Далее, для каждого метода лечения (или момента наблюдения) вычислим сумму рангов. Если разброс сумм велик — различия статистически значимы.

Ø Порядок расчета критерия Фридмана:

1. Расположите значения для каждого больного по возрастанию, каждому значению присвойте ранг.

2. Для каждого из методов лечения подсчитайте сумму присвоенных ему рангов.

3. Вычислите значение χ_r² .

4. Если число методов лечения и число больных присутствует в таблице критических значений, определите критическое значение χ_r² по этой таблице. Если число методов лечения и число больных достаточно велико (отсутствует в таблице), воспользуйтесь критическим значением χ2 с числом степеней свободы ν = k – 1.

5. Если рассчитанное значение χ_r²превышает критическое — различия статистически значимы.

Выводы по анализу сравнения групп

Обратите внимание, что, оперируя не данными, а рангами, рассмотренные методы строятся, в сущности, по тому же принципу, что и рассмотренные ранее параметрические, такие, как критерий Стьюдента и дисперсионный анализ. Заменив данные рангами, мы делаем следующее:

1. Формулируем нулевую гипотезу, то есть предполагаем, что наблюдаемые различия случайны.

2. Выбираем критерий, то есть числовое выражение различий.

3. Определяем, каким было бы распределение величины критерия при условии справедливости нулевой гипотезы.

4. Находим критическое значение, то есть величину, которую при справедливости нулевой гипотезы значение критерия превышает достаточно редко (точнее, с вероятностью, равной уровню значимости α).

5. Вычисляем значение критерия для наших данных и сравниваем его с критическим: если вычисленное значение больше, признаем различия статистически значимыми.

Выбор между параметрическими и непараметрическими методами определяется прежде всего характером данных. Имея дело с порядковыми признаками, не остается ничего, кроме как воспользоваться непараметрическими методами. Если признак числовой, стоит подумать, нормально ли его распределение. Тут могут помочь как общие соображения, так и графическое представление данных. Даже если нет веских оснований сомневаться в нормальности распределения, но данных мало, или вы не хотите делать никаких предположений о типе распределения — воспользуйтесь непараметрическими методами.

Лекция 4

Анализ качественных признаков. Понятие доверительного интервала. Анализ зависимостей.

Корреляционный и регрессионный анализ

Анализ качественных признаков

Статистические процедуры, с которыми мы познакомились в предыдущих главах, предназначены для анализа количественных признаков. Примером таких признаков служат артериальное давление, диурез или продолжительность госпитализации. Единицей их измерения могут быть миллиметры ртутного столба, литры или дни. Над значениями количественных признаков можно производить арифметические действия. Можно, например, сказать, что диурез увеличился вдвое. Кроме того, их можно упорядочить, то есть расположить в порядке возрастания или убывания. Однако очень многие признаки невозможно измерить числом. Например, можно быть либо мужчиной, либо женщиной, либо мертвым либо живым. Можно быть врачом, юристом, рабочим и так далее. Здесь мы имеем дело с качественными признаками. Эти признаки не связаны между собой никакими арифметическими соотношениями, упорядочить их также нельзя.

Единственный способ описания качественных признаков состоит в том, чтобы подсчитать число объектов, имеющих одно и то же значение. Кроме того, можно подсчитать, какая доля от общего числа объектов приходится на то или иное значение.

Существует еще один вид признаков. Это порядковые признаки. Их можно упорядочить, но производить над ними арифметические действия нельзя. Пример порядкового признака — состояние больного тяжелое, средней тяжести, удовлетворительное.

Если часть объектов исследуемой группы характеризуется одним признаком, а вторая часть другим признаком, то можно подсчитать какую долю (р) или процент от общего количества объектов в группе составляют объекты той или иной группы.

Например, если в группе из 100 человек 30 человек – женщины, а 70 – мужчины, то доля р (процент) женщин в группе равен 30/100=0,3 или 30%, соответственно мужчин – 70%. Разумеется, группы могут состоять и не из двух классов.

Для характеристики совокупности, которая состоит из двух классов, достаточно указать численность одного из них если доля одного класса во всей совокупности равна р (вероятность), то доля другого равна 1 – р

Или если известно общее число членов группы N с признаком М, то доля р этих членов можно выразить формулой:

p=M/N

или в процентном соотношении

p=(M/N)×100%

В некотором смысле доля р аналогична среднему µ по совокупности

Сравнение долей

Довольно часто необходимо сравнить две группы, характеризующиеся качественным признаком между собой. Для проведения этой процедуры используется z критерий.

Критерий z, аналогичный критерию Стьюдента t:

,

Где р₁ и р₂ – доля исследуемого признака в первой группе и во второй соответственно.

Если хотя бы для одной выборки условие значения npи n(1-p)больше 5 (где n – объем выборки) не выполняется, то критерий z неприменим, и нужно воспользоваться точным критерием Фишера.

Если n₁ и n₂ — объемы двух выборок, то

О статистически значимом различии долей можно говорить, если значение z окажется «большим»

Критическое значение z-критерия находится по таблице критических значений в зависимости от количества членов выборки (вычисляется число степеней свободы) и выбранного уровня значимости. Однако если сравнивать с критическим значением критерия Стьюдента, то t_кр подчиняется распределению Стьюдента, а z_кр — стандартному нормальному распределению. При увеличении числа степеней свободы распределение Стьюдента стремится к нормальному, критические значения z можно найти в последней строке таблицы критических значений для критерия Стьюдента.

Поправка Йейтса на непрерывность

Нормальное распределение служит лишь приближением для распределения z. При этом оценка P оказывается заниженной, и нулевая гипотеза может быть неправильно отвергнута. Причина состоит в том, что z принимает только дискретные значения, тогда как приближающее его нормальное распределение непрерывно. Для компенсации излишнего «оптимизма» критерия z введена поправка Йеитса называемая также поправкой на непрерывность. С учетом этой поправки выражение для z имеет следующий вид:

Поправка Йейтса слегка уменьшает значение z, уменьшая тем самым расхождение с нормальным распределением.

Таблицы сопряженности: критерий χ² для таблицы 2×2

Довольно часто исследуемый объект может иметь несколько качественных признаков, например: человек болен и при этом принял или не принял соответствующее лекарство. В этом случае данные эксперимента записывают в так называемые таблицы сопряженности.

Пример таблицы сопряженности:

Прививка

Заболел да нет

да

нет

Таблица сопряженности – представляет собой таблицу (m на n, где m – значения первой переменной, n – значения второй переменной). В таблице выше m = 2 (заболел: да или нет), n = 2 (прививка: да или нет). Такие таблицы называются таблицами сопряженности 2х2

Для анализа таблиц сопряженности используется критерий χ² (Критерий согласия Пирсона)

Для понимания смысла анализа таблиц сопряженности необходимо учитывать, что если переменные между собой не связаны, то значения в таблице сопряженности (ожидаемые значения), при равной численности в группах, будут примерно одинаковыми. Иными словами, исходя из вышеприведенного примера, количество заболевших не будет зависеть от наличия или отсутствия прививки.

Однако в нашей таблице значения в клетках (наблюдаемые значения) существенно отличаются, что наводит на мысль о возможной статистической значимости этих различий. На сравнении ожидаемых и наблюдаемых значений и основан критерий χ².

Критерий χ² (читается «хи-квадрат») не требует никаких предположений относительно параметров совокупности, из которой извлечены выборки, — это непараметрический критерий

Определяется критерий χ² следующим образом:

где О — наблюдаемое число в клетке таблицы сопряженности, Е — ожидаемое число в той же клетке. Суммирование проводится по всем клеткам таблицы.

Нулевая гипотеза в подобных задачах звучит следующим образом: переменные не связаны между собой, т.е. являются независимыми, видимые различия в клетках таблицы сопряженности случайны и статистически незначимы.

Полученное значение критерия χ² характеризует значимость этих различий. Расчетное значение критерия сравнивается с критическим значением критерия χ²_кр (значение находится по таблице для заданного уровня значимости) и если полученное значение критерия χ² больше критического, то нулевая гипотеза об отсутствии связи между переменными отклоняется.

Применение критерия χ² правомерно, если ожидаемое число в любой из клеток больше или равно 5 (в противном случае мы вынуждены использовать точный критерий Фишера). Это условие аналогично условию применимости критерия z. Критическое значение χ² зависит от размеров таблицы сопряженности, то есть от числа строк таблицы и числа возможных столбцов таблицы. Размер таблицы выражается числом степеней свободы ν:

ν = (r – 1)(c – 1),

где r — число строк, а с — число столбцов

Поправка Йеитса

Приведенная формула для χ² в случае таблицы 2×2 (то есть при 1 степени свободы) дает несколько завышенные значения, т.е. повышается вероятность совершить ошибку I рода. Это вызвано тем, что теоретическое распределение χ² непрерывно, тогда как набор вычисленных значений χ² дискретен. На практике это приведет к тому, что нулевая гипотеза будет отвергаться слишком часто. Чтобы компенсировать этот эффект, в формулу вводят поправку Йеитса:

Поправка Йеитса применяется только при ν = 1, то есть для таблиц 2×2.

Для таблиц сопряженности размером 2×2 критерий χ² применим только в случае, когда все ожидаемые числа больше 5. С таблицами большего размера критерий χ² применим, если все ожидаемые числа не меньше 1 и доля клеток с ожидаемыми числами меньше 5 не превышает 20%. При невыполнении этих условии критерии χ² может дать ложные результаты. В этой ситуации есть выход: можно собрать дополнительные данные, однако это не всегда осуществимо или объединить несколько строк или столбцов

Ø Порядок применения критерия χ²

1 2 3 45

Последнее изменение этой страницы: 2016-06-10

lectmania.ru. Все права принадлежат авторам данных материалов. В случае нарушения авторского права напишите нам сюда...