Достоверность статистических данных. Статистическая значимость и значение «p»

Задание 3. Пяти дошкольникам предъявляют тест. Фиксируется время решения каждого задания. Будут ли найдены статистически значимые различия между временем решения первых трёх заданий теста?

№ испытуемых

Справочный материал

Данное задание основано на теории дисперсионного анализа. В общем случае, задачей дисперсионного анализа является выявление тех факторов, которые оказывают существенное влияние на результат эксперимента. Дисперсионный анализ может применяться для сравнения средних нескольких выборок, если число выборок больше двух. Для этой цели служит однофакторный дисперсионный анализ.

В целях решения поставленных задач принимается следующее. Если дисперсии полученных значений параметра оптимизации в случае влияния факторов отличаются от дисперсий результатов в случае отсутствия влияния факторов, то такой фактор признается значимым.

Как видно из формулировки задачи, здесь используются методы проверки статистических гипотез, а именно – задача проверки двух эмпирических дисперсий. Следовательно, дисперсионный анализ базируется на проверке дисперсий по критерию Фишера. В данном задании необходимо проверить являются ли статистически значимыми различия между временем решения первых трёх заданий теста каждым из шести дошкольников.

Нулевой (основной) называют выдвинутую гипотезу H о. Сущность е сводится к предположению, что разница между сравниваемыми параметрами равна нулю (отсюда и название гипотезы – нулевая) и что наблюдаемые различия имеют случайный характер.

Конкурирующей (альтернативной) называют гипотезу H 1 , которая противоречит нулевой.

Решение:

Методом дисперсионного анализа при уровне значимости α = 0,05 проверим нулевую гипотезу (H о) о существовании статистически значимых различий между временем решения первых трёх заданий теста у шести дошкольников.

Рассмотрим таблицу условия задания, в которой найдем среднее время решения каждого из трех заданий теста

№ испытуемых

Уровни фактора

Время решения первого задания теста (в сек.).

Время решения второго задания теста (в сек.).

Время решения третьего задания теста (в сек.).

Групповая средняя

Находим общую среднюю:

Для того, чтобы учесть значимость временных различий каждого теста, общая выборочная дисперсия разбивается на две части, первая из которых называется факторной , а вторая – остаточной

Рассчитаем общую сумму квадратов отклонений вариант от общей средней по формуле

или , где р – число измерений времени решений заданий теста, q – количество испытуемых. Для этого составим таблицу квадратов вариант

№ испытуемых

Уровни фактора

Время решения первого задания теста (в сек.).

Время решения второго задания теста (в сек.).

Время решения третьего задания теста (в сек.).

Проверка гипотез проводится с помощью статистического анализа. Статистическую значимость находят с помощью Р-значения, которое соответствует вероятности данного события при предположении, что некоторое утверждение (нулевая гипотеза) истинно. Если Р-значение меньше заданного уровня статистической значимости (обычно это 0,05), экспериментатор может смело заключить, что нулевая гипотеза неверна, и перейти к рассмотрению альтернативной гипотезы. С помощью t-критерия Стьюдента можно вычислить Р-значение и определить значимость для двух наборов данных.

Шаги

Часть 1

Постановка эксперимента

    Определите свою гипотезу. Первый шаг при оценке статистической значимости состоит в том, чтобы выбрать вопрос, ответ на который вы хотите получить, и сформулировать гипотезу. Гипотеза - это утверждение об экспериментальных данных, их распределении и свойствах. Для любого эксперимента существует как нулевая, так и альтернативная гипотеза. Вообще говоря, вам придется сравнивать два набора данных, чтобы определить, схожи они или различны.

    • Нулевая гипотеза (H 0) обычно утверждает, что между двумя наборами данных нет разницы. Например: те ученики, которые читают материал перед занятиями, не получают более высокие оценки.
    • Альтернативная гипотеза (H a) противоположна нулевой гипотезе и представляет собой утверждение, которое нужно подтвердить с помощью экспериментальных данных. Например: те ученики, которые читают материал перед занятиями, получают более высокие оценки.
  1. Установите уровень значимости, чтобы определить, насколько распределение данных должно отличаться от обычного, чтобы это можно было считать значимым результатом. Уровень значимости (его называют также α {\displaystyle \alpha } -уровнем) - это порог, который вы определяете для статистической значимости. Если Р-значение меньше уровня значимости или равно ему, данные считаются статистически значимыми.

    • Как правило, уровень значимости (значение α {\displaystyle \alpha } ) принимается равным 0,05, и в этом случае вероятность обнаружения случайной разницы между разными наборами данных составляет всего лишь 5%.
    • Чем выше уровень значимости (и, соответственно, меньше Р-значение), тем достовернее результаты.
    • Если вы хотите получить более достоверные результаты, понизьте Р-значение до 0,01. Как правило, более низкие Р-значения используются в производстве, когда необходимо выявить брак в продукции. В этом случае требуется высокая достоверность, чтобы быть уверенным, что все детали работают так, как положено.
    • Для большинства экспериментов с гипотезами достаточно принять уровень значимости равным 0,05.
  2. Решите, какой критерий вы будете использовать: односторонний или двусторонний. Одно из предположений в t-критерии Стьюдента гласит, что данные распределены нормальным образом. Нормальное распределение представляет собой колоколообразную кривую с максимальным количеством результатов посередине кривой. t-критерий Стьюдента - это математический метод проверки данных, который позволяет установить, выпадают ли данные за пределы нормального распределения (больше, меньше, либо в “хвостах” кривой).

    • Если вы не уверены, находятся ли данные выше или ниже контрольной группы значений, используйте двусторонний критерий. Это позволит вам определить значимость в обоих направлениях.
    • Если вы знаете, в каком направлении данные могут выйти за пределы нормального распределения, используйте односторонний критерий. В приведенном выше примере мы ожидаем, что оценки студентов повысятся, поэтому можно использовать односторонний критерий.
  3. Определите объем выборки с помощью статистической мощности. Статистическая мощность исследования - это вероятность того, что при данном объеме выборки получится ожидаемый результат. Распространенный порог мощности (или β) составляет 80%. Анализ статистической мощности без каких-либо предварительных данных может представлять определенные сложности, поскольку требуется некоторая информация об ожидаемых средних значениях в каждой группе данных и об их стандартных отклонениях. Используйте для анализа статистической мощности онлайн-калькулятор, чтобы определить оптимальный объем выборки для ваших данных.

    • Обычно ученые проводят небольшое пробное исследование, которое позволяет получить данные для анализа статистической мощности и определить объем выборки, необходимый для более расширенного и полного исследования.
    • Если у вас нет возможности провести пробное исследование, постарайтесь на основании литературных данных и результатов других людей оценить возможные средние значения. Возможно, это поможет вам определить оптимальный объем выборки.

    Часть 2

    Вычислите стандартное отклонение
    1. Запишите формулу для стандартного отклонения. Стандартное отклонение показывает, насколько велик разброс данных. Оно позволяет заключить, насколько близки данные, полученные на определенной выборке. На первый взгляд формула кажется довольно сложной, но приведенные ниже объяснения помогут понять ее. Формула имеет следующий вид: s = √∑((x i – µ) 2 /(N – 1)).

      • s - стандартное отклонение;
      • знак ∑ указывает на то, что следует сложить все полученные на выборке данные;
      • x i соответствует i-му значению, то есть отдельному полученному результату;
      • µ - это среднее значение для данной группы;
      • N - общее число данных в выборке.
    2. Найдите среднее значение в каждой группе. Чтобы вычислить стандартное отклонение, необходимо сначала найти среднее значение для каждой исследуемой группы. Среднее значение обозначается греческой буквой µ (мю). Чтобы найти среднее, просто сложите все полученные значения и поделите их на количество данных (объем выборки).

      • Например, чтобы найти среднюю оценку в группе тех учеников, которые изучают материал перед занятиями, рассмотрим небольшой набор данных. Для простоты используем набор из пяти точек: 90, 91, 85, 83 и 94.
      • Сложим вместе все значения: 90 + 91 + 85 + 83 + 94 = 443.
      • Поделим сумму на число значений, N = 5: 443/5 = 88,6.
      • Таким образом, среднее значение для данной группы составляет 88,6.
    3. Вычтите из среднего каждое полученное значение. Следующий шаг заключается в вычислении разницы (x i – µ). Для этого следует вычесть из найденной средней величины каждое полученное значение. В нашем примере необходимо найти пять разностей:

      • (90 – 88,6), (91- 88,6), (85 – 88,6), (83 – 88,6) и (94 – 88,6).
      • В результате получаем следующие значения: 1,4, 2,4, -3,6, -5,6 и 5,4.
    4. Возведите в квадрат каждую полученную величину и сложите их вместе. Каждую из только что найденных величин следует возвести в квадрат. На этом шаге исчезнут все отрицательные значения. Если после данного шага у вас останутся отрицательные числа, значит, вы забыли возвести их в квадрат.

      • Для нашего примера получаем 1,96, 5,76, 12,96, 31,36 и 29,16.
      • Складываем полученные значения: 1,96 + 5,76 + 12,96 + 31,36 + 29,16 = 81,2.
    5. Поделите на объем выборки минус 1. В формуле сумма делится на N – 1 из-за того, что мы не учитываем генеральную совокупность, а берем для оценки выборку из числа всех студентов.

      • Вычитаем: N – 1 = 5 – 1 = 4
      • Делим: 81,2/4 = 20,3
    6. Извлеките квадратный корень. После того как вы поделите сумму на объем выборки минус один, извлеките из найденного значения квадратный корень. Это последний шаг в вычислении стандартного отклонения. Есть статистические программы, которые после введения начальных данных производят все необходимые вычисления.

      • В нашем примере стандартное отклонение оценок тех учеников, которые читают материал перед занятиями, составляет s =√20,3 = 4,51.

      Часть 3

      Определите значимость
      1. Рассчитайте дисперсию между двумя группами данных. До этого шага мы рассматривали пример лишь для одной группы данных. Если вы хотите сравнить две группы, очевидно, следует взять данные для обеих групп. Вычислите стандартное отклонение для второй группы данных, а затем найдите дисперсию между двумя экспериментальными группами. Дисперсия вычисляется по следующей формуле: s d = √((s 1 /N 1) + (s 2 /N 2)).

ПЛАТНАЯ ФУНКЦИЯ. Функция статистической значимости доступна только в некоторых тарифных планах. Проверьте, есть ли она в .

Можно узнать, есть ли статистически значимые отличия в ответах, полученных от разных групп респондентов на вопросы в опросе. Для работы с функцией статистической значимости в SurveyMonkey необходимо:

  • Включить функцию статистической значимости при добавлении правила сравнения к вопросу в Вашем опросе. Выбрать группы респондентов для сравнения, чтобы отсортировать результаты опроса по группам для наглядного сравнения.
  • Изучить таблицы с данными по вопросам Вашего опроса, чтобы выявить наличие статистически значимых отличий в ответах, полученных от различных групп респондентов.

Просмотр статистической значимости

Выполнив нижеописанные действия, Вы сможете создать опрос, отображающий статистическую значимость.

1. Добавьте в опрос вопросы закрытого типа

Для того, чтобы отобразить статистическую значимость во время анализа результатов, Вам понадобится применить правило сравнения к какому-либо вопросу из Вашего опроса.

Применить правило сравнения и вычислить статистическую значимость в ответах можно в том случае, если в схеме опроса Вы используете один из следующих типов вопросов:

Необходимо убедиться в том, что предлагаемые варианты ответа можно разделить на полноценные группы. Варианты ответа, выбираемые Вами для сравнения при создании правила сравнения, будут использованы для организации данных в перекрестные таблицы в рамках всего опроса.

2. Соберите ответы

После завершения составления опроса создайте коллектор для его рассылки. Существует несколько способов .

Вам необходимо получить не менее 30 ответов по каждому варианту ответа, который Вы планируете использовать в своем правиле сравнения, чтобы активировать и просмотреть статистическую значимость.

Пример опроса

Вы хотите узнать, довольны ли мужчины Вашей продукцией значительно больше, чем женщины.

  1. Добавьте в опрос два вопроса с множественными вариантами ответа:
    Какой Ваш пол? (мужской, женский)
    Довольны ли Вы или недовольны нашим продуктом? (доволен(-льна), недоволен(-льна))
  2. Убедитесь, что не менее 30 респондентов выбрали вариант ответа «мужской» на вопрос о поле, А ТАКЖЕ не менее 30 респондентов в качестве своего пола выбрали вариант «женский».
  3. Добавьте правило сравнения к вопросу "Какой Ваш пол?" и выберите оба варианта ответа как Ваши группы.
  4. Используйте таблицу данных ниже диаграммы вопроса "Довольны ли Вы или недовольны нашим продуктом?" , чтобы узнать, показывают ли какие-нибудь варианты ответа статистически значимое отличие

Что такое статистически значимое отличие?

Статистически значимое отличие означает, что с помощью статистического анализа установлено наличие существенных отличий между ответами одной группы респондентов и ответами другой группы. Статистическая значимость означает, что полученные цифры достоверно отличаются. Такие знания в значительной мере помогут Вам при анализе данных. Тем не менее, важность полученных результатов определяете Вы. Именно Вы решаете, как толковать результаты опросов и какие меры следует принять на их основе.

Например, Вы получаете больше претензий от покупателей женского пола, чем от покупателей-мужчин. Как определить, является ли такое отличие реальным и требуется ли в связи с этим принять меры? Одним из отличных способов проверить Ваши наблюдения является проведение опроса, который покажет Вам, действительно ли Вашим товаром в значительно большей мере довольны покупатели-мужчины. С помощью статистической формулы предлагаемая нами функция статистической значимости предоставит Вам возможность определить, действительно ли Ваш товар гораздо больше нравится мужчинам, чем женщинам. Это позволит Вам принять меры, основываясь на факты, а не на догадки.

Статистически значимое отличие

Если полученные Вами результаты выделены в таблице данных, это означает, что две группы респондентов значительно отличаются друг от друга. Термин «значительно» не означает, что полученные цифры имеют какую-то особую важность или значение, а лишь то, что между ними есть статистическая разница.

Отсутствие статистически значимого отличия

Если полученные Вами результаты не выделены в соответствующей таблице данных, это означает, что, несмотря на возможную разницу в двух сравниваемых цифрах, между ними нет статистической разницы.

Ответы без статистически значимых отличий демонстрируют, что между двумя сравниваемыми элементами нет значительной разницы при используемом Вами объеме выборки, однако это не обязательно означает, что они не имеют значения. Возможно, увеличив объем выборки, Вы сможете выявить статистически значимое отличие.

Объем выборки

Если у Вас очень малый объем выборки, значительными будут только очень большие отличия между двумя группами. Если у Вас очень большой объем выборки, как небольшие, так и большие отличия будут учтены как значительные.

Тем не менее, если две цифры являются статистически различными, это не означает, что разница между результатами имеет для Вас какое-либо практическое значение. Вам придется самим решить, какие именно отличия значимы для Вашего опроса.

Вычисление статистической значимости

Мы вычисляем статистическую значимость, используя стандартный уровень доверия 95 %. Если вариант ответа отображается как статистически значимый, это означает, что только благодаря случайности либо из-за ошибки выборки отличие между двумя группами имеет место с вероятностью менее 5 % (часто отображается в виде: p<0,05).

Для вычисления статистически значимых отличий между группами мы используем следующие формулы:

Параметр

Описание

a1 Доля участников из первой группы, ответивших на вопрос определенным образом, умноженная на объем выборки данной группы.
b1 Доля участников из второй группы, ответивших на вопрос определенным образом, умноженная на объем выборки данной группы.
Доля объединенной выборки (p) Совокупность двух долей из обеих групп.
Стандартная ошибка (SE) Показатель того, насколько Ваша доля отличается от действительной доли. Меньшее значение означает, что доля близка к действительной доле, большее значение означает, что доля существенно отличается от действительной доли.
Тестовый статистический показатель (t) Тестовый статистический показатель. Количество значений стандартного отклонения, на которое данное значение отличается от среднего значения.
Статистическая значимость Если абсолютная величина тестового статистического показателя превышает 1,96* стандартных отклонений от среднего значения, это считается статистически значимым отличием.

*1,96 является значением, применяемым для уровня доверия 95 %, поскольку 95 % диапазона, обрабатываемого функцией t-распределения Стьюдента, лежит в пределах 1,96 стандартного отклонения от среднего значения.

Пример вычислений

Продолжая пример, используемый выше, давайте выясним, действительно ли процент мужчин, заявляющих о том, что они довольны Вашим товаром, значительно выше процента женщин.

Допустим, в Вашем опросе приняло участие 1000 мужчин и 1000 женщин, и в результате опроса оказалось, что 70 % мужчин и 65 % женщин утверждают, что они довольны Вашим товаром. Является ли показатель на уровне 70 % значительно выше показателя на уровне 65 %?

Подставьте следующие данные из опроса в предлагаемые формулы:

  • p1 (% мужчин, довольных продуктом) = 0,7
  • p2 (% женщин, довольных продуктом) = 0,65
  • n1 (количество опрошенных мужчин) = 1000
  • n2 (количество опрошенных женщин) = 1000

Поскольку абсолютная величина тестового статистического показателя больше чем 1,96, это означает, что отличие между мужчинами и женщинами является значительным. По сравнению с женщинами мужчины с большей долей вероятности будут довольны Вашим продуктом.

Скрытие статистической значимости

Как скрыть статистическую значимость для всех вопросов

  1. Нажмите стрелку «вниз» справа от правила сравнения на левой боковой панели.
  2. Выберите пункт Редактировать правило .
  3. Отключите функцию Показать статистическую значимость с помощью переключателя.
  4. Нажмите кнопку Применить .

Чтобы скрыть статистическую значимость для одного вопроса, необходимо:

  1. Нажмите кнопку Настроить над диаграммой данного вопроса.
  2. Откройте вкладку Параметры отображения .
  3. Снимите флажок напротив пункта Статистическая значимость .
  4. Нажмите кнопку Сохранить .

Параметр отображения автоматически активируется при включении отображения статистической значимости. Если снять флажок этого параметра отображения, отображение статистической значимости также будет отключено.

Включите функцию статистической значимости при добавлении правила сравнения к вопросу в Вашем опросе. Изучите таблицы с данными по вопросам Вашего опроса, чтобы выявить наличие статистически значимых отличий в ответах, полученных от различных групп респондентов.

При обосновании статистического вывода следует решить вопрос, где же проходит линия между принятием и отвержением нулевой гипотезы? В силу наличия в эксперименте случайных влияний эта граница не может быть проведена абсолютно точно. Она базируется на понятии уровня значимости. Уровнем значимости называется вероятность ошибочного отклонения нулевой гипотезы. Или, иными словами, уровень значимости - это вероятность ошибки первого рода при принятии решения. Для обозначения этой вероятности, как правило, употребляют либо греческую букву α, либо латинскую букву р. В дальнейшем мы будем употреблять букву р.

Исторически сложилось так, что в прикладных науках, использующих статистику, и в частности в психологии, считается, что низшим уровнем статистической значимости является уровень р = 0,05; достаточным - уровень р = 0,01 и высшим уровень р = 0,001. Поэтому в статистических таблицах, которые приводятся в приложении к учебникам по статистике, обычно даются таблич­ные значения для уровней р = 0,05, р = 0,01 и р = 0,001. Иногда даются табличные значения для уровней р - 0,025 и р = 0,005.

Величины 0,05, 0,01 и 0,001 - это так называемые стандартные уровни статистической значимости. При статистическом анализе экспериментальных данных психолог в зависимости от задач и гипотез исследования должен выбрать необходимый уровень значимости. Как видим, здесь наибольшая величина, или нижняя граница уровня статистической значимости, равняется 0,05 - это означает, что допускается пять ошибок в выборке из ста элементов (случаев, испытуемых) или одна ошибка из двад­цати элементов (случаев, испытуемых). Считается, что ни шесть, ни семь, ни большее количество раз из ста мы ошибиться не можем. Цена таких ошибок будет слишком велика.

Заметим, что в современных статистических пакетах на ЭВМ используются не стандартные уровни значимости, а уровни, подсчитываемые непосредственно в процессе работы с соответ­ствующим статистическим методом. Эти уровни, обозначаемые буквой р, могут иметь различное числовое выражение в интервале от 0 до 1, например, р = 0,7, р = 0,23 или р = 0,012. Понятно, что в первых двух случаях полученные уровни значимости слишком велики и говорить о том, что результат значим нельзя. В то же время в последнем случае результаты значимы на уровне 12 тысячных. Это достоверный уровень.

Правило принятия статистического вывода таково: на основании полученных экспериментальных данных психолог подсчи­тывает по выбранному им статистическому методу так называе­мую эмпирическую статистику, или эмпирическое значение. Эту величину удобно обозначить как Ч эмп . Затем эмпирическая стати­стика Ч эмп сравнивается с двумя критическими величинами, ко­торые соответствуют уровням значимости в 5% и в 1% для выб­ранного статистического метода и которые обозначаются как Ч кр . Величины Ч кр находятся для данного статистического метода по соответствующим таблицам, приведенным в приложении к любому учебнику по статистике. Эти величины, как правило, всегда различны и их в дальнейшем для удобства можно назвать как Ч кр1 и Ч кр2 . Найденные по таблицам величины критических значений Ч кр1 и Ч кр2 удобно представлять в следующей стандартной форме записи:

Подчеркнем, однако, что мы использовали обозначения Ч эмп и Ч кр как сокращение слова «число». Во всех статистических методах приняты свои символические обозначения всех этих вели­чин: как подсчитанной по соответствующему статистическому методу эмпирической величины, так и найденных по соответ­ствующим таблицам критических величин. Например, при подсчете рангового коэффициента корреляции Спирмена по таблице критических значений этого коэффициента были найдены сле­дующие величины критических значений, которые для этого метода обозначаются греческой буквой ρ («ро»). Так для р = 0,05 по таб­лице найдена величина ρ кр 1 = 0,61 и для р = 0,01 величина ρ кр 2 = 0,76.

В принятой в дальнейшем изложении стандартной форме записи это выглядит следующим образом:

Теперь нам необходимо сравнить наше эмпирическое значе­ние с двумя найденными по таблицам критическими значения­ми. Лучше всего это сделать, расположив все три числа на так называемой «оси значимости». «Ось значимости» представляет собой прямую, на левом конце которой располагается 0, хотя он, как правило, не отмечается на самой этой прямой, и слева направо идет увеличение числового ряда. По сути дела это при­вычная школьная ось абсцисс ОХ декартовой системы координат. Однако особенность этой оси в том, что на ней выделено три участка, «зоны». Одна крайняя зона называется зоной незначимости, вторая крайняя зона - зоной значимости, а промежуточная - зоной неопреде­ленности. Границами всех трех зон являются Ч кр1 для р = 0,05 и Ч кр2 для р = 0,01, как это показано на рисунке.

В зависимости от правила принятия решения (правила вывода), предписанного в данном статистическом методе возможно два варианта.

Первый вариант: альтернативная гипотеза принимается, если Ч эмп Ч кр .

Или второй вариант: альтернативная гипотеза принимается, если Ч эмп Ч кр .

Подсчитанное Ч эмп по какому либо статистическому методу должно обязательно попасть в одну из трех зон.

Если эмпирическое значение попадает в зону незначимости, то принимается гипотеза Н 0 об отсутствии различий.

Если Ч эмп попало в зону значимости, принимается альтернативная гипотеза Н 1 о на­личии различий, а гипотеза Н 0 отклоняется.

Если Ч эмп попадает в зону неопределенности, перед исследователем стоит дилемма. Так, в зависи­мости от важности решаемой задачи он может считать полученную статистическую оценку достоверной на уровне 5%, и принять, тем самым гипотезу Н 1 , отклонив гипотезу Н 0 , либо - недостоверной на уровне 1%, приняв тем самым, гипотезу Н 0 . Подчеркнем, одна­ко, что это именно тот случай, когда психолог может допустить ошибки первого или второго рода. Как уже говорилось выше, в этих обстоятельствах лучше всего увеличить объем выборки.

Подчеркнем также, что величина Ч эмп может точно совпасть либо с Ч кр1 либо Ч кр2 . В первом случае можно считать, что оценка достоверна точно на уровне в 5% и принять гипотезу Н 1 , или, напротив, принять гипотезу Н 0 . Во втором случае, как пра­вило, принимается альтернативная гипотеза Н 1 о наличии разли­чий, а гипотеза Н 0 отклоняется.

Как вы думаете, что делает вашу «вторую половинку» особенной, значимой? Это связано с ее (его) личностью или с вашими чувствами, которые вы испытываете к этому человеку? А может, с простым фактом, что гипотеза о случайности вашей симпатии, как показывают исследования, имеет вероятность менее 5%? Если считать последнее утверждение достоверным, то успешных сайтов знакомств не существовало бы в принципе:

Когда вы проводите сплит-тестирование или любой другой анализ вашего сайта, неверное понимание «статистической значимости» может привести к неправильной интерпретации результатов и, следовательно, ошибочным действиям в процессе оптимизации конверсии. Это справедливо и для тысяч других статистических тестов, проводимых ежедневно в любой существующей отрасли.

Чтобы разобраться, что же такое «статистическая значимость», необходимо погрузиться в историю появления этого термина, познать его истинный смысл и понять, как это «новое» старое понимание поможет вам верно трактовать результаты своих исследований.

Немного истории

Хотя человечество использует статистику для решения тех или иных задач уже много веков, современное понимание статистической значимости, проверки гипотез, рандомизации и даже дизайна экспериментов (Design of Experiments (DOE) начало формироваться только в начале 20-го столетия и неразрывно связано с именем сэра Рональда Фишера (Sir Ronald Fisher, 1890-1962):

Рональд Фишер был эволюционным биологом и статистиком, который имел особую страсть к изучению эволюции и естественного отбора в животном и растительном мире. В течение своей прославленной карьеры он разработал и популяризировал множество полезных статистических инструментов, которыми мы пользуемся до сих пор.

Фишер использовал разработанные им методики, чтобы объяснить такие процессы в биологии, как доминирование, мутации и генетические отклонения. Те же инструменты мы можем применить сегодня для оптимизации и улучшения контента веб-ресурсов. Тот факт, что эти средства анализа могут быть задействованы для работы с предметами, которых на момент их создания даже не существовало, кажется довольно удивительным. Столь же удивительно, что раньше сложнейшие вычисления люди выполняли без калькуляторов или компьютеров.

Для описания результатов статистического эксперимента как имеющих высокую вероятность оказаться истиной Фишер использовал слово «значимость» (от англ. significance).

Также одной из наиболее интересных разработок Фишера можно назвать гипотезу «сексуального сына». Согласно этой теории, женщины отдают свое предпочтение неразборчивым в половых связях мужчинам (гулящим), потому что это позволит рожденным от этих мужчин сыновьям иметь такую же предрасположенность и произвести на свет больше своих отпрысков (обращаем внимание, что это всего лишь теория).

Но никто, даже гениальные ученые, не застрахованы от совершения ошибок. Огрехи Фишера досаждают специалистам и по сей день. Но помните слова Альберта Эйнштейна: «Кто никогда не ошибался, тот не создавал ничего нового».

Прежде чем перейти к следующему пункту, запомните: статистическая значимость — это ситуация, когда разница в результатах при проведении тестирования настолько велика, что эту разницу нельзя объяснить влиянием случайных факторов.

Какова ваша гипотеза?

Чтобы понять, что значит «статистическая значимость», сначала нужно разобраться с тем, что такое «проверка гипотез», поскольку два этих термина тесно переплетаются.
Гипотеза — это всего лишь теория. Как только вы разработаете какую-либо теорию, вам будет необходимо установить порядок сбора достаточного количества доказательств и, собственно, собрать эти доказательства. Существует два типа гипотез.

Яблоки или апельсины — что лучше?

Нулевая гипотеза

Как правило, именно в этом месте многие испытывают трудности. Нужно иметь в виду, что нулевая гипотеза — это не то, что нужно доказать, как, например, вы доказываете, что определенное изменение на сайте приведет к повышению конверсии, а наоборот. Нулевая гипотеза — это теория, которая гласит, что при внесении каких-либо изменений на сайт ничего не произойдет. И цель исследователя — опровергнуть эту теорию, а не доказать.

Если обратиться к опыту раскрытия преступлений, где следователи также строят гипотезы в отношении того, кто является преступником, нулевая гипотеза принимает вид так называемой презумпции невиновности, концепта, согласно которому обвиняемый считается невиновным до тех пор, пока его вина не будет доказана в суде.

Если нулевая гипотеза заключается в том, что два объекта равны в своих свойствах, а вы пытаетесь доказать, что один из них все же лучше (например, A лучше B), вам нужно отказаться от нулевой гипотезы в пользу альтернативной. Например, вы сравниваете между собой тот или иной инструмент для оптимизации конверсии. В нулевой гипотезе они оба оказывают на объект воздействия одинаковый эффект (или не оказывают никакого эффекта). В альтернативной — эффект от одного из них лучше.

Ваша альтернативная гипотеза может содержать числовое значение, например, B - A > 20%. В таком случае нулевая гипотеза и альтернативная могут принять следующий вид:

Другое название для альтернативной гипотезы — это исследовательская гипотеза, поскольку исследователь всегда заинтересован в доказательстве именно этой гипотезы.

Статистическая значимость и значение «p»

Вновь вернемся к Рональду Фишеру и его понятию о статистической значимости.

Теперь, когда у вас есть нулевая гипотеза и альтернативная, как вы можете доказать одно и опровергнуть другое?

Поскольку статистические данные по самой своей природе предполагают изучение определенной совокупности (выборки), вы никогда не можете быть на 100% уверены в полученных результатах. Наглядный пример: зачастую результаты выборов расходятся с результатами предварительных опросов и даже эксит-пулов.

Доктор Фишер хотел создать определитель (dividing line), который позволял бы понять, удался ли ваш эксперимент или нет. Так и появился индекс достоверности. Достоверность — это тот уровень, который мы принимаем для того, чтобы сказать, что мы считаем «значимым», а что нет. Если «p», индекс достоверности, равен 0,05 или меньше, то результаты достоверны.

Не волнуйтесь, в действительности все не так запутано, как кажется.

Распределение вероятностей Гаусса. По краям — менее вероятные значения переменной, в центре — наиболее вероятные. P-показатель (закрашенная зеленым область) — это вероятность наблюдаемого результата, возникающего случайно.

Нормальное распределение вероятностей (распределение Гаусса) — это представление всех возможных значений некой переменной на графике (на рисунке выше) и их частот. Если вы проведете свое исследование правильно, а затем расположите все полученные ответы на графике, вы получите именно такое распределение. Согласно нормальному распределению, вы получите большой процент похожих ответов, а оставшиеся варианты разместятся по краям графика (так называемые «хвосты»). Такое распределение величин часто встречается в природе, поэтому оно и носит название «нормального».

Используя уравнение на основе вашей выборки и результатов теста, вы можете вычислить то, что называется «тестовой статистикой», которая укажет, насколько отклонились полученные результаты. Она также подскажет, насколько близко вы к тому, чтобы нулевая гипотеза оказалась верной.

Чтобы не забивать свою голову, используйте онлайн-калькуляторы для вычисления статистической значимости:

Один из примеров таких калькуляторов

Буква «p» обозначает вероятность того, что нулевая гипотеза верна. Если число будет небольшим, это укажет на разницу между тестовыми группами, тогда как нулевая гипотеза будет заключаться в том, что они одинаковы. Графически это будет выглядеть так, что ваша тестовая статистика окажется ближе к одному из хвостов вашего колоколообразного распределения.

Доктор Фишер решил установить порог достоверности результатов на уровне p ≤ 0,05. Однако и это утверждение спорное, поскольку приводит к двум затруднениям:

1. Во-первых, тот факт, что вы доказали несостоятельность нулевой гипотезы, не означает, что вы доказали альтернативную гипотезу. Вся эта значимость всего лишь значит, что вы не можете доказать ни A, ни B.

2. Во-вторых, если p-показатель будет равен 0,049, это будет означать, что вероятность нулевой гипотезы составит 4,9%. Это может означать, что в одно и то же время результаты ваших тестов могут быть одновременно и достоверными, и ошибочными.

Вы можете использовать p-показатель, а можете отказаться от него, но тогда вам будет необходимо в каждом отдельном случае высчитывать вероятность осуществления нулевой гипотезы и решать, достаточно ли она большая, чтобы не вносить тех изменений, которые вы планировали и тестировали.

Наиболее распространенный сценарий проведения статистического теста сегодня — это установление порога значимости p ≤ 0,05 до запуска самого теста. Только не забудьте внимательно изучить p-значение при проверке результатов.

Ошибки 1 и 2

Прошло так много времени, что ошибки, которые могут возникнуть при использовании показателя статистической значимости, даже получили собственные имена.

Ошибка 1 (Type 1 Errors)

Как было упомянуто выше, p-значение, равное 0,05, означает: вероятность того, что нулевая гипотеза окажется верной, равняется 5%. Если вы откажетесь от нее, вы совершите ошибку под номером 1. Результаты говорят, что ваш новый веб-сайт повысил показатели конверсии, но существует 5%-ная вероятность, что это не так.

Ошибка 2 (Type 2 Errors)

Эта ошибка является противоположной ошибке 1: вы принимаете нулевую гипотезу, в то время как она является ложной. К примеру, результаты тестов говорят вам, что внесенные изменения в сайт не принесли никаких улучшений, тогда как изменения были. Как итог: вы упускаете возможность повысить свои показатели.

Такая ошибка распространена в тестах с недостаточным размером выборки, поэтому помните: чем больше выборка, тем достовернее результат.

Заключение

Пожалуй, ни один термин среди исследователей не пользуется такой популярностью, как статистическая значимость. Когда результаты тестов не признаются статистически значимыми, последствия бывают самые разные: от роста показателя конверсии до краха компании.

И раз уж маркетологи используют этот термин при оптимизации своих ресурсов, нужно знать, что же он означает на самом деле. Условия проведения тестов могут меняться, но размер выборки и критерий успеха важен всегда. Помните об этом.