Достоверность статистических данных критерии достоверности. Введение фиксированного коэффициента. Что понимается под проверкой

Статистическая достоверность имеет существенное значение в расчетной практике ФКС. Ранее было отмечено, что из одной и той же генеральной совокупности может быть избрано множество выборок:

Если они подобраны корректно, то их средние показатели и показатели генеральной совокупности незначительно отличаются друг от друга величиной ошибки репрезентативности с учетом принятой надежности;

Если они избираются из разных генеральных совокупностей, различие между ними оказывается существенным. В статистике по­всеместно рассматривается сравнение выборок;

Если они отличаются несущественно, непринципиально, не­значительно, т. е. фактически принадлежат одной и той же гене­ральной совокупности, различие между ними называется стати­стически недостоверным.

Статистически достоверным различием выборок называется выборка, которая различается значимо и принципиально, т. е. при­надлежит разным генеральным совокупностям.

В ФКС оценка статистической достоверности различий выбо­рок означает решение множества практических задач. Например, введение новых методик обучения, программ, комплексов упраж­нений, тестов, контрольных упражнений связано с их экспери­ментальной проверкой, которая должна показать, что испытуе­мая группа принципиально отлична от контрольной. Поэтому при­меняют специальные статистические методы, называемые крите­риями статистической достоверности, позволяющие обнаружить наличие или отсутствие статистически достоверного различия между выборками.

Все критерии делятся на две группы: параметрические и непараметрические. Параметрические критерии предусматривают обязательное наличие нормального закона распределения, т.е. имеется в виду обязательное определение основных показателей нормального закона - средней арифметической величины и среднего квадратического отклонения s. Параметрические крите­рии являются наиболее точными и корректными. Непараметри­ческие критерии основаны на ранговых (порядковых) отличиях между элементами выборок.

Приведем основные критерии статистической достоверности, используемые в практике ФКС: критерий Стьюдента и критерий Фишера.

Критерий Стьюдента назван в честь английского ученого К. Госсета (Стьюдент - псевдоним), открывшего данный метод. Критерий Стьюдента является параметрическим, используется для сравнения абсолютных показателей выборок. Выборки могут быть различными по объему.

Критерий Стьюдента определяется так.

1. Находим критерий Стьюдента t по следующей формуле:


где - средние арифметические сравниваемых выборок; т 1 , т 2 - ошибки репрезентативности, выявленные на основании показателей сравниваемых выборок.

2. Практика в ФКС показала, что для спортивной работы доста­точно принять надежность счета Р = 0,95.

Для надежности счета: Р = 0,95 (a = 0,05), при числе степеней свободы

k = n 1 + п 2 - 2 по таблице приложения 4 находим величи­ну граничного значения критерия (t гр ).

3. На основании свойств нормального закона распределения в критерии Стьюдента осуществляется сравнение t и t гр.

Делаем выводы:

если t t гр, то различие между сравниваемыми выборками статистически достоверно;

если t t гр, то различие статистически недостоверно.

Для исследователей в области ФКС оценка статистической до­стоверности является первым шагом в решении конкретной зада­чи: принципиально или непринципиально различаются между собой сравниваемые выборки. Последующий шаг заключается в оценке этого различия с педагогической точки зрения, что опре­деляется условием задачи.

Рассмотрим применение критерия Стьюдента на конкретном примере.

Пример 2.14. Группа испытуемых в количестве 18 человек оценена на ЧСС (уд./мин) до х i и после y i разминки.

Оценить эффективность разминки по показателю ЧСС. Исход­ные данные и расчеты представлены в табл. 2.30 и 2.31.

Таблица 2.30

Обработка показателей ЧСС до разминки


Ошибки по обеим группам совпали, так как объемы выборок равны (исследуется одна и та же группа при различных условиях), а средние квадратические отклонения составили s х = s у = 3 уд./мин. Переходим к определению критерия Стьюдента:

Задаем надежность счета: Р= 0,95.

Число степеней свободы k 1 = n 1 + п 2 - 2=18+18-2 = 34. По таблице приложения 4 находим t гр = 2,02.

Статистический вывод. Поскольку t = 11,62, а граничное t гр = 2,02, то 11,62 > 2,02, т.е. t > t гр, поэтому различие между выбор­ками статистически достоверно.

Педагогический вывод. Установлено, что по показателю ЧСС раз­личие между состоянием группы до и после разминки является статистически достоверным, т.е. значимым, принципиальным. Итак, по показателю ЧСС можно сделать вывод, что разминка эффективна.

Критерий Фишера является параметрическим. Он применяет­ся при сравнении показателей рассеивания выборок. Это, как пра­вило, означает сравнение по показателям стабильности спортив­ной работы или стабильности функциональных и технических показателей в практике физической культуры и спорта. Выборки могут быть разновеликими.

Критерий Фишера определяется в нижеприведенной последова­тельности.

1. Находим Критерий Фишера F по формуле


где , - дисперсии сравниваемых выборок.

Условиями критерия Фишера предусмотрено, что в числителе формулы F находится большая дисперсия, т.е. число F всегда больше единицы.

Задаем надежность счета: Р = 0,95 - и определяем числа степеней свободы для обеих выборок: k 1 = n 1 - 1 , k 2 = п 2 - 1.

По таблице приложения 4 находим граничное значение кри­терия F гр .

Сравнение критериев F и F гр позволяет сформулировать вы­воды:

если F > F гр, то различие между выборками статистически достоверно;

если F< F гр, то различие между выборками статически недо­стоверно.

Приведем конкретный пример.

Пример 2.15. Проанализируем две группы гандболистов: х i (n 1 = 16 человек) и y i (п 2 = 18 человек). Эти группы спортсменов исследованы на время отталкивания (с) при броске мяча в во­рота.

Однотипны ли показатели отталкивания?

Исходные данные и основные расчеты представлены в табл. 2.32 и 2.33.

Таблица 2.32

Обработка показателей отталкивания первой группы гандболистов


Определим критерий Фишера:





По данным, представленным в таблице приложения 6, находим Fгр: Fгр = 2,4

Обратим внимание на то, что в таблице приложения 6 пере­числение чисел степеней свободы как большей, так и меньшей дисперсии при приближении к большим числам становится гру­бее. Так, числа степеней свободы большей дисперсии следует в таком порядке: 8, 9, 10, 11, 12, 14, 16, 20, 24 и т.д., а меньшей - 28, 29, 30, 40, 50 и т.д.

Это объясняется тем, что при увеличении объема выборок раз­личия F-критерия уменьшаются и можно использовать табличные значения, приближенные к исходным данным. Так, в примере 2.15 =17 отсутствует и можно принять ближайшее к нему значение k = 16, откуда и получаем Fгр = 2,4.

Статистический вывод. Поскольку критерий Фишера F= 2,5 > F= 2,4, выборки различимы статистически достоверно.

Педагогический вывод. Значения времени отталкивания (с) при броске мяча в ворота у гандболистов обеих групп суще­ственно различаются. Эти группы следует рассматривать как раз­личные.

Дальнейшие исследования должны показать, в чем причина такого различия.

Пример 2.20 .(на статистическую достоверность выборки ). Повысилась ли квалификация футболиста, если время (с) от подачи сигнала до удара по мячу ногой в начале тренировки было x i , а в конце у i .

Исходные данные и основные расчеты приведены в табл. 2.40 и 2.41.

Таблица 2.40

Обработка показателей времени от подачи сигнала до удара по мячу в начале тренировки


Определим различие групп показателей по критерию Стью­дента:

При надежности Р = 0,95 и степенях свободы k = n 1 + п 2 - 2 = 22 + 22 - 2 = 42 по таблице приложения 4 находим t гр = 2,02. Поскольку t = 8,3 > t гр = 2,02 - различие статистически досто­верно.

Определим различие групп показателей по критерию Фишера:


По таблице приложения 2 при надежности Р = 0,95 и степенях свободы k = 22-1=21 значение F гр = 21. Поскольку F= 1,53 < F гр = = 2,1, различие в рассеивании исходных данных статистически недостоверно.

Статистический вывод. По среднему арифметическому пока­зателю различие групп показателей статистически достоверно. По показателю рассеивания (дисперсии) различие групп показате­лей статистически недостоверно.

Педагогический вывод. Квалификация футболиста существенно повысилась, однако следует уделить внимание стабильности его показаний.

Подготовка к работе

Перед проведением данной лабораторной работы по дисциплине «Спортивная метрология» всем студентам учебной группы необходимо сформировать рабочие бригады по 3-4 студента в каждой , для совместного выполнения рабочего задания всех лабораторных работ.

При подготовке к работе ознакомиться с соответствующими разде­лами рекомендуемой литературы (см.раздел 6 данных методических указаний) и конспектов лекций. Изучить разделы 1 и 2 на данную лабораторную работу, а также рабочее задание на неё (раздел 4).

Заготовить форму отчета на стандартных листах писчей бумаги формата А4 и занести в нее материалы необходимые для работы.

Отчет должен содержать :

Титульный лист с указанием кафедры (УК и ТР), учебной группы, фамилии, имени, отчества студента, номера и названия лабораторной работы, даты ее выполнения, а также фамилии, учёной степени, учёного звания и должности преподавателя, прини­мающего работу;

Цель работы;

Формулы с числовыми значениями, поясняющие промежуточные и окончательные результаты вычислений;

Таблицы измеренных и вычисленных величин;

Требуемый по заданию графический материал;

Краткие выводы по результатам каждого из этапов рабочего задания и в целом по выполненной работе.

Все графики и таблицы вычерчиваются аккуратно при помощи чертежных инструментов. Условные графические и буквенные обозначения должны соответствовать ГОСТам. Допускается оформление отчёта с применением вычислительной (компьютерной) техники.

Рабочее задание

Перед проведением всех измерений каждому члену бригады необходимо изучить правила использования спортивной игры Дартс, приведенные в приложении 7, которые необходимы для проведения нижеприведенных этапов исследований.

I – й этап исследований «Исследование результатов попаданий в мишень спортивной игры Дартс каждым членом бригады на соответствие нормальному закону распределения по критерию χ 2 Пирсона и критерию трёх сигм»

1. провести измерение (испытание) своей (личной) быстроты и координированности действий, путём бросания 30-40 раз дротиков в круговую мишень спортивной игры Дартс.

2. Результаты измерений (испытаний) x i (в очках) оформить в виде вариационного ряда и занести в таблицу 4.1 (столбцы , выполнить все необходимые расчёты, заполнить необходимые таблицы и сделать соответствующие выводы на соответствие полученного эмпирического распределения нормальному закону распределения, по аналогии с аналогичными расчётами, таблицами и выводами примера 2.12, приведенного в разделе 2 данных методических указаний на страницах 7 -10.

Таблица 4.1

Соответствие быстроты и координированности действий испытуемых нормальному закону распределения

№ п/п округ- ленно
Всего

II – й этап исследований

«Оценка средних показателей генеральной совокупности попаданий в мишень спортивной игры Дартс всех студентов учебной группы по результатам измерений членов одной бригады»

Оценить средние показатели быстроты и координированности действий всех студентов учебной группы (согласно списка учебной группы классного журнала) по результатам попаданий в мишень спортивной игры Дартс всех членов бригады, полученным на первом этапе исследований данной лабораторной работы.

1. Оформить результаты измерений быстроты и координированности действий при бросании дротиков в круговую мишень спортивной игры Дартс всех членов Вашей бригады (2 – 4 человека), которые представляют собой выборку результатов измерений из генеральной совокупности (результаты измерений всех студентов учебной группы – например, 15 человек), занеся их во второй и третий столбцы таблицы 4.2.

Таблица 4.2

Обработка показателей быстроты и координированности действий

членов бригады

№ п/п
Всего

В таблице 4.2 под следует понимать , совпавшее среднее количество баллов (см. результаты расчётов по таблице 4.1) членами Вашей бригады ( , полученное на первом этапе исследований. Следует заметить, что, как правило, в таблице 4.2 есть рассчитанное среднее значение результатов измерений полученное одним членом бригады на первом этапе исследований , так как вероятность, того что результаты измерений различными членами бригады совпадут очень мала. Тогда, как правило, значения в столбце таблицы 4.2 для каждой из строк - равны 1, а в строке «Всего » графы « », записывается число членов Вашей бригады.

2. Выполнить все необходимые расчёты по заполнению таблицы 4.2, а также другие расчёты и выводы, аналогичные расчётам и выводам примера 2.13, приведенным в 2-ом разделе данной методической разработки на страницах 13-14. Следует иметь ввиду, при расчёте ошибки репрезентативности «m» необходимо использовать формулу 2.4, приведенную на странице 13 данной методической разработки, так как выборка мала (n , а число элементов генеральной совокупности N известно, и равно числу студентов учебной группы, согласно списка журнала учебной группы.

III – й этап исследований

Оценка эффективности разминки по показателю «Быстрота и координированность действий» каждым членом бригады с помощью критерия Стьюдента

Оценить эффективность разминки по бросанию дротиков в мишень спортивной игры «Дартс», выполненную на первом этапе исследований данной лабораторной работы, каждым членом бригады по показателю «Быстрота и координированность действий», с помощью критерия Стьюдента - параметрического критерия статистической достоверности эмпирического закона распределения нормальному закону распределения.

… Всего

2. дисперсии и СКО , результатов измерений показателя «Быстрота и координированность действий» по результатам разминки, приведенных в таблице 4.3, (см. аналогичные расчёты приведенные сразу после таблицы 2.30 примера 2.14 на странице 16 данной методической разработки).

3. Каждому члену рабочей бригады провести измерение (испытание) своей (личной) быстроты и координированности действий после разминки,

… Всего

5. Произвести вычисления среднего значения дисперсии и СКО , результатов измерений показателя «Быстрота и координированность действий» после разминки, приведенных в таблице 4.4, записать в целом результат измерений по результатам разминки (см. аналогичные расчеты, приведенные сразу после таблицы 2.31 примера 2.14 на странице 17 данной методической разработки).

6. Выполнить все необходимые расчёты и выводы, аналогичные расчётам и выводам примера 2.14, приведенным в 2-ом разделе данной методической разработки на страницах 16-17. Следует иметь ввиду, при расчёте ошибки репрезентативности «m» необходимо использовать формулу 2.1, приведенную на странице 12 данной методической разработки, так как выборка n , а число элементов генеральной совокупности N ( неизвестно.

IV – й этап исследований

Оценка однотипности (стабильности) показателей «Быстрота и координированность действий» двух членов бригады с помощью критерия Фишера

Оценить однотипность (стабильность) показателей «Быстрота и координированность действий» двух членов бригады с помощью критерия Фишера, по результатам измерений, полученным на третьем этапе исследований данной лабораторной работы.

Для этого необходимо выполнить следующее.

Используя данные таблиц 4.3 и 4.4, результаты расчётов дисперсий по этим таблицам , полученные на третьем этапе исследований, а также методику расчёта и применения критерия Фишера для оценки однотипности (стабильности) спортивных показателей, приведенную в примере 2.15 на страницах 18-19 данной методической разработки, сделать соответствующие статистический и педагогический выводы.

V – й этап исследований

Оценка групп показателей «Быстрота и координированность действий» одного члена бригады до и после разминки

Основные черты всякой зависимости между переменными.

Можно отметить два самых простых свойства зависимости между переменными: (a) величина зависимости и (b) надежность зависимости.

- Величина . Величину зависимости легче понять и измерить, чем надежность. Например, если любой мужчина в выборке имел значение числа лейкоцитов (WCC) выше чем любая женщина, то вы можете сказать, что зависимость между двумя переменными (Пол и WCC) очень высокая. Другими словами, вы могли бы предсказать значения одной переменной по значениям другой.

- Надежность ("истинность"). Надежность взаимозависимости - менее наглядное понятие, чем величина зависимости, однако чрезвычайно важное. Надежность зависимости непосредственно связана с репрезентативностью определенной выборки, на основе которой строятся выводы. Другими словами, надежность говорит о том, насколько вероятно, что зависимость будет вновь обнаружена (иными словами, подтвердится) на данных другой выборки, извлеченной из той же самой популяции.

Следует помнить, что конечной целью почти никогда не является изучение данной конкретной выборки значений; выборка представляет интерес лишь постольку, поскольку она дает информацию обо всей популяции. Если исследование удовлетворяет некоторым специальным критериям, то надежность найденных зависимостей между переменными выборки можно количественно оценить и представить с помощью стандартной статистической меры.

Величина зависимости и надежность представляют две различные характеристики зависимостей между переменными. Тем не менее, нельзя сказать, что они совершенно независимы. Чем больше величина зависимости (связи) между переменными в выборке обычного объема, тем более она надежна (см. следующий раздел).

Статистическая значимость результата (p-уровень) представляет собой оцененную меру уверенности в его "истинности" (в смысле "репрезентативности выборки"). Выражаясь более технически, p-уровень – это показатель, находящийся в убывающей зависимости от надежности результата. Более высокий p-уровень соответствует более низкому уровню доверия к найденной в выборке зависимости между переменными. Именно, p-уровень представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на всю популяцию.

Например, p-уровень = 0.05 (т.е. 1/20) показывает, что имеется 5% вероятность, что найденная в выборке связь между переменными является лишь случайной особенностью данной выборки. Во многих исследованиях p-уровень 0.05 рассматривается как "приемлемая граница" уровня ошибки.

Не существует никакого способа избежать произвола при принятии решения о том, какой уровень значимости следует действительно считать "значимым". Выбор определенного уровня значимости, выше которого результаты отвергаются как ложные, является достаточно произвольным.



На практике окончательное решение обычно зависит от того, был ли результат предсказан априори (т.е. до проведения опыта) или обнаружен апостериорно в результате многих анализов и сравнений, выполненных с множеством данных, а также на традиции, имеющейся в данной области исследований.

Обычно во многих областях результат p .05 является приемлемой границей статистической значимости, однако следует помнить, что этот уровень все еще включает довольно большую вероятность ошибки (5%).

Результаты, значимые на уровне p .01 обычно рассматриваются как статистически значимые, а результаты с уровнем p .005 или p . 001 как высоко значимые. Однако следует понимать, что данная классификация уровней значимости достаточно произвольна и является всего лишь неформальным соглашением, принятым на основе практического опыта в той или иной области исследования .

Понятно, что чем большее число анализов будет проведено с совокупностью собранных данных, тем большее число значимых (на выбранном уровне) результатов будет обнаружено чисто случайно.

Некоторые статистические методы, включающие много сравнений, и, таким образом, имеющие значительный шанс повторить такого рода ошибки, производят специальную корректировку или поправку на общее число сравнений. Тем не менее, многие статистические методы (особенно простые методы разведочного анализа данных) не предлагают какого-либо способа решения данной проблемы.

Если связь между переменными "объективно" слабая, то не существует иного способа проверить такую зависимость кроме как исследовать выборку большого объема. Даже если выборка совершенно репрезентативна, эффект не будет статистически значимым, если выборка мала. Аналогично, если зависимость "объективно" очень сильная, тогда она может быть обнаружена с высокой степенью значимости даже на очень маленькой выборке.

Чем слабее зависимость между переменными, тем большего объема требуется выборка, чтобы значимо ее обнаружить.

Разработано много различных мер взаимосвязи между переменными. Выбор определенной меры в конкретном исследовании зависит от числа переменных, используемых шкал измерения, природы зависимостей и т.д.

Большинство этих мер, тем не менее, подчиняются общему принципу: они пытаются оценить наблюдаемую зависимость, сравнивая ее с "максимальной мыслимой зависимостью" между рассматриваемыми переменными. Говоря технически, обычный способ выполнить такие оценки заключается в том, чтобы посмотреть, как варьируются значения переменных и затем подсчитать, какую часть всей имеющейся вариации можно объяснить наличием "общей" ("совместной") вариации двух (или более) переменных.

Значимость зависит в основном от объема выборки. Как уже объяснялось, в очень больших выборках даже очень слабые зависимости между переменными будут значимыми, в то время как в малых выборках даже очень сильные зависимости не являются надежными.

Таким образом, для того чтобы определить уровень статистической значимости, нужна функция, которая представляла бы зависимость между "величиной" и "значимостью" зависимости между переменными для каждого объема выборки.

Такая функция указала бы точно "насколько вероятно получить зависимость данной величины (или больше) в выборке данного объема, в предположении, что в популяции такой зависимости нет". Другими словами, эта функция давала бы уровень значимости
(p -уровень), и, следовательно, вероятность ошибочно отклонить предположение об отсутствии данной зависимости в популяции.

Эта "альтернативная" гипотеза (состоящая в том, что нет зависимости в популяции) обычно называется нулевой гипотезой .

Было бы идеально, если бы функция, вычисляющая вероятность ошибки, была линейной и имела только различные наклоны для разных объемов выборки. К сожалению, эта функция существенно более сложная и не всегда точно одна и та же. Тем не менее, в большинстве случаев ее форма известна, и ее можно использовать для определения уровней значимости при исследовании выборок заданного размера. Большинство этих функций связано с классом распределений, называемым нормальным .

Статистическая значимость или р-уровень значимости - основной результат проверки

статистической гипотезы. Говоря техническим языком, это вероятность получения данного

результата выборочного исследования при условии, что на самом деле для генеральной

совокупности верна нулевая статистическая гипотеза - то есть связи нет. Иначе говоря, это

вероятность того, что обнаруженная связь носит случайный характер, а не является свойством

совокупности. Именно статистическая значимость, р-уровень значимости является

количественной оценкой надежности связи: чем меньше эта вероятность, тем надежнее связь.

Предположим, при сравнении двух выборочных средних было получено значение уровня

статистической значимости р=0,05. Это значит, что проверка статистической гипотезы о

равенстве средних в генеральной совокупности показала, что если она верна, то вероятность

случайного появления обнаруженных различий составляет не более 5%. Иначе говоря, если бы

две выборки многократно извлекались из одной и той же генеральной совокупности, то в 1 из

20 случаев обнаруживалось бы такое же или большее различие между средними этих выборок.

То есть существует 5%-ная вероятность того, что обнаруженные различия носят случайный

характер, а не являются свойством совокупности.

В отношении научной гипотезы уровень статистической значимости – это количественный

показатель степени недоверия к выводу о наличии связи, вычисленный по результатам

выборочной, эмпирической проверки этой гипотезы. Чем меньше значение р-уровня, тем выше

статистическая значимость результата исследования, подтверждающего научную гипотезу.

Полезно знать, что влияет на уровень значимости. Уровень значимости при прочих равных

условиях выше (значение р-уровня меньше), если:

Величина связи (различия) больше;

Изменчивость признака (признаков) меньше;

Объем выборки (выборок) больше.

Односторонние еpи двусторонние критерии проверки значимости

Если цель исследования том, чтобы выявить различие параметров двух генеральных

совокупностей, которые соответствуют различным ее естественным условиям (условия жизни,

возраст испытуемых и т. п.), то часто неизвестно, какой из этих параметров будет больше, а

какой меньше.

Например, если интересуются вариативностью результатов в контрольной и

экспериментальной группах, то, как правило, нет уверенности в знаке различия дисперсий или

стандартных отклонений результатов, по которым оценивается вариативность. В этом случае

нулевая гипотеза состоит в том, что дисперсии равны между собой, а цель исследования -

доказать обратное, т.е. наличие различия между дисперсиями. При этом допускается, что

различие может быть любого знака. Такие гипотезы называются двусторонними.

Но иногда задача состоит в том, чтобы доказать увеличение или уменьшение параметра;

например, средний результат в экспериментальной группе выше, чем контрольной. При этом

уже не допускается, что различие может быть другого знака. Такие гипотезы называются

Односторонними.

Критерии значимости, служащие для проверки двусторонних гипотез, называются

Двусторонними, а для односторонних - односторонними.

Возникает вопрос о том, какой из критериев следует выбирать в том или ином случае. Ответ

На этот вопрос находится за пределами формальных статистических методов и полностью

Зависит от целей исследования. Ни в коем случае нельзя выбирать тот или иной критерий после

Проведения эксперимента на основе анализа экспериментальных данных, поскольку это может

Привести к неверным выводам. Если до проведения эксперимента допускается, что различие

Сравниваемых параметров может быть как положительным, так и отрицательным, то следует

Статистическая значимость результата (p-значение) представляет собой оцененную меру уверенности в его «истинности» (в смысле «репрезентативности выборки»). Выражаясь более технически, p-значение ‑ это показатель, находящийся в убывающей зависимости от надежности результата. Более высокое p-значение соответствует более низкому уровню доверия к найденной в выборке зависимости между переменными. Именно, p-значение представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на всю популяцию. Например, p-значение=0.05 (т.е. 1/20) показывает, что имеется 5% вероятность, что найденная в выборке связь между переменными является лишь случайной особенностью данной выборки. Иными словами, если данная зависимость в популяции отсутствует, а вы многократно проводили бы подобные эксперименты, то примерно в одном из двадцати повторений эксперимента можно было бы ожидать такой же или более сильной зависимости между переменными.

Во многих исследованиях p-значение=0.05 рассматривается как «приемлемая граница» уровня ошибки.

Не существует никакого способа избежать произвола при принятии решения о том, какой уровень значимости следует действительно считать «значимым». Выбор определенного уровня значимости, выше которого результаты отвергаются как ложные, является достаточно произвольным. На практике окончательное решение обычно зависит от того, был ли результат предсказан априори (т.е. до проведения опыта) или обнаружен апостериорно в результате многих анализов и сравнений, выполненных с множеством данных, а также на традиции, имеющейся в данной области исследований. Обычно во многих областях результат p 0.05 является приемлемой границей статистической значимости, однако следует помнить, что этот уровень все еще включает довольно большую вероятность ошибки (5%). Результаты, значимые на уровне p 0.01 обычно рассматриваются как статистически значимые, а результаты с уровнем p 0.005 или p 0.001 как высоко значимые. Однако следует понимать, что данная классификация уровней значимости достаточно произвольна и является всего лишь неформальным соглашением, принятым на основе практического опыта в той или иной области исследования.

Как было уже сказано, величина зависимости и надежность представляют две различные характеристики зависимостей между переменными. Тем не менее, нельзя сказать, что они совершенно независимы. Говоря общим языком, чем больше величина зависимости (связи) между переменными в выборке обычного объема, тем более она надежна.

Если предполагать отсутствие зависимости между соответствующими переменными в популяции, то наиболее вероятно ожидать, что в исследуемой выборке связь между этими переменными также будет отсутствовать. Таким образом, чем более сильная зависимость обнаружена в выборке, тем менее вероятно, что этой зависимости нет в популяции, из которой она извлечена.


Объем выборки влияет на значимость зависимости. Если наблюдений мало, то соответственно имеется мало возможных комбинаций значений этих переменных и таким образом, вероятность случайного обнаружения комбинации значений, показывающих сильную зависимость, относительно велика.

Как вычисляется уровень статистической значимости. Предположим, вы уже вычислили меру зависимости между двумя переменными (как объяснялось выше). Следующий вопрос, стоящий перед вами: «насколько значима эта зависимость?» Например, является ли 40% объясненной дисперсии между двумя переменными достаточным, чтобы считать зависимость значимой? Ответ: «в зависимости от обстоятельств». Именно, значимость зависит в основном от объема выборки. Как уже объяснялось, в очень больших выборках даже очень слабые зависимости между переменными будут значимыми, в то время как в малых выборках даже очень сильные зависимости не являются надежными. Таким образом, для того чтобы определить уровень статистической значимости, вам нужна функция, которая представляла бы зависимость между «величиной» и «значимостью» зависимости между переменными для каждого объема выборки. Данная функция указала бы вам точно «насколько вероятно получить зависимость данной величины (или больше) в выборке данного объема, в предположении, что в популяции такой зависимости нет». Другими словами, эта функция давала бы уровень значимости (p-значение), и, следовательно, вероятность ошибочно отклонить предположение об отсутствии данной зависимости в популяции. Эта «альтернативная» гипотеза (состоящая в том, что нет зависимости в популяции) обычно называется нулевой гипотезой. Было бы идеально, если бы функция, вычисляющая вероятность ошибки, была линейной и имела только различные наклоны для разных объемов выборки. К сожалению, эта функция существенно более сложная и не всегда точно одна и та же. Тем не менее, в большинстве случаев ее форма известна, и ее можно использовать для определения уровней значимости при исследовании выборок заданного размера. Большинство этих функций связано с очень важным классом распределений, называемым нормальным.

Рассмотрим типичный пример применения статистических методов в медицине. Создатели препарата предполагают, что он увеличивает диурез пропорционально принятой дозе. Для проверки этого предположения они назначают пяти добровольцам разные дозы препарата.

По результатам наблюдений строят график зависимости диуреза от дозы (рис. 1.2А). Зависимость видна невооруженным глазом. Исследователи поздравляют друг друга с открытием, а мир - с новым диуретиком.

На самом деле данные позволяют достоверно утверждать лишь то, что зависимость диуреза от дозы наблюдалась у этих пяти добровольцев. То, что эта зависимость проявится у всех людей, которые будут принимать препарат, - не более чем предполо-
зЯ

с

жение. Нельзя сказать, что оно беспочвенно - иначе, зачем ставить эксперименты?

Но вот препарат поступил в продажу. Все больше людей принимают его в надежде увеличить свой диурез. И что же мы видим? Мы видим рис 1.2Б, который свидетельствует об отсутствии какой либо связи между дозой препарата и диурезом. Черными кружками отмечены данные первоначального исследования. Статистика располагает методами, позволяющими оценить вероятность получения столь «непредставительной», более того, сбивающей с толку выборки. Оказывается в отсутствие связи между диурезом и дозой препарата полученная «зависимость» наблюдалась бы примерно в 5 из 1000 экспериментов. Итак, в данном случае исследователям просто не повезло. Если бы они применили даже самые совершенные статистические методы, это все равно не спасло бы их от ошибки.

Этот вымышленный, но совсем не далекий от реальности пример, мы привели не для того, чтобы указать на бесполез
ность статистики. Он говорит о другом, о вероятностном характере ее выводов. В результате применения статистического метода мы получаем не истину в последней инстанции, а всего лишь оценку вероятности того или иного предположения. Кроме того, каждый статистический метод основан на собственной математической модели и результаты его правильны настолько насколько эта модель соответствует действительности.

Еще по теме ДОСТОВЕРНОСТЬ И СТАТИСТИЧЕСКАЯ ЗНАЧИМОСТЬ:

  1. Статистически значимые отличия показателей качества жизни
  2. Статистическая совокупность. Учетные признаки. Понятие о сплошных и выборочных исследованиях. Требования к статистической совокупности и использованию учетно-отчетных документов
  3. РЕФЕРАТ. ИССЛЕДОВАНИЕ ДОСТОВЕРНОСТИ ПОКАЗАНИЙ ТОНОМЕТРА ДЛЯ ИЗМЕРЕНИЯ ВНУТРИГЛАЗНОГО ДАВЛЕНИЯ ЧЕРЕЗ ВЕКО2018, 2018