Значимые различия статистика. Достоверность статистическая. Время до события

Статистическая значимость

Результаты, полученные с помощью определенной процедуры исследования, называют статистически значимыми , если вероятность их случайного появления очень мала. Эту концепцию можно проиллюстрировать на примере кидания монеты. Предположим, что монету подбросили 30 раз; 17 раз выпал «орел» и 13 раз выпала «решка». Является ли значимым отклонение этого результата от ожидаемого (15 выпадений «орла» и 15 - «решки»), или это отклонение случайно? Чтобы ответить на этот вопрос, можно, например, много раз кидать ту же монету по 30 раз подряд, и при этом отмечать, сколько раз повторится соотношение «орлов» и «решек», равное 17:13. Статистический анализ избавляет нас от этого утомительного процесса. С его помощью после первых 30 киданий монеты можно произвести оценку возможного числа случайных выпадений 17 «орлов» и 13 «решек». Такая оценка называется вероятностным утверждением.

В научной литературе по индустриально-организационной психологии вероятностное утверждение в математической форме обозначается выражением р (вероятность) < (менее) 0,05 (5 %), которое следует читать как «вероятность менее 5 %». В примере с киданием монеты это утверждение будет означать, что если исследователь проведет 100 опытов, каждый раз кидая монету по 30 раз, то он может ожидать случайного выпадения комбинации из 17 «орлов» и 13 «решек» менее, чем в 5 опытах. Этот результат будет сочтен статистически значимым, поскольку в индустриально-организационной психологии уже давно приняты стандарты статистической значимости 0,05 и 0,01 (р < 0,01). Этот факт важен для понимания литературы, но не следует считать, что он говорит о бессмысленности проведения наблюдений, не соответствующих этим стандартам. Так называемые незначимые результаты исследований (наблюдения, которые можно получить случайно более одного или пяти раз из 100) могут быть весьма полезными для выявления тенденций и как руководство к будущим исследованиям.

Необходимо также заметить, что не все психологи соглашаются с традиционными стандартами и процедурами (например, Cohen, 1994; Sauley & Bedeian, 1989). Вопросы, связанные с измерениями, сами по себе являются главной темой работы многих исследователей, изучающих точность методов измерений и предпосылки, которые лежат в основе существующих методов и стандартов, а также разрабатывают новые медики и инструменты. Может быть, когда-нибудь в будущем исследования в этой власти приведут к изменению традиционных стандартов оценки статистической значимости, и эти изменения завоюют всеобщее признание. (Пятое отделение Американской психологической ассоциации объединяет психологов, которые специализируются на изучении оценок, измерений и статистики.)

В отчетах об исследованиях вероятностное утверждение, такое как р < 0,05, связано некоторой статистикой, то есть числом, которое получено в результате проведения определенного набора математических вычислительных процедур. Вероятностное подтверждение получают путем сравнения этой статистики с данными из специальных таблиц, которые публикуются для этой цели. В индустриально-организационных психологических исследованиях часто встречаются такие статистики, как r, F, t, г> (читается «хи квадрат») и R (читается «множественный R»). В каждом случае статистику (одно число), полученную в результате анализа серии наблюдений, можно сравнить числами из опубликованной таблицы. После этого можно сформулировать вероятностное утверждение о вероятности случайного получения этого числа, то есть сделать вывод о значимости наблюдений.

Для понимания исследований, описанных в этой книге, достаточно иметь ясное представление о концепции статистической значимости и необязательно знать, как рассчитываются упомянутые выше статистики. Однако было бы полезно обсудить одно предположение, которое лежит в основе всех этих процедур. Это предположение о том, что все наблюдаемые переменные распределяются приблизительно по нормальному закону. Кроме того, при чтении отчетов об индустриально-организационных психологических исследованиях часто встречаются еще три концепции, которые играют важную роль - во-первых, корреляция и корреляционная связь, во-вторых, детерминант/ предсказывающая переменная и «ANOVA» (дисперсионный анализ), в-третьих, группа статистических методов под общим названием «метаанализ».

Статистическая значимость результата (p-значение) представляет собой оцененную меру уверенности в его «истинности» (в смысле «репрезентативности выборки»). Выражаясь более технически, p-значение ‑ это показатель, находящийся в убывающей зависимости от надежности результата. Более высокое p-значение соответствует более низкому уровню доверия к найденной в выборке зависимости между переменными. Именно, p-значение представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на всю популяцию. Например, p-значение=0.05 (т.е. 1/20) показывает, что имеется 5% вероятность, что найденная в выборке связь между переменными является лишь случайной особенностью данной выборки. Иными словами, если данная зависимость в популяции отсутствует, а вы многократно проводили бы подобные эксперименты, то примерно в одном из двадцати повторений эксперимента можно было бы ожидать такой же или более сильной зависимости между переменными.

Во многих исследованиях p-значение=0.05 рассматривается как «приемлемая граница» уровня ошибки.

Не существует никакого способа избежать произвола при принятии решения о том, какой уровень значимости следует действительно считать «значимым». Выбор определенного уровня значимости, выше которого результаты отвергаются как ложные, является достаточно произвольным. На практике окончательное решение обычно зависит от того, был ли результат предсказан априори (т.е. до проведения опыта) или обнаружен апостериорно в результате многих анализов и сравнений, выполненных с множеством данных, а также на традиции, имеющейся в данной области исследований. Обычно во многих областях результат p 0.05 является приемлемой границей статистической значимости, однако следует помнить, что этот уровень все еще включает довольно большую вероятность ошибки (5%). Результаты, значимые на уровне p 0.01 обычно рассматриваются как статистически значимые, а результаты с уровнем p 0.005 или p 0.001 как высоко значимые. Однако следует понимать, что данная классификация уровней значимости достаточно произвольна и является всего лишь неформальным соглашением, принятым на основе практического опыта в той или иной области исследования.

Как было уже сказано, величина зависимости и надежность представляют две различные характеристики зависимостей между переменными. Тем не менее, нельзя сказать, что они совершенно независимы. Говоря общим языком, чем больше величина зависимости (связи) между переменными в выборке обычного объема, тем более она надежна.

Если предполагать отсутствие зависимости между соответствующими переменными в популяции, то наиболее вероятно ожидать, что в исследуемой выборке связь между этими переменными также будет отсутствовать. Таким образом, чем более сильная зависимость обнаружена в выборке, тем менее вероятно, что этой зависимости нет в популяции, из которой она извлечена.


Объем выборки влияет на значимость зависимости. Если наблюдений мало, то соответственно имеется мало возможных комбинаций значений этих переменных и таким образом, вероятность случайного обнаружения комбинации значений, показывающих сильную зависимость, относительно велика.

Как вычисляется уровень статистической значимости. Предположим, вы уже вычислили меру зависимости между двумя переменными (как объяснялось выше). Следующий вопрос, стоящий перед вами: «насколько значима эта зависимость?» Например, является ли 40% объясненной дисперсии между двумя переменными достаточным, чтобы считать зависимость значимой? Ответ: «в зависимости от обстоятельств». Именно, значимость зависит в основном от объема выборки. Как уже объяснялось, в очень больших выборках даже очень слабые зависимости между переменными будут значимыми, в то время как в малых выборках даже очень сильные зависимости не являются надежными. Таким образом, для того чтобы определить уровень статистической значимости, вам нужна функция, которая представляла бы зависимость между «величиной» и «значимостью» зависимости между переменными для каждого объема выборки. Данная функция указала бы вам точно «насколько вероятно получить зависимость данной величины (или больше) в выборке данного объема, в предположении, что в популяции такой зависимости нет». Другими словами, эта функция давала бы уровень значимости (p-значение), и, следовательно, вероятность ошибочно отклонить предположение об отсутствии данной зависимости в популяции. Эта «альтернативная» гипотеза (состоящая в том, что нет зависимости в популяции) обычно называется нулевой гипотезой. Было бы идеально, если бы функция, вычисляющая вероятность ошибки, была линейной и имела только различные наклоны для разных объемов выборки. К сожалению, эта функция существенно более сложная и не всегда точно одна и та же. Тем не менее, в большинстве случаев ее форма известна, и ее можно использовать для определения уровней значимости при исследовании выборок заданного размера. Большинство этих функций связано с очень важным классом распределений, называемым нормальным.

Задачей статистического исследования является выявление закономерностей, лежащих в природе исследуемых явлений. Показатели и средние величины должны служить отображением действительности, для чего необходимо определять степень их достоверности. Правильное отображение выборочной совокупностью генеральной совокупности называется репрезентативностью. Мерой точности и достоверности выборочных статистических величин являются средние ошибки представительности (репрезентативности), которые зависят от численности выборки и степени разнообразия выборочной совокупности по исследуемому признаку.

Поэтому для определения степени достоверности результатов статистического исследования необходимо для каждой относительной и средней величины вычислить соответствующую среднюю ошибку. Средняя ошибка показателя m p вычисляется по формуле:

При числе наблюдений менее 30, где

P - величина показателя в процентах, промилле и т.д.

q - дополнение этого показателя до 100, если он в процентах, до 1000, если % 0 и т.д. (т.е. q = 100–P, 1000–P и т.д.)

Например, известно, что в районе в течение года заболело дизентерией 224 человека. Численность населения ― 33000. Показатель заболеваемости дизентерией на

Средняя ошибка этого показателя

Для решения вопроса о степени достоверности показателя определяют доверительный коэффициент (t), который равен отношению показателя к его средней ошибке, т.е.

В нашем примере

Чем выше t, тем больше степень достоверности. При t=1, вероятность достоверности показателя равна 68,3%, при t=2 ― 95,5%, при t=3 ― 99,7%. В медико-статистических исследованиях обычно используют доверительную вероятность (надежность), равную 95,5%–99,0%, а в наиболее ответственных случаях – 99,7%. Таким образом в нашем примере показатель заболеваемости достоверен.

При числе наблюдений менее 30, значение критерия определяется по таблице Стьюдента. Если полученная величина будет выше или равна табличной ― показатель достоверен. Если ниже ― не достоверен.

При необходимости сравнения двух однородных показателей достоверность их различий определяется по формуле:

(от большего числа отнимают меньшее),

где P 1 –P 2 ― разность двух сравниваемых показателей,

― средняя ошибка разности двух показателей.

Например, в районе Б в течении года заболело дизентерией 270 человек. Население района ― 45000. Отсюда заболеваемость дизентерией:

т.е. показатель заболеваемости достоверен.

Как видно, заболеваемость в районе Б ниже, чем в районе А. Определяем по формуле достоверность разницы двух показателей:

При наличии большого числа наблюдений (более 30) разность показателей является статистически достоверной, если t = 2 или больше. Таким образом, в нашем примере заболеваемость в районе А достоверно выше, т.к. доверительный коэффициент (t) больше 2.

Зная величину средней ошибки показателя, можно определить доверительные границы этого показателя в зависимости от влияния причин случайного характера. Доверительные границы определяются по формуле:

P ― показатель;

m ― его средняя ошибка;

t ― доверительный коэффициент выбирается в зависимости от требуемой величины надежности: t=1 соответствует надежности результата в 68,3% случаев, t=2 – 95,5%, t=2,6 – 99%, t=3 – 99,7%, t=3,3 – 99,9Величина называется предельной ошибкой.

Например, в районе Б показатель заболеваемости дизентерией с точностью до 99,7 9 % может колебаться в связи со случайными факторами в пределах т.е. от 49,1 до 70,9 .

Понятие о статистической достоверности

Статистическая достоверность имеет существенное значение в расчетной практике ФКС. Ранее было отмечено, что из одной и той же генеральной совокупности может быть избрано множество выборок:

Если они подобраны корректно, то их средние показатели и показатели генеральной совокупности незначительно отличаются друг от друга величиной ошибки репрезентативности с учетом принятой надежности;

Если они избираются из разных генеральных совокупностей, различие между ними оказывается существенным. В статистике по­всеместно рассматривается сравнение выборок;

Если они отличаются несущественно, непринципиально, не­значительно, т. е. фактически принадлежат одной и той же гене­ральной совокупности, различие между ними называется стати­стически недостоверным.

Статистически достоверным различием выборок называется выборка, которая различается значимо и принципиально, т. е. при­надлежит разным генеральным совокупностям.

В ФКС оценка статистической достоверности различий выбо­рок означает решение множества практических задач. Например, введение новых методик обучения, программ, комплексов упраж­нений, тестов, контрольных упражнений связано с их экспери­ментальной проверкой, которая должна показать, что испытуе­мая группа принципиально отлична от контрольной. Поэтому при­меняют специальные статистические методы, называемые крите­риями статистической достоверности, позволяющие обнаружить наличие или отсутствие статистически достоверного различия между выборками.

Все критерии делятся на две группы: параметрические и непараметрические. Параметрические критерии предусматривают обязательное наличие нормального закона распределения, т.е. имеется в виду обязательное определение основных показателей нормального закона - средней арифметической величины х и среднего квадратического отклонения о. Параметрические крите­рии являются наиболее точными и корректными. Непараметри­ческие критерии основаны на ранговых (порядковых) отличиях между элементами выборок.

Приведем основные критерии статистической достоверности, используемые в практике ФКС: критерий Стьюдента, критерий Фишера, критерий Вилкоксона, критерий Уайта, критерий Ван-дер-Вардена (критерий знаков).

Критерий Стьюдента назван в честь английского ученого К. Госсета (Стьюдент - псевдоним), открывшего данный метод. Критерий Стьюдента является параметрическим, используется для сравнения абсолютных показателей выборок. Выборки могут быть различными по объему.

Критерий Стьюдента определяется так.

1. Находим критерий Стьюдента t по следующей формуле:

где Xi, x 2 - средние арифметические сравниваемых выборок; /я ь w 2 - ошибки репрезентативности, выявленные на основании показателей сравниваемых выборок.

2. Практика в ФКС показала, что для спортивной работы доста­точно принять надежность счета Р = 0,95.

63 Для надежности счета: Р= 0,95 (а = 0,05), при числе степеней; свободы k = «! + п 2 - 2 по таблице приложения 4 находим величи- \ ну граничного значения критерия (^гр).

3. На основании свойств нормального закона распределения в критерии Стьюдента осуществляется сравнение t и t^.

4. Делаем выводы:

Если t > ftp, то различие между сравниваемыми выборками статистически достоверно;

Если t < 7 Ф, то различие статистически недостоверно.

Для исследователей в области ФКС оценка статистической до­стоверности является первым шагом в решении конкретной зада­чи: принципиально или непринципиально различаются между; собой сравниваемые выборки. Последующий шаг заключается в; оценке этого различия с педагогической точки зрения, что опре­деляется условием задачи.

ДОСТОВЕРНОСТЬ СТАТИСТИЧЕСКАЯ

- англ. credibility /validity, statistical; нем. Validitat, statistische. Последовательность, объективность и отсутствие неясности в статистическом тесте или в к.-л. наборе измерений. Д. с. может быть проверена повторением того же теста (или вопросника) по отношению к тому же самому субъекту, чтобы убедиться, будут ли получены такие же результаты; или сравнением различных частей теста, которыми предполагают измерить один и тот же объект.

Antinazi. Энциклопедия социологии , 2009

Смотреть что такое "ДОСТОВЕРНОСТЬ СТАТИСТИЧЕСКАЯ" в других словарях:

    ДОСТОВЕРНОСТЬ СТАТИСТИЧЕСКАЯ - англ. credibility /validity, statistical; нем. Validitat, statistische. Последовательность, объективность и отсутствие неясности в статистическом тесте или в к. л. наборе измерений. Д. с. может быть проверена повторением того же теста (или… … Толковый словарь по социологии

    В статистике величину называют статистически значимой, если мала вероятность её случайного возникновения или еще более крайних величин. Здесь под крайностью понимается степень отклонения тестовой статистики от нуль гипотезы. Разница называется… … Википедия

    Физическое явление статистической устойчивости состоит в том, что при увеличении величины выборки частота случайного события или среднее значение физической величины стремится к некоторому фиксированному числу. Феномен статистической… … Википедия

    ДОСТОВЕРНОСТЬ РАЗЛИЧИЯ (сходства) - аналитико статистическая процедура установления уровня значимости различий или сходств между выборками по изучаемым показателям (переменным) … Современный образовательный процесс: основные понятия и термины

    ОТЧЕТНОСТЬ, СТАТИСТИЧЕСКАЯ Большой бухгалтерский словарь

    ОТЧЕТНОСТЬ, СТАТИСТИЧЕСКАЯ - форма государственного статистического наблюдения, при которой соответствующие органы получают от предприятий (организаций и учреждений) необходимые им сведения в виде уставленных в законном порядке отчетных документов (статистических отчетов) за … Большой экономический словарь

    Наука, занимающаяся изучением приемов систематического наблюдения над массовыми явлениями социальной жизни человека, составления численных их описаний и научной обработки этих описаний. Таким образом, теоретическая статистика есть наука… … Энциклопедический словарь Ф.А. Брокгауза и И.А. Ефрона

    Коэффициент корреляции - (Correlation coefficient) Коэффициент корреляции это статистический показатель зависимости двух случайных величин Определение коэффициента корреляции, виды коэффициентов корреляции, свойства коэффициента корреляции, вычисление и применение… … Энциклопедия инвестора

    Статистика - (Statistics) Статистика это общетеоретическая наука, изучающая количественные изменения в явлениях и процессах. Государственная статистика, службы статистики, Росстат (Госкомстат), статистические данные, статистика запросов, статистика продаж,… … Энциклопедия инвестора

    Корреляция - (Correlation) Корреляция это статистическая взаимосвязь двух или нескольких случайных величин Понятие корреляции, виды корреляции, коэффициент корреляции, корреляционный анализ, корреляция цен, корреляция валютных пар на Форекс Содержание… … Энциклопедия инвестора

Книги

  • Исследование в математике и математика в исследовании: Методический сборник по исследовательской деятельности учащихся , Борзенко В.И.. В сборнике представлены методические разработки, применимые в организации исследовательской деятельности учащихся. Первая часть сборника посвящена применению исследовательского подхода в…