Главная » Мебель » Репрезентативность данных. Репрезентативность выборки и ее проверка

Репрезентативность данных. Репрезентативность выборки и ее проверка

Репрезентативность выборки

Большинство социологических исследований носит не сплошной, а выборочный характер: по строгим правилам отбирается определенное количество людей, отражающих по социально-демографическим признакам структуру изучаемого объекта. Такое исследование называется выборочным.

При построении социологической выборки используется множество специальных терминов, в том числе два важнейших – генеральная ивыборочная совокупность .

Совокупность, из которой отбираются варианты для совместного изучения, называется генеральной, а отобранная из генеральной совокупности часть ее членов носит название выборки ,или выборочной совокупности . Объем генеральной совокупности обозначается символом N , а объем выборочной совокупности – n .

Генеральной совокупностью считают все население или ту его часть, которую социолог намерен изучить, совокупность людей, обладающих одним или несколькими свойствами, подлежащими изучению. Часто генеральная совокупность (еще называемая популяцией) настолько крупная, что опрос каждого представителя чрезвычайно обременителен и дорогостоящ. Это те, на кого направлен теоретический интерес социолога (в том смысле, что узнать о каждом представителе генеральной совокупности ученый может только косвенно – на основе информации о выборочной совокупности).

Выборкой называется совокупность элементов объекта социологического исследования, подлежащая непосредственному изучению. Понятие выборки в статистике и социологии рассматривается в двух значениях:

– выборка (как результат действия) – представительная часть генеральной совокупности, в которой закон распределения признака соответствует закону распределения этого признака в генеральной совокупности;

– выборка (как способ или процесс действия) – способ отбора объектов генеральной совокупности в выборочную.

Выборка должна наилучшим образом репрезентировать объект исследования (генеральную совокупность).

Выборочная совокупность – уменьшенная модель генеральной совокупности. Иначе говоря, это множество людей, которых социолог опрашивает. В выборку, или выборочную совокупность, входят только те, кого социолог намеревается непосредственно опросить. Представим, что предметом его исследования, т. е. темой, выступает экономическая активность пенсионеров. Все пенсионеры – пожилые люди в возрасте старше 55 (женщины) и 60 (мужчины) лет – будут составлять генеральную совокупность. По специальным формулам социолог рассчитал, что ему достаточно опросить 2,5 тысячи пенсионеров. Это и станет его выборочной совокупностью.

Основное правило ее составления гласит: каждый элемент генеральной совокупности должен иметь одинаковые шансы попасть в выборку .Но как этого добиться? Прежде всего, надо узнать как можно больше свойств, или параметров, генеральной совокупности, например, разброс в возрасте, доходах, национальности, местах проживания респондентов. Разброс в возрасте респондентов называется вариацией ,конкретные величины возраста – значениями , а совокупность всех значений образует переменную .

Таким образом, переменная «возраст» имеет значения от 0 до 70 (средняя продолжительность жизни) и более лет. Значения группируются в интервалы: 0–5, 6–10, 11–15 лет и т. д. Их можно группировать иначе, все зависит от задач исследования. Интервалы значений переменной «возраст» в случае с пенсионерами начинаются с 55 и 60 лет.

Все население, целая нация или очень большая социальная группа редко выступают генеральной совокупностью. В большинстве эмпирических исследований социолога интересует частная проблема, например, рост числа разводов среди молодых семей в крупных городах или интерес к инвестиционной деятельности среди представителей среднего класса столичного города. Разводы и инвестиционная деятельность – это те темы, которые интересуют конкретного исследователя в данный период времени. Соответственно все люди, втянутые в этот процесс или участвующие в данном событии, будут называться группой интереса .Их могут быть тысячи или десятки тысяч человек. Они составляют исходную популяцию, или генеральную совокупность, из которой социолог строит выборочную совокупность и опрашивает ее.

Сущность выборочного метода заключается в том, чтобы по свойствам части (выборки) судить о численных характеристиках целого (генеральной совокупности), по отдельным группам элементов – об их общей совокупности, которая иногда мыслится как совокупность неограниченно большого объема. Основу выборочного метода составляет та внутренняя связь, которая существует в популяциях между единичным и общим, частью и целым.

Репрезентативной выборкой в социологии считается такая выборочная совокупность, основные характеристики которой полностью совпадают (представлены в той же пропорции или с той же частотой) с такими же характеристиками генеральной совокупности. Только для этого типа выборки результаты обследования части единиц (объектов) можно распространять на всю генеральную совокупность. Необходимое условие для построения репрезентативной выборки – наличие информации о генеральной совокупности, т. е. либо полный список единиц (субъектов) генеральной совокупности, либо информация о структуре по характеристикам, существенно влияющим на отношение к предмету исследования.

Под репрезентативностью в социологии понимают такие свойства выборки, которые позволяют ей выступать на момент опроса моделью, представителем генеральной совокупности. Иными словами, репрезентативная выборка представляет собой точную модель генеральной совокупности, которую она должна отражать (по значимым для исследования параметрам). В той степени, в какой выборка является репрезентативной, выводы, основанные на изучении этой выборки, можно применить ко всей совокупности.

Репрезентативным считается такое исследование, при котором отклонение в выборочной совокупности по контрольным признакам не превышает 5 %. При пилотажном опросе небольшой генеральной совокупности (например, в рамках факультета численностью до 100–250 человек) репрезентативным будет сплошное анкетирование. В масштабах вуза достаточно будет опросить 25 % от общего числа студентов.

Как только социолог определился с тем, кого он хочет опросить, он определил основу выборки .После чего решается вопрос о типе выборки.

Типами выборки называются основные разновидности статисти-ческой выборки: случайная (вероятностная) и неслучайная (невероятностная). Тип выборки говорит о том, как люди попадают в выборочную совокупность, объем выборки сообщает о том, какое их количество туда попало.

Перейдем к характеристике наиболее распространенных выборок.

С точки зрения статистического подхода репрезентативность выборки обеспечивается выполнением следующих условий: а) каждый из объектов генеральной совокупности должен иметь одинаковую вероятность быть представленным в выборке; б) отбор производится из однородных совокупностей; в) число объектов в выборке должно быть достаточно большим; г) выборка и генеральная совокупность должны быть по возможности статистически однородны.

Создание простой вероятностной выборки может осуществляться методом рандомизации – процедурой случайного отбора.При этом методе характеристики испытуемых игнорируются, их включение в выборку имеет одинаковую вероятность и является непредвзятым. Это значит, что любой испытуемый имеет равные шансы попасть в выборку. Процедура построения простой случайной выборки включает в себя следующие шаги: а) необходимо получить полный список членов генеральной совокупности и пронумеровать этот список; б) определить предполагаемый объем выборки, то есть ожидаемое число испытуемых; в) извлечь из таблицы случайных чисел столько чисел, сколько требуется выборочных единиц (например, если в выборке должно оказаться 100 человек, из таблицы берут 100 случайных чисел, которые могут генерироваться компьютерной программой). Упрощенным вариантом рандомизации является механический отбор испытуемых на основе списка генеральной совокупности через определённый интервал (К), который определяется случайно.

Несмотря на свою простоту, этот метод имеет существенные ограничения:

Значительно увеличивает трудозатраты и стоимость сбора данных, если генеральная совокупность является численно большой или распределенной по большой географической территории (это характерно при создании ПДМ, рассчитанных на широкие слои населения);

Результаты применения простой случайной выборки часто характеризуются низкой точностью и большой стандартной ошибкой.

В случае неоднородной генеральной совокупности, прежде чем формировать выборку, рекомендуется разделить эту совокупность на однородные части. Они могут формироваться на основе того или иного признака: административно-территориальные единицы (например, районы города), социально-демографические характеристики (пол, возраст, социальный статус) или организационная принадлежность испытуемых (образовательные учреждения) и т.д. Такая выборка называется районированной (стратифицированной). Далее из каждой однородной части отбор в выборку осуществляется случайным образом. Например, для оценки методики изучения межличностной идентичности в группе и подгруппах и методики изучения микрогрупповой и групповой идентичности (применительно к учебным группам подростково-юношеского возраста) были выбраны шесть средних общеобразовательных школ в трех районах и два вуза г. Ростова-на-Дону. Далее методом случайного отбора в выборку были включены по шесть групп 10-х и 11-х классов школ и шесть студенческих групп 2 курса вузов (всего 18 групп).Общая численность испытуемых составила 413 человек.

Ещё одним вариантом рандомизации является создание серийной (гнездовой или кластерной) выборки. Здесьединицами случайного отбора выступают не сами объекты, а группы (кластеры или гнёзда). Объекты внутри групп обследуются сплошным образом.

Создание невероятностной выборки, что широко практикуется при оценке психодиагностических методик и составлении нормативов, осуществляется не по принципу случайности, а по субъективным критериям – доступности, типичности, равного представительства и т.д. Выделяют несколько способов формирования такой выборки:

1) Метод квотирования. Изначально выделяется некоторое количество групп объектов (например, мужчины и женщины в возрасте 18-25 лет, 26-35 лет и 36-55 лет. Для каждой группы задается количество испытуемых, которые должны быть обследованы с помощью данной методики. Количество испытуемых, которые должны попасть в каждую из групп, задается либо пропорционально заранее известной доле группы в генеральной совокупности (например, если генеральная совокупность представлена 5000 человек, из них 2000 женщин и 3000 мужчин, тогда в квотной выборке будет 200 женщин и 300 мужчин), либо одинаковым для каждой группы. Внутри групп объекты отбираются произвольно.

2) Метод «снежного кома». Выборка строится следующим образом: у каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования.

3) Метод стихийного отбора.Опрашиваются наиболее доступные респонденты. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром – желанием и активностью респондентов.

4) Метод отбора типичных объектов. После районирования (стратификации) из каждой группы отбирается типичный объект, т.е. объект, который по большинству изучаемых в исследовании характеристик приближается к средним показателям.

Репрезентативность выборки измеряется разностью между характеристиками выборочной и генеральной совокупностей. (Чем более выборка и генеральная совокупность являются статистически однородны, тем более выборка репрезентативна.) Однако фактическая величина указанной разности остаётся неизвестной, вследствие чего мерой репрезентативности служит определяемая по правилам математической статистики её вероятная величина или же средняя квадратическая её возможных значений.

При разработке, оценке и стандартизации методики суждение о степени репрезентативностивыносится на основе оценки минимального объема выборк и и соответствия эмпирического распределения нормальному .

Требуемый объем выборки для обеспечения её количественной репрезентативности часто определяется как минимальный объем выборки, необходимый для того, чтобы выборочное среднее значение () отличалось от истинного среднего значения генеральной совокупности не более, чем на заданную величину. В этом случае минимальный объем выборки может оцениваться посредством определения доверительного интервала для среднего значения по показателям методики:

где n – минимальный объем выборки, ua – значения для стандартных доверительных вероятностей, - выборочное стандартное отклонение, d – заданная величина отклонения выборочного среднего значения от генерального среднего.

Например, по методике изучения общительности-замкнутости мы провели пилотажное обследование 50 испытуемых. С помощью «ключа» производим обработку результатов и получаем тестовые показатели по каждому испытуемому. Далее на этой выборке (N=50) проводим расчет:

а) среднего значения: , (3)

где - тестовый показатель каждого испытуемого, N – количество испытуемых;

б) стандартного (среднеквадратического) отклонения: (4).

По результатам выборочного исследования среднее значение составляет 11,25 и стандартное отклонение – 3,47. Задаемся, например, доверительной вероятностью 95% (ua= 1,96 в табл. 1) и отклонением выборочного среднего значения от истинного значения среднего результата не более чем на d = 0,5 и по формуле (1) находим

Таким образом, при объеме выборки n = 154 существует 95%-ная вероятность того, что выборочное среднее арифметическое будет отличаться от генерального среднего не более чем на 0,5 баллов.

Таблица 1

Значения ua для стандартных доверительных вероятностей

a	1 - a	u a
0,05	0,95	1,96
0,01	0,99	2,58
0,001	0,999	3,28

В этом случае нам надо провести дополнительное обследование 104 испытуемых и, тем самым, довести объем выборки до 154. Величина минимального объема выборки зависит от заданного уровня доверительной вероятности, величины d и выборочного стандартного отклонения. Чем больше будет доверительная вероятность, меньше величина d или больше стандартное отклонение, тем потребуется большая по численности минимальная выборка.

Нормальное распределение наиболее часто применяют для статистического описания совокупности эмпирических данных, оценки репрезентативности выборки и шкалы (методики), для стандартизации тестовых баллов (на основе перевода в интервальную шкалу). На свойствах нормального распределения основаны статистические критерии проверки гипотез (z-критерий, критерий , F-критерий Фишера, t-критерий Стъюдента и др.).

Нормальность распределения оценивается с помощью критерия Колмогорова – Смирнова, который считается наиболее состоятельным для определения степени соответствия эмпирического распределения нормальному. Если p >0,1, то делается вывод о приблизительном соответствии данного эмпирического распределения нормальному. В качестве примера можно привести показатели оценки нормальности распределения по шкалам многомерного профессионально-психологического личностного теста.

Сравнение эмпирического распределения с теоретическим нормальным распределением можно также осуществлять посредством оценки таких свойств как асимметрия () и эксцесс (). Асимметрия и эксцесс нормального распределения равны нулю. Если хотя бы один из этих двух показателей проверяемого эмпирического распределения существенно отклоняется от данного значения, это означает аномальность оцениваемого распределения.

Асимметрия эмпирического распределения определяется по формуле:

, (5)

где - среднее арифметическое значение, - стандартное отклонение,

Среднее кубическое (), (6)

С – среднее квадратическое () (7).

Если эмпирическое распределение не соответствует нормальному, то выборка не репрезентативна по качеству и/или количеству. Однако это может свидетельствовать и о том, что данная методика не дает нормального распределения результатов, так как плохо составлен стимульный материал (например, многие тестовые задания не обладают средней диагностической силой).

Понятие стандартности

Стандартность – унификация, приведение к единым нормативам разных частей ПДМ и процедуры ее применения.

Психодиагностические методики с самого начала их разработки задумываются как универсальные, неспецифические, т.е. такие, которые могут использоваться разными специалистами в различных ситуациях. Поэтому ПДМ должна иметь единообразную процедуру проведения, стандартный стимульный материал (утверждения, рисунки и т.д.), стандартный метод обработки и способ интерпретации результатов. Именно это позволяет сравнить выводы, т.е. оценить проявление одного и того же психического параметра в разных ситуациях и у разных людей и, в зависимости от силы проявления диагностируемого параметра, выработать адекватные рекомендации. Стандартность ПДМ и условий ее применения дает возможность сравнивать результаты, полученные разными специалистами при диагностике различных людей. При любом отклонении ПДМ от стандарта, ее результаты невозможно сравнивать с результатами, полученными с помощью оригинала данной методики, использованной на других людях или в другой ситуации.

Однако отсутствие или нарушение стандартности ПДМ не означает, что данной методикой вообще невозможно пользоваться. Нестандартизированную методику можно использовать в научно-исследовательских целях – изучать новые психические явления, выявлять новые факты и накапливать научные результаты, устанавливать причинно-следственные связи и закономерности. Однако такой методикой нельзя пользоваться в психодиагностических целях.

Конечной целью изучения выборочной совокупности всегда является получение информации о генеральной совокупности. Для этого выборочное исследование должно удовлетворять определенным условиям. Одно из главных условий - репрезентативность (представительность) выборки . Как обсуждалось ранее, выделяют качественную и количественную репрезентативность.

Случайность, гарантирующая качественную (структурную) репрезентативность статистических исследований, достигается выполнением ряда условий формирования выборочных групп (совокупностей):

1. Каждый член генеральной совокупности должен иметь равную вероятность попасть в выборку.

2. Отбор единиц наблюдения из генеральной совокупности необходимо проводить независимо от изучаемого признака. Если отбор проводится целенаправленно, то и при этом необходимо соблюдать условия независимости распределения изучаемого признака.

3. Отбор должен проводиться из однородных групп.

Соблюдение условий, гарантирующих максимальную близость выборочной и генеральной совокупностей, обеспечивается специальными способами отбора. В зависимости от способа формирования различают следующие выборки:

1. Выборки, не требующие разделения генеральной совокупности на части (собственно, случайная повторная или бесповторная выборка).

2. Выборки, требующие разбиения генеральной совокупности на части (механическая, типическая или типологическая выборки, когортная, парно-сопряженная выборки).

Собственно, случайная выборка формируется случайным отбором - наудачу. В основе случайного отбора лежит перемешивание. Например: выбор шара в спортлото после перемешивания всех шаров, выбор выигрышных номеров лотереи, случайный выбор карточек больных для исследования и т.п. Иногда используют случайные числа, получаемые из таблиц случайных чисел или с помощью генераторов случайных чисел. Согласно этим числам из заранее пронумерованного массива генеральной совокупности выбираются единицы наблюдения с номерами, соответствующими выпавшим случайным числам.

При составлении случайной выборки после того, как объект выбран, и все необходимые данные о нем зарегистрированы, можно поступать двояко: объект можно вернуть, или не вернуть в генеральную совокупность. В соответствии с этим выборку называют повторной (объект возвращается в генеральную совокупность) или бесповторной (объект не возвращается в генеральную совокупность). Поскольку в большинстве статистических исследований разница между повторной и бесповторной выборками практически отсутствует, то априорно принимается условие, что выборка повторная.

Оценка необходимой численности выборки

Для того, чтобы выборочная совокупность была количественно репрезентативной по отношению к генеральной, необходимо первоначально оценить количество данных, которое требуется включить в выборочную совокупность.

При неизвестной величине генеральной совокупности величину повторной выборки, гарантирующую репрезентативные результаты, если результат отражается показателем в виде относительной величины (доли) , определяют по формуле:

где р – величина показателя изучаемого признака, в %; q = (100- p ) ;

t – доверительный коэффициент, показывающий, какова вероятность того, что размеры показателя не будут выходить за границы предельной ошибки (обычно берется t = 2, что обеспечивает 95% вероятность безошибочного прогноза);

 - предельная ошибка показателя.

Например: одним из показателей, характеризующих здоровье рабочих промышленных предприятий, является процент не болевших в течение года работников. Предположим, что для промышленной отрасли, к которой относится обследуемое предприятие, этот показатель равен 25%. Предельная ошибка, которую можно допустить, чтобы разброс значений показателя не превышал разумные границы, 5%. При этом показатель может принимать значения 25% ±5%, т.е. от 20% до 30%. Допуская t = 2, получаем

В том случае, если показатель - средняя величина , то число наблюдений можно установить по формуле:

где σ - среднее квадратическое отклонение, которое можно получить из предыдущих исследований, либо на основании пробных (пилотажных) исследований.

При бесповторном отборе и при условии известной генеральной совокупности для определения необходимого размера случайной выборки в случае использования относительных величин (доли) применяется формула:

для средних величин используется формула:

где N - численность генеральной совокупности.

Исходя из условий приведенного выше примера и принимая численность генеральной совокупности N =500 рабочих, получаем:

Нетрудно заметить, что необходимая численность выборки при бесповторном отборе меньше, чем при повторном (соответственнo, 188 и 300 рабочих).

В целом, число наблюдений, необходимое для получения репрезентативных данных, изменяется обратно пропорционально квадрату допустимой ошибки.

Механическая выборка - выборка, когда из обследуемой совокупности единицы наблюдения отбираются механически. Например: отбор каждого пятого или каждого десятого рабочего по карточкам отдела кадров предприятия или по амбулаторным картам поликлиники МСЧ.

Типическая, типологическая или районированная выборка предполагает разбивку генеральной совокупности на ряд качественно однородных групп. Например: при изучении заболеваемости студентов вуза для углубленного обследования на каждом курсе выбираются типичные по своему составу студенческие группы. Часто этот способ отбора комбинируется с другими способами. Например: территория города делится в зависимости от степени загрязнения на типичные районы, в этих районах путем случайного отбора формируются группы наблюдения.

Когортный отбор относится к целенаправленным отборам. При этом способе из генеральной совокупности отбираются лица (распределение на подгруппы при этом является неслучайным), объединенные моментом появления какого-либо признака или изучаемого воздействия, играющего существенную роль в исследовании (год рождения, начало болезни, прием препарата и т.п.).

Исследование по типу случай-контроль (СК) – тип эпидемиологического исследования, в котором распределение фактора риска сравнивается в группе пациентов с заболеванием и контрольной группе. Исследование (СК) относится к ретроспективным, поскольку исследователь, разделив пациентов на группы, по тому, есть или нет у них заболевание, выясняет у них информацию из прошлого.

Следует отдельно остановиться на использовании выборочного метода в санитарной статистике при изучении общей заболеваемости населения. Теоретические предпосылки выборочного метода были проверены в ходе специальных исследований. Так, В.С. Быховский и соавт. в 1928 году сделали параллельную обработку 132,8 тыс. карт с данными о заболеваниях сплошным методом и методом механического отбора каждой пятой карты. Анализ результатов этой обработки показал высокую репрезентативность данных выборочного исследования заболеваемости. Однако, вплоть до сегодняшнего дня, отсутствуют единые методические подходы проведения в широкой практике выборочных санитарно-статистических исследований.

Один из главных компонентов тщательно продуманного исследования – определение выборки и что такое репрезентативная выборка. Это как в примере с тортом. Ведь не обязательно съедать весь десерт, чтобы понять его вкус? Достаточно небольшой части.

Так вот, торт – это генеральная совокупность (то есть все респонденты, которые подходят для опроса). Она может быть выражена территориально, например, лишь жители Московской области. Гендерно – только женщины. Или иметь ограничения по возрасту – россияне старше 65 лет.

Высчитать генеральную совокупность сложно: нужно иметь данные переписи населения или предварительных оценочных опросов. Поэтому обычно генеральную совокупность «прикидывают», а из полученного числа высчитывают выборочную совокупность или выборку .

Что такое репрезентативная выборка?

Выборка – это чётко определенное количество респондентов. Её структура должна максимально совпадать со структурой генеральной совокупности по основным характеристикам отбора.

Например, если потенциальные респонденты – всё население России, где 54% — это женщины, а 46% — мужчины, то выборка должна содержать точно такое же процентное соотношение. Если совпадение параметров происходит, то выборку можно назвать репрезентативной. Это значит, что неточности и ошибки в исследовании сводятся к минимуму.

Объем выборки определяется с учётом требований точности и экономичности. Эти требования обратно пропорциональны друг другу: чем больше объем выборки, тем точнее результат. При этом чем выше точность, тем соответственно больше затрат необходимо на проведение исследования. И наоборот, чем меньше выборка, тем меньше на неё затрат, тем менее точно и более случайно воспроизводятся свойства генеральной совокупности.

Поэтому для вычисления объема выбора социологами была изобретена формула и создан специальный калькулятор :

Доверительная вероятность и доверительная погрешность

Что означают термины «доверительная вероятность » и «доверительная погрешность »? Доверительная вероятность – это показатель точности измерений. А доверительная погрешность – это возможная ошибка результатов исследования. К примеру, при генеральной совокупности более 500 00 человек (допустим, проживающие в Новокузнецке) выборка будет равняться 384 человека при доверительной вероятности 95% и погрешности 5% ИЛИ (при доверительном интервале 95±5%).

Что из этого следует? При проведении 100 исследований с такой выборкой (384 человека) в 95 процентов случаев получаемые ответы по законам статистики будут находиться в пределах ±5% от исходного. И мы получим репрезентативную выборку с минимальной вероятностью статистической ошибки.

После того, как подсчет объема выборки выполнен, можно посмотреть есть ли достаточное число респондентов в демо-версии Панели Анкетолога . А как провести панельный опрос можно подробнее узнать .