Выборка не будет считаться репрезентативной если. Выборка контактных лиц. Необходимый объем выборки

Репрезентативность выборки

Наименование параметра Значение
Тема статьи: Репрезентативность выборки
Рубрика (тематическая категория) Психология

Требования к выборке

К выборке применяется ряд обязательных требований, опре­делœенных, прежде всœего, целями и задачами исследования. Плани­рование эксперимента должно включать в себя учет, как объёма выборки, так и ряда ее особенностей. Так, в психологических ис­следованиях важно требование однородности выборки. Оно озна­чает, что психолог, изучая, к примеру, подростков, не может, включать в эту же выборку взрослых людей. Напротив, исследо­вание, выполненное методом возрастных срезов, принципиаль­но предполагает наличие разновозрастных испытуемых. При этом и в данном случае должна соблюдаться однородность выборки, но уже по другим критериям, в первую очередь таким, как возраст, пол. Основаниями для формирования однородной выборки могут служить разные характеристики, такие, как уровень интеллекта͵ национальность, отсутствие определœенных заболеваний и т.д., исходя из целœей исследования.

В общей статистике имеется понятие повторной и безповторной выборки, или, иначе говоря, выборки с возвратом и без возврата. В качестве примера приводится, как правило, выбор шара, доставаемого из какой-либо емкости. В случае выборки с возвратом каждый выбранный шар опять возвращается в емкость и, следовательно, должна быть выбран снова. При бесповторном выборе однажды выбранный шар откладывается в сторону и больше не может участвовать в выборке. В психологических исследованиях можно найти аналоги подобного рода способам организации выборочного исследования, поскольку психологу нередко приходится несколько раз тестировать одних и тех же испытуемых при помощи одной и той же методики. При этом, строго говоря, повторной в данном случае является процедура тес­тирования. Выборка испытуемых при полной тождественности состава в случае повторных исследований всœегда будет иметь не­которые отличия, обусловленные функциональной и возрастной изменчивостью, присущей всœем людям. Подобная выборка по ха­рактеру проведения процедуры является повторной, хотя смысл термина здесь, очевидно, иной, чем в случае с шарами.

Важно подчеркнуть, что всœе требования, предъявляемые к любой выборке, сводятся к тому, что на ее базе психологом должна быть получена наиболее полная, неискаженная инфор­мация об особенностях генеральной совокупности, из которой взята эта выборка. Иными словами, выборка должна как можно более полно отражать характеристики изучаемой генеральной со­вокупности.

Состав экспериментальной выборки должен представлять (моделировать) генеральную совокупность, поскольку выводы, полученные в эксперименте, предполагается в дальнейшем пе­ренести на всю генеральную совокупность. По этой причине выборка должна обладать особым качеством - репрезентативностью, позволяющим распространить полученные на ней выводы на всю генеральную совокупность.

Репрезентативность выборки очень важна, тем не менее, по объективным причинам соблюдать её крайне сложно. Так, хоро­шо известен факт, что от 70% до 90% всœех психологических ис­следований поведения человека проводились в США в 60-х годах XX века с испытуемыми-студентами колледжей, причем боль­шинство из них были студентами психологами. В лабораторных исследованиях, выполняемых на животных, наиболее распрост­раненным объектом изучения являются крысы. По этой причине неслу­чайно психологию называли раньше ʼʼнаукой о студентах-второ­курсниках и белых крысахʼʼ. Студенты психологических коллед­жей составляют всœего 3% от общей численности населœения США. Очевидно, что выборка студентов нерепрезентативна в качестве модели, претендующей на представительство всœего населœения страны.

Репрезентативная выборка, или, как еще говорят, предста­вительная выборка, - это такая выборка, в которой всœе основ­ные признаки генеральной совокупности представлены прибли­зительно в той же пропорции и с той же частотой, с которой данный признак выступает в данной генеральной совокупности. Иными словами, репрезентативная выборка представляет собой меньшую по размеру, но точную модель той генеральной сово­купности, которую она должна отражать. В той степени, в какой выборка является репрезентативной, выводы, основанные на изучении этой выборки, можно с большой долей уверенности считать применимыми ко всœей генеральной совокупности. Это распространение результатов принято называть генерализуемостью.

В идеале репрезентативная выборка должна быть такой, чтобы каждая из базовых изучаемых психологом характерис­тик, черт, особенностей личности и т.п. была бы представлена в ней пропорционально этим же особенностям в генеральной совокупности. Согласно этим требованиям процедура форми­рования выборки должна иметь внутреннюю логику, способ­ную убедить исследователя, что при сравнении с генеральной совокупностью она действительно окажется репрезентатив­ной, представительной.

В своей конкретной деятельности психолог действует следую­щим образом: устанавливает подгруппу (выборку) внутри гене­ральной совокупности, подробно изучает эту выборку (проводит с ней экспериментальную работу), а затем, в случае если это позволяют результаты статистического анализа, распространяет полученные выводы на всю генеральную совокупность. Это и есть основные этапы работы психолога с выборкой.

Начинающий психолог должен иметь в виду часто повторяю­щуюся ошибку: каждый раз, когда он осуществляет сбор любых данных любым методом и из любого источника, у него всœегда появляется соблазн распространить свои выводы на всю гене­ральную совокупность. Для того чтобы избежать подобной ошиб­ки, нужно не просто обладать здравым смыслом, но, прежде всœе­го, хорошо владеть основными понятиями математической ста­тистики.

Репрезентативность выборки - понятие и виды. Классификация и особенности категории "Репрезентативность выборки" 2017, 2018.

В формировании выборочной совокупности важную роль играет определение ее объема и обеспечение репрезентативности.

«Если тип выборки говорит о том, как попадают люди в выборочную совокупность, то объём выборки сообщает о том, какое их количество попало сюда». То есть объем выборки - это количество единиц попавших в выборочную совокупность. И очень важно, чтобы выборка была репрезентативной, то есть не искажала представлений о генеральной совокупности в целом. «Требования репрезентативности выборки означают, что по выделенным параметрам (критериям) состав обследуемых должен приближаться к соответствующим пропорциям в генеральной совокупности».

Одна из ключевых проблем, встающих, как правило, перед социологом, решающим: доверять полученным в ходе него данным или нет, это то, сколько же человек должно быть опрошено для того, чтобы получить действительно репрезентативную информацию. К сожалению, единой и четкой формулы, используя которую можно было бы рассчитать оптимальный объем выборочной совокупности, не существует в природе. И объясняется это весьма просто. Дело в том, что определение объема выборочной совокупности - это проблема не столько статистическая, сколько содержательная.

Иными словами, объем выборочной совокупности зависит от множества факторов, основные из них следующие:

  • 1. затраты на сбор информации, включая временные;
  • 2. стремление к определённой статистической достоверности результатов, которую надеется получить исследователь;
  • 3. ценность и новизна информации, получаемой в результате опроса.

Объем выборки обусловлен степенью однородности или неоднородности, генеральной совокупности, количеством характеризующих ее признаков. Однородной считается совокупность, в которой контролируемый признак, например уровень грамотности, распределён равномерно, то есть не образует пустот и сгущений, тогда опросив лишь несколько человек, можно сделать вывод о том, что большинство людей грамотны. Чем более однородна генеральная совокупность, тем меньше объем выборки. Например, «допустим, мы осуществляем отбор из генеральной совокупности в 2000 человек, контролируя состав выборочной совокупности по признаку «пол»»: 70% мужчин и 30% женщин. Согласно теории вероятности, можно предположить, что примерно среди каждых десяти отбираемых респондентов встретятся три женщины. Если мы хотим опросить по крайней мерее 90 женщин, то исходя из вышеупомянутого соотношения, нам необходимо отобрать не менее 300 человек. А теперь предположим, что в генеральной совокупности 90% мужчин и 10% женщин. В этом случае, чтобы в выборочную совокупность попало 90 женщин, необходимо отобрать уже не менее 900 человек». Из примера видно, что объем выборки зависит от разброса признака (дисперсии), и его нужно вычислять по признаку, дисперсия значений которого наибольшая.

«Степень однородности социального объекта зависит, в сущности, от того, насколько детально мы намерены его исследовать. Практически любой, самый «элементарный» объект оказывается чрезвычайно сложным. Лишь в анализе мы представляем его как относительно простой, выделяя те или иные его свойства. Чем более основательным и детальным будет анализ, чем больше свойств данного объекта мы намерены принять во внимание в их сочетании, а не изолированно, тем больше должен быть объем выборки».

В репрезентативной выборке все элементы генеральной совокупности представлены в той же пропорции. Но как бы тщательно не соблюдать этот принцип, случайные ошибки все же будут. Мы имеем возможность определять ошибку репрезентативности. Ошибкой репрезентативности, как правило, называют «расхождение между двумя совокупностями - генеральной, на которую направлен теоретический интерес социолога и представление о свойствах которой он хочет получить в конечном итоге, и выборочной, на которую направлен практический интерес социолога, которая выступает одновременно как объект обследования и средство получить информацию о генеральной совокупности». Важно учитывать, что при помощи выборочного метода никогда нельзя получить абсолютно точную оценку наблюдаемого признака, всегда существует вероятность ошибки, но, если вероятность ошибки мала, то она скорее всего не произойдет. В отечественной литературе наряду с термином «ошибка репрезентативности» встречается и другой - «ошибка выборки». Обычно они используются как синонимы, но понятие «ошибка выборки» количественно более точное, чем «ошибка репрезентативности». Ошибка выборки - это «отклонение средних характеристик выборочной совокупности от средних характеристик генеральной совокупности. На практике она определяется путём сравнения известных характеристик генеральной совокупности с выборочными средними».

Репрезентативность выборки определяется двумя компонентами: систематическими и случайными ошибками. Случайные ошибки связаны «со статистическими погрешностями (зависят от динамики исследуемых признаков) и непредвиденными нарушениями процедуры сбора информации (процедурные ошибки, допущенные при регистрации признаков)». Случайные ошибки уменьшаются с увеличением объема выборочной совокупности. Случайную ошибку можно измерить методами математической статистики, если при формировании выборочной совокупности соблюдался принцип случайности, обеспечивающийся строго определенными правилами, которые составляют метод формирования выборочной совокупности, и устранить.

На практике принцип случайности соблюсти очень сложно, а иногда просто невозможно, что приводит к появлению систематической ошибки, которые возникают «из-за неполной объективности выборки генеральной совокупности (недостаток информации о генеральной совокупности, отбор наиболее «удобных» для исследования элементов генеральной совокупности), а так же из-за несоответствия выборки целям и задачам исследования». Иногда такие ошибки называют ошибками смещения. Они возникают при различных телевизионных опросах, когда телеведущий предлагает телезрителям позвонить по определённым номерам телефонов, послать смс-сообщение и высказать своё мнение по какой-то проблеме. Естественно мы не можем утверждать что эти люди отражают мнение всего населения страны, и даже телеаудитории. Вероятнее всего в таких опросах участвуют более образованные и активные люди, чем вся генеральная совокупность, поэтому любой телевизионный опрос содержит в себе систематическое искажение и носит поверхностный характер.

Но систематические ошибки возникают и в ходе корректно организованного опроса. Например, на улице на вопросы интервьюера отвечают только те, кто никуда не спешит. Искажения можно избежать, если соблюдать принципы случайного отбора и опрашивать, к примеру, каждого десятого прохожего.

Причины возникновения систематических ошибок:

  • 1. «в ходе исследования была не правильно составлена основа выборки (использовались устаревшие, неполные данные либо отсутствовала статистика по некоторым важным для формирования выборки признакам),
  • 2. неудачно выбран способ отбора единиц наблюдения,
  • 3. часть респондентов по разным причинам «выпала» из опроса (отсутствовала, отказалась отвечать) и так далее».

При помощи математических средств такие ошибки устранить невозможно, поэтому необходимо осуществить логический анализ причин появления систематических ошибок и разработать меры, которые смогли бы их устранить. «Величину ошибок смещения определить при помощи математических формул практически не возможно, поэтому они автоматически переходят на результаты и выводы исследования. Ошибки смещения бывают обычно следствием:

  • - неверных исходных статистических данных о параметрах контрольных признаков генеральной совокупности;
  • - слишком малого (статистически не значимого) объёма выборочной совокупности;
  • - неверного применения способа отбора единиц анализа (например, отбор из неверно составленного списка, неудачный выбор места и времени проведения опроса)» .

Существуют определённые пределы ошибки выборки, которые зависят от цели исследования. В экономических и демографических прогнозах, например при переписи населения, требуется повышенная надёжность и точность. Для таких прогнозов существенные ошибки оборачиваются миллионными потерями материальных ресурсов и просчетами в прогнозах и планировании. Но чаще поводятся социологические исследования для уяснения общих тенденций, общей ориентировки в социальной сфере не требующие стопроцентной надёжности. Существует приблизительная оценка на надёжность результатов исследования: «повышенная надёжность допускает ошибку выборки до 3%. Обыкновенная - до 3-10%, приближенная - то 10 до 20%, ориентировочная - от 20 до 40%, а прикидочная - более 40%».

Таким образом, существует несколько способов, чтобы избежать ошибки:

  • § каждый элемент генеральной совокупности должен иметь одинаковую вероятность попасть в выборочную совокупность;
  • § генеральная совокупность должна быть желательно однородной;
  • § необходимо иметь сведения о структуре генеральной совокупности и её характерные черты;
  • § при составлении выборочной совокупности заранее учесть случайные и систематические ошибки.

Например, если опросив 380 человек в поселении, где общая численность платёжеспособного населения 10 тысяч человек, мы выявили что 36% опрошенных покупателей, предпочитают отечественную продукцию, то с 95-процентной степенью вероятности мы можем утверждать, что отечественную продукцию постоянно покупают 46±5% (то есть от 41 до 51%) жителей этого поселения.

Многие обстоятельства усложняют проблему расчёта выборки и нередко могут привести к тому, что формально-статистически репрезентативная выборка окажется качественно непредставительной».

Качество выборки оценивают по двум показателям: репрезентативность и надежность. О репрезентативности уже говорилось выше. А чтобы создать надежную выборку необходимо правильно построить ее основу. Для этого соблюдаются следующие требования:

  • 1. Полнота выборки, которая требует наличия всех элементов генеральной совокупности в основе выборки. Если в выборку не включены многие единицы наблюдения, тем более, несущие в себе существенные особенности и характеристики объекта, то результаты исследования будут неполными и однобокими.
  • 2. Отсутствие дублирования, которое подразумевает недопустимость повторного включения в выборку одной и той же единицы наблюдения (например, ученик перешел учиться в другую школу, его включили в новый список, не вычеркнув при этом из старого, таким образом, он дважды попал в выборку).
  • 3. Точность информации выборки, предполагающая исключение несуществующих единиц наблюдения из основы выборки. Например, в избирательных списках, которые готовятся для очередных выборов депутатов различного уровня, нередко остаются умершие люди или жильцы снесенных домов.
  • 4. Адекватность, которая означает, что основа составленной выборки должна соотноситься с решением поставленных в исследовании задач. Например, полный список всех учащихся школы -- хорошая основа для того, чтобы сформировать выборку при изучении проблемы общей успеваемости. Но если нас интересует отношение старшеклассников к основным учебным дисциплинам, то этот список может быть использован только для формирования новой основы выборки -- списка старшеклассников.
  • 5. Удобство работы с основой выборки, при котором необходимо четко пронумеровать все элементы, которые в нее входят, а составленные списки централизованно хранить.

«Существует два основных подхода к обоснованию репрезентативности выборки:

  • 1. При статистическом подходе репрезентативность обеспечивается специальными вероятностными методами извлечения выборки. Для обобщения результатов исследования на генеральную совокупность применяются строгие индуктивные процедуры статистического вывода, оценивается ошибка выборки с заданной вероятностью.
  • 2. Внестатистическое обоснование репрезентативности предполагает теоретическое доказательство того, что выборка достаточно хорошо представляет генеральную совокупность. При использовании этого подхода статистическое оценивание ошибок выборки не производится».

На первый взгляд, кажется, что обеспечить репрезентативность выборки на практике просто невозможно, но на самом деле всё зависит от программных целей и задач исследования.

Если мы проводим обследование большой общественной значимости, по завершению которого нужно будет сделать выводы обо всей генеральной совокупности, то необходимо чётко следовать всем требования репрезентативной выборочной процедуры, так как ошибки в таких исследованиях недопустимы.

Если перед нами стоят более скромные задачи и уровень надежности выводов можно смело понизить, то необходимо следовать всем требованиям по качественному представительству выборочной совокупности. Если мы решим подчёркивать статистическую надёжность данных, то введём в заблуждение тех людей, кто привык верить математическим расчётам. Нельзя забывать, что та информация, которую мы получаем путём опросов и других способов, лишь условно переводится в количественные показатели. И не редкость когда количественные показатели только приблизительно отражают существо социальных процессов. «Поэтому усилия, направленные на строгость статистического обоснования результатов, приобретают смысл только при условии серьёзного качественного анализа проблемы, содержательного её изучения».

Необходимо помнить, что социолог должен сосредотачивать своё внимание именно на существе социальных проблем, привлекать к работе других специалистов, практиков и теоретиков, внимательно изучать литературу в области экономики, психологии, социологии о предмете исследования. И для решения статистических задач, по поводу типа и объема выборки, он сначала должен чётко сформулировать конкретные вопросы, которые необходимо решить, а уже потом обращаться к соответствующим расчётам различных статистик.

4.1 Что говорится в стандарте

Раздел 8 стандарта ИСО 9001: 2000 охватывает «измерение, анализ и улучшение». Хотя формирование выборки не регулируется данным стандартом, тем не менее, в пункте 8.1, являющемся общим введением ко всему разделу, посвященному измерениям, сказано, что деятельность, связанная с измерением, анализом и улучшением (должна включать определение применимых методов, в том числе статистические методы и степень их применения). Точное измерение удовлетворенности потребителя может быть осуществлено только тогда, когда оно основано на хорошей выборке потребителей. В данной главе дан обзор методов форми­рования выборки, используемых для достижения этой цели.

4.2 Теория выборки

Принцип формирования выборки прост. Большинство организаций имеют большое число потребителей, но для того чтобы получить точные результаты ИУП, нет необходимости проводить исследования со всеми, достаточно сделать это для небольшой выборки, при условии, что эта выборка представляет большую группу людей. Существует несколько различных типов выборки, которые приведены на рисунке 4.1.

Рис. 4.1 Возможные выборки

4.2.1 Вероятностная и невероятностная выборки

Фундаментальное различие между выборками состоит в их принадлежности к вероятностным или невероятностным выборкам. Вероятностную выборку еще часто называют случайной выборкой, и только в отношении случайных, или вероятностных, выборок можно быть уверенными, что они лишены тенденциозности. В соответствии с определением все члены генеральной совокупности случайной выборки имеют равные шансы быть в ней представленными, и самый очевидный пример случайной выборки - это обычная лотерея. Все шары или числа, остающиеся в розыгрыше, сохраняют равные шансы быть выбранными в следующий раз. Ясно, что никакая тенденция не влияет на выбор чисел в лотерее.

4.2.2 Невероятностные выборки

4.2.2.1 Нерепрезентативные выборки

Простейшей формой выборки является нерепрезентативная выборка. Представьте, что вы проводите опрос общественного мнения. Вы можете пойти на улицу и опросить первых встретившихся вам 50 человек, насколько они удовлетворены действиями правительства. Это будет быстро, просто и дешево, но это будет не слишком репрезентативно. Это может звучать тривиально, но для явно более сложных случаев, как мы увидим дальше, очень легко скатиться к нерепрезентативной выборке.

4.2.2.2 Преднамеренные выборки

Еще одной формой невероятностной выборки является преднамеренная выборка. Это та самая форма, которую мы предлагали для поискового исследования, и, хотя преднамеренная выборка хороша для качественного исследования, не имеющего целью достижение хорошей статистики, она не подходит для проведения основного, так же как любого другого исследования, ставящего своей целью получение статистически надежного результата.

4.2.2.3 Выборка на основании квот

Третий тип невероятностной выборки - это выборка на основании квот, и она часто используется для исследования больших генеральных совокупностей. Представьте себе, что муниципальный совет желает измерить степень удовлетворенности населения теми услугами и службами, которые этот совет им предоставляет. Предположим, что решено взять интервью на улице у членов выборки на основании квот, состоящей из 500 человек, проживающих в городе. Можно назначить пять интервьюеров, дав задание каждому взять интервью у 100 человек на главной торговой площади. Однако интервьюерам не разрешается пользоваться иереарезентативной выборкой, т.е. брать интервью у первых встретившихся им 100 человек. При выборке на основании квот необходимо, чтобы каждый интервьюер соблюдал множество тщательно определенных норм, чтобы выборка была репрезентативной для местного населения. Нормы могут быть основаны на статистических данных, имеющихся в распоряжении муниципального совета и показывающих, на какие группы делится население. Так, например, эти данные могут свидетельствовать, что 15 % составляет население в возрасте от 21 до 30 лет, 18 % - от 31 до 40 лет и т. п. Разделение может быть и по другим признакам, например, по полу, уровню доходов, этническому про­исхождению. Если муниципальный совет хочет, чтобы выборка была репрезентативной, в ней должны быть представлены все эти группы в той же пропорции, в какой они представлены во всем населении. Для достижения этого интервьюеры должны определить группы и квоты для них. В приведенном примере 15 из каждых 100 интервьюируемых человек должны быть в возрасте от 21 до 30 лет, 18 должны иметь возраст от 31 до 40 лет, и это должно сочетаться с квотами для других групп, введенных по полу, доходу и т. п.

Предположим, что интервьюеры работали всю неделю, с понедельника по пятницу, с 9-ти утра и до 5-ти вечера каждый день брали интервью в торговом пассаже, так что к концу недели каждый из них взял 100 интервью при соблюдении всех норм. На выходе получится выборка, размером 500, которая будет полностью представлять население города, но она будет отобрана не случайно, поэтому она не будет свободна от тенденции. В соответствии с определением случайной выборки, все жители города должны иметь равные шансы быть представленными в выборке. В приведенном примере только те люди имели такой шанс, которые в эти дни недели посещали торговый пассаж с 9-ти утра до 5-ти вечера. Таким образом, выборка неизбежно будет иметь тенденцию, возможно, в сторону пожилых людей, безработных, а также людей, работающих неподалеку. На самом деле, конечно, исследовате­ли стремятся минимизировать тенденции, присущие выборке на основании квот, беря интервью в различных местах и в различное время, но они никогда не смогут полностью от нее избавиться, поскольку в выборке могут быть представлены только те люди, которые в данное время оказались в данном месте, поэтому теоретически такая выборка никогда не будет случайной, полностью свободной от тенденции.

Это не означает, что выборка на основании квот никогда не должна использоваться. Если вы не знаете людей, являющихся вашими потребителями, вы не можете осуществить случайную выборку, поскольку нет возможности составить список всей генеральной совокупности, из которой ее нужно делать. Например, многие розничные торговцы не знают, кто является их потребителями. В таких ситуациях организации прибегают к выборке на основании квот.

4.2.3 Вероятностные выборки

Если у вас имеется база данных ваших потребителей, то вы можете и должны сделать случайную выборку, и первый шаг состо­ит в определении ее основы. Основа - это список потребителей, из которого вы собираетесь делать выборку, и определение этого списка является стратегическим решением. Обычно организации измеряют удовлетворенность потребителей один раз в год, и основу выборки составляют те потребители, которые имели дело с организацией за последние двенадцать месяцев. Однако не для всех это может оказаться приемлемым. Например, не слишком эффективно при изучении удовлетворенности потребителя справочной системой какой-либо информационной технологии зада­вать вопросы об опыте использования этой системы за последние 11 месяцев. В таком случае лучше использовать более короткие временные рамки, например, учитывать всех потребителей, пользовавшихся справочной системой за последний месяц. Для этого может потребоваться постоянный контроль, при котором опрос потребителей проводится каждый месяц, а его результаты накапливаются для составления периодического отчета, например, ежеквартального или даже ежегодного, если количество потребителей в течение квартала невелико.

Таким образом, вы видите, что исследуемые "потребители" могут быть различными для различных организаций, и их определение является стратегическим решением, и вы должны четко их определить, ибо это будут те потребители, которые будут составлять основу исследования, т. е. генеральную совокупность выборки.

4.2.3.1 Простая случайная выборка

Вероятностная, или случайная, выборка лишена тенденции, поскольку все члены генеральной совокупности будут иметь равные шансы войти в выборку. Как было сказано ранее, лотерея дает хороший пример простой случайной выборки - каждый раз при выборе нового числа, оно отбирается случайно из всех оставшихся в «генеральной совокупности». Однако это довольно долгий процесс, если вам требуется большая выборка из большой генеральной совокупности, поэтому во времена, предшествовавшие применению компьютеров для получения сложных выборок, исследователи рынка изобрели менее трудоемкий способ получения простой случайной выборки, известной под названием «систематической случайной выборки».

4.2.3.2 Систематическая случайная выборка

Для получения систематической случайной выборки для проведения ИУП вы, прежде всего, распечатываете список ваших потребителей. Пусть там будет, скажем, 1000 потребителей, и вы хотите отобрать 100, что будет составлять 1 на 10 человек из генеральной совокупности. Сначала нужно с помощью генератора случайных чисел получить число от 1 до 10. Если получится 7, то вы включаете в свой список 7-е имя из списка, 17-е, 27-е и т.д., что в результате даст систематическую случайную выборку в 100 потребителей. До получения случайного числа все потребители имеют равные шансы быть включенными в список. Таким образом, это будет случайная выборка, но она может оказаться не репрезентативной, особенно на деловом рынке. В этом случае хорошо использовать стратифицированную случайную выборку.

Рис. 4.2 Пример стратифицированной случайной выборки

4.3 Выборка потребителей

Мы покажем на примере, как можно было бы осуществить выборку для типичного случая рынка business- to - business . Первый шаг для этого делового рынка состоит в формировании базы данных потребителей и сортировке ее по степени ценности потребителей, начиная с более высокой с постепенным переходом к наиболее низкой. Затем вы обычно делите полученный перечень на три части - сегменты, соответственно, с высокой, средней и низкой ценностью потребителей. И, наконец, определяете величину выборки в каждом сегменте. Результаты такого процесса суммированы на рис. 4.2.

4.2.3.3 Стратифицированная случайная выборка

Нередко на деловых рынках некоторые потребители являются гораздо более ценными, чем другие. Иногда очень большая часть деятельности компании, например 40 или 50 %, бывает связана с первыми пятью или шестью потребителями. Если применяется простая или систематическая случайная выборка, то вполне вероятно, что ни один из этих пяти или шести потребителей в нее не попадет. Ясно, что нет смысла проводить исследование с измерением удовлетворенности потребителя, если полностью игнорируется 40 или 50 % всей деятельности компании. На деловом рынке, где большинство компаний имеют небольшое число высо­коценных потребителей и большее число малоценных потребителей, в простой или систематической случайной выборке неизбежно будут преобладать малоценные потребители. Для получения выборки, которая одновременно является репрезентативной и лишенной тенденции, применяется стратифицированная случайная выборка. Получение стратифицированной случайной выборки включает в себя, во-первых, разделение потребителей на сегменты, или типы, а затем - случайную выборку внутри каждого сегмента. Показанная на рисунке 4.2 выборка будет репрезентативной для потребительской базы в соответствии с тем вкладом в деловую активность, который дает каждый сегмент потребителей. На потребительских рынках разделение на сегменты может быть другим, например по возрасту или полу.

4.3.1 Пример выборки

В показанном примере компания получает 40 % своего оборота от высокоценных потребителей. Фундаментальный принцип выборки на деловом рынке заключается в том, что если сегмент ценных по­требителей дает 40 % оборота (или прибыли) они должны составлять 40% и в выборке. Если компания решила исследовать выборку из 200 респондентов, 40% от выборки, т. е. 80 респондентов, должны быть от высокоценных потребителей. Поскольку там имеется 40 высокоценных потребителей, отбираемая доля будет 2: 1, значит, от каждого потребителя отбирается 2 респондента в высокоценном сегменте. На деловых рынках общепринято при проведении исследований отбирать более одного респондента от крупных потребителей.

Потребители средней ценности также дают 40 % оборота, так что они также должны составлять 40% в выборке. Это означает, что компания должна отобрать 80 респондентов от своих потребителей средней ценности. Поскольку таких потребителей насчитывается 160, отбираемая доля будет 1: 2, т. е. один респондент от каждых двух потребителей средней ценности. Это приводит к необходимости проведения случайной выборки одного представителя от каждых двух потребителей. Это может быть легко проведено с помощью процедуры систематической случайной выборки, описанной ранее. Сначала генерируется одно из двух случайных чисел: 1 или 2. Пусть это будет 2. В этом случае вы отбираете 2-го, 4-го, 6-го и т.д. потребителя средней ценности.

Наконец, 20 % оборота компании приходится на потребителей низкой ценности, таким образом, они должны составлять 20 % в выборке, т. е. в приведенном примере - 40 респондентов. Всего там насчитывается 400 потребителей низкой ценности, что соответствует отбираемой доле 1:10. Это может быть реализовано с применением той же продедуры систематической случайной выборки. По окончании процесса компания получит типизированную случайную выборку потребителей, которая будет репрезентативной для их деловой активности и благодаря случайному отбору будет свободна от тенденции.

4.3.2 Выборка контактных лиц

Хотя описанная выше процедура дает случайную и репрезентативную выборку потребителей, в конце концов, исследование про­водится не с компаниями, а с конкретными лицами, так что если вы работаете на business - to - business рынке, вы должны, наряду с выборками потребителей, делать выборку среди личных контактов. На практике организации часто выбирают лиц по принципу удоб­ства - людей, с которыми они имеют больше контактов, чьи имена у них есть под рукой. Если лица будут отбираться по такому принципу, то как бы тщательно не проводилась типизированная выборка компаний, в результате она будет низведена до нереггрезентативной выборки лиц, которых кто-то знает. Чтобы избежать появления подобной тенденции, вы должны проводить случайный отбор лиц. Путь к реализации такого отбора лежит в составлении списка лиц, связанных с вашей продукцией или услугой для каждого потребителя, и затем в случайном отборе лиц из этого списка. Если вы хотите осуществить более сложную и более точную процедуру, вы должны разделить список всех лиц на секторы, что позволит избежать включения слишком большого числа второстепенных лиц. Пусть, например, вы проводите анализ деятельности администрации и решили, что для более точного отражения процесса принятия решения, ваша выборка должна содержать 40% контактов по закупкам, 40% технических контактов и 20 % всех остальных контактов. В этом случае вы должны провести случайную выборку лиц в данной пропорции.

4.4 Размер выборки

Другой вопрос, требующий решения, - количество потребителей, которое вам необходимо иметь в выборке. Некоторые компании, преимущественно на business - to - business рынках, имеют очень небольшое число ценных потребителей. Другие компании имеют более миллиона потребителей. На деловых рынках размер генеральной совокупности в точности соответствует количеству лиц у каждого потребителя, влияющих на суждение о удовлетворенности этого потребителя, и это не обязательно равно количеству лиц, с которыми вы постоянно контактируете. Обычно, чем выше ценность потребителя, тем больше лиц должно быть включено. Для поставщика программного обеспечения компью­теров у одного потребителя может быть несколько сотен пользователей. Даже в этом случае некоторые организации будут иметь гораздо большую генеральную совокупность, чем другие, однако это не будет влиять на количество исследуемых потребителей, ко­торое необходимо для обеспечения надежной выборки.

4.4.1 Надежность выборки в связи с ее размером

Статистическая точность выборки связана с ее абсолютным размером, независимо от того, какое количество людей имеется во всей генеральной совокупности. Вопрос о том, какая часть потребителей должна быть исследована - неверно поставленный вопрос. Выборка большего размера всегда более надежна, чем меньшая выборка, каким бы ни был размер генеральной совокупности. Лучше всего это видно из кривой нормального распределения (см. рис. 4.3), из которой можно заключить, что когда мы исследуем множество данных, оно стремится следовать нормальному распределению. Это применимо не только к данным исследований.

Экстремальные данные Нормальные данные Экстремальные данные

Рис. 4.3 Кривая нормального распределения

Например, если вы записываете выпадение июньских дождей в Манчестере в течение пяти лет, когда три года выпадали нормальные для июня дожди, но два года июнь был чрезвычайно дождливым, то расчетное среднее выпадение дождей будет сильно смещено за счет этих двух не по сезону дождливых месяцев. Если же данные собирались в течение 100 лет, то два исключительно дождливых или сухих месяца будут слабо влиять на результат расчета среднего количества дождей в июне в Манчестере. То же самое относится к исследованию. Если вы исследуете только 10 человек, и два из них имеют крайние точки зрения, они сильно исказят конечный результат. Они окажут гораздо меньше влияния при размере выборки в 50 и практически не окажут никакого влияния при размере выборки 500, так что чем больше размер выборки, тем меньше риск получения неверных результатов. На рисунке 4.4 показано, что при возрастании размера выборки возрастает и ее надежность. Сначала, при очень малых размерах, надежность растет очень быстро, но с ростом размера выборки влияние ее размера на надежность выборки уменьшается. Вы можете видеть, что кривая начинает выравниваться в зоне от 30 до 50 респондентов, и это обычно считается порогом между качественными и количественными исследованиями. Когда размер выборки достигает 200, увеличение надежности с ростом количества респондентов чрезвычайно мало. Соответственно, размер выборки в 200 респондентов считается минимальным размером выборки для обеспечения надежного ИУП. Компании с очень малой потребительской базой (около или менее 200 контактов) должны просто исследовать всех переписанных потребителей.

В ка­кие-то годы, возможно, в июне не было дождей (даже в Манчестере), в некоторые годы интенсивность дождей была невероятно высока, но в большинстве лет выпадение дождей лежит где-то между этими двумя пределами, в «нормальной» зоне. Рассматриваем ли мы данные исследований или выпадение дождей в Манчестере, ключевой вопрос состоит в следующем: «Каков риск получения ненормальных данных, искажающих результат?» Чем меньше выборка, тем выше риск.

4.4.2 Глубинный анализ

Как отмечалось ранее, при проведении коммерческих исследований обычно полагается, что выборка размером в 200 членов дает необходимую надежность общей меры удовлетворенности потребителя, независимо от того, составляет ли генеральная совокупность 500 или 600 ООО. Здесь, однако, есть одно важное исключение, и оно проявляется в том случае, когда у вас имеются различные сегменты, и вы хотите провести глубинный анализ результатов, сравнивая удовлетворенности в различных сегментах. Если вы разделите выборку в 200 элементов на множество сегментов, вы столкнетесь с проблемой малого и поэтому ненадежного размера выборки в каждом сегменте. Поэтому общепринятым считается, что минимальный размер общей выборки составляет 200, а минимум для сегмента равен 50.

Вследствие всего сказанного размер общей выборки часто определяется тем, какое количество сегментов вы хотите проанали­зировать. Если вы хотите разделить ваш результат на шесть сегментов, вам понадобится выборка размером не менее 300 членов, чтобы в каждом сегменте их было не менее 50. Это может иметь большое значение для компаний со многими подразделениями или рынками сбыта. Исходя из цифры в 50 респондентов на сегмент, розничному торговцу, имеющему 100 магазинов, потребует­ся выборка, как минимум, в 5000 членов, если удовлетворенность потребителя требуется измерить на уровне магазина. По нашему мнению, однако, если между магазинами должно проводиться сравнение, и на основании результатов исследования будет приниматься управленческое решение, то абсолютный минимум должен быть 100 потребителей на магазин, а еще лучше - 200. Для розничного торговца, имеющего 100 магазинов, это приведет к необходимости выборки в 20 000 потребителей для получения очень надежных результатов на уровне магазина.

4.4.3 Размер выборки и процент ответов

Необходимо отметить еще один фактор. Рекомендованный размер пыборки в 200 респондентов для обеспечения соответствующей надежности относится к ответам, а не к числу отобранных и приглашенных потребителей. Более того, для обеспечения статистической надежности, это означает 200 отобранных потребителей и те же 200 участников, ответивших на вопросы интервью или вернувших анкеты. Если процент ответов низок, то статистически ненадежно компенсировать его простой рассылкой большего количества анкет до тех пор, пока вы не получите 200 ответов. Проблема тенденции, вызванной недостатком ответов, может быть очень существенной при исследованиях ИУП, и эта проблема будет более детально рассмотрена в следующей главе.

4.5 Выводы

(а) В стандарте ИСО 9000: 2000 говорится, что для получения надежной выборки при проведении измерений, связанных с потребителем, должны применяться признанные статистические методы.

(б) Невероятностные выборки увеличивают риск влияния тенденции на получаемый результат и должны применяться только теми организациями, у которых отсутствует база данных потребителей.

(в) Для большинства организаций лучшим способом получения репрезентативной и лишенной тенденции выборки является случайная выборка на основании квот.

(г) Основу выборки должны составлять значимые лица. На деловых рынках может потребоваться включать много респондентов (иногда - очень много) от крупных потребителей.

(д) 200 респондентов составляют минимальное число респонден­тов, необходимое для надежного измерения удовлетворенности потребителя в масштабе целой организации. Это число не зависит от количества имеющихся у вас потребителей.

(е) Организации, имеющие менее 200 потребителей или контактов, должны проводить исследование всех переписанных потребителей.

(ж) Если необходимо получить результаты по сегментам, то минимальный размер выборки на сегмент составляет 50 респондентов. В этих случаях, требуемый минимальный размер всей выборки будет равен числу сегментов, умноженному на 50.

Понятие репрезентативности часто встречается в статистических отчетностях и при подготовке выступлений и докладов. Пожалуй, без нее трудно представить себе какой-либо из видов подачи информации на обозрение.

Репрезентативность - что это?

Репрезентативность отражает, насколько выбранные объекты или части соответствуют содержанию и смыслу совокупности данных, из которой они были выбраны.

Другие определения

Понятие репрезентативности можно раскрывать в разных контекстах. Но по своему смыслу репрезентативность - это соответствие черт и свойств выбранных единиц из общей совокупности, которые точно отражают характеристики всей генеральной базы данных в целом.

Также репрезентативность информации определяют как способность выборочных данных представить параметры и свойства совокупности, важные с точки зрения проводимого исследования.

Репрезентативная выборка

Принцип формирования выборки заключается в избрании наиболее важных и точно отображающих свойства общей совокупности данных. Для этого используются различные методы, которые позволяют получать точные результаты и общее представление о используя только выборочные материалы, описывающие качества всех данных.

Таким образом, нет необходимости изучать весь материал, а достаточно рассмотреть выборочную репрезентативность. Что это? Это выборка отдельных данных для того, чтобы иметь понятие об общей массе информации.

Их в зависимости от способа различают как вероятностные и невероятностные. Вероятностная - это выборка, которая производится путем вычисления наиболее важных и интересных данных, являющихся в дальнейшем представителями генеральной совокупности. Это обдуманный выбор или случайная выборка, тем не менее, обоснованная своим содержанием.

Невероятностная - это одна из разновидностей случайной выборки, составляющаяся по принципу обычной лотереи. В таком случае не учитывается мнение того, кто составляет такую выборку. Используется лишь слепой жребий.

Вероятностная выборка

Вероятностные выборки также могут подразделяться на несколько видов:

  • Одна из самых простых и понятных принципов - это нерепрезентативная выборка. К примеру, такой способ часто используется при проведении социальных опросов. При этом участники опроса не выбираются из толпы по каким-либо определенным признакам, и получение информации производится у первых 50 людей, принявших участие в нём.
  • Преднамеренные выборки отличаются тем, что имеют ряд требований и условий при отборе, однако все же полагаются на случайное совпадение, не преследуя своей целью достижение хорошей статистики.
  • Выборка на основании квот - это еще одна из вариаций невероятностной выборки, которая часто используется для исследования больших совокупностей данных. Для нее используется множество условий и норм. Подбираются объекты, которые должны им соответствовать. То есть на примере социального опроса можно предположить, что опрошены будут 100 человек, но только мнение некоторого числа людей, которые будут соответствовать установленным требованиям, будут учтены при составлении статистического отчета.

Вероятностные выборки

Для вероятностных выборок исчисляется ряд параметров, которым объекты в выборке будут соответствовать, и среди них разными способами могут избираться именно те факты и данные, которые будут представлены как репрезентативность данных выборки. Такими способами вычисления нужных данных могут быть:

  • Простая случайная выборка. Заключается в том, что среди выбранного сегмента совершенно случайным методом лотереи выбирается необходимое количество данных, которые будут являться репрезентативной выборкой.
  • Систематическая и случайная выборка дает возможность составить систему вычисления необходимых данных на основе случайно выбранного сегмента. Таким образом, если первое случайное число, которое указывает на порядковый номер данных, выбранных из общей совокупности, будет 5, то последующими данными, которые будут выбраны, могут стать, например, 15, 25, 35 и так далее. Этот пример наглядно объясняет, что даже случайный выбор может основываться на систематических вычислениях необходимых исходных данных.

Выборка потребителей

Осмысленная выборка - это способ, который заключается в рассмотрении каждого отдельного сегмента, и на основании его оценки составляется совокупность, отражающая характеристики и свойства общей базы данных. Таким образом набирается большее количество данных, соответствующих требованиям репрезентативной выборки. Можно легко отобрать некоторое количество вариантов, которые не войдут в общее число, не потеряв при этом качество отобранных данных, представляющих общую совокупность. Таким способом определяется репрезентативность результатов исследования.

Размер выборки

Не последний вопрос, который необходимо решить, - это размер выборки для репрезентативного представления генеральной совокупности. Размер выборки не всегда зависит от количества исходников в генеральной совокупности. Однако репрезентативность выборочной совокупности напрямую зависит от того, на сколько сегментов должен быть в итоге разделён результат. Чем больше таких сегментов, тем больше данных попадает в результативную выборку. Если результаты требуют общего обозначения и не требуют конкретики, тогда, соответственно, выборка становится меньше, поскольку, не вдаваясь в детали, информация излагается более поверхностно, а значит, ее прочтение будет общим.

Понятие ошибки репрезентативности

Ошибка репрезентативности - это конкретные расхождения между характеристиками генеральной совокупности и выборочных данных. При проведении любого выборочного исследования невозможно получить абсолютно точные данные, как при полном исследовании генеральных совокупностей и выборки, представленной лишь частью сведений и параметров, тогда как более детальное изучение возможно только при исследовании всей совокупности. Таким образом, неизбежны некоторые погрешности и ошибки.

Виды ошибок

Различают некоторые ошибки, которые возникают при составлении репрезентативной выборки:

  • Систематические.
  • Случайные.
  • Преднамеренные.
  • Непреднамеренные.
  • Стандартные.
  • Предельные.

Основанием для появления случайных ошибок может быть несплошной характер исследования общей совокупности. Обычно случайная ошибка репрезентативности имеет незначительный размер и характер.

Систематические ошибки между тем возникают при нарушении правил отбора данных из общей совокупности.

Средняя ошибка - это разница между усредненными значениями выборки и основной совокупностью. Она не зависит от количества единиц в выборке. Она обратно пропорциональна Тогда чем больше объем, тем меньше значение средней ошибки.

Предельная ошибка - это наибольшая возможная разница между усредненными значениями сделанной выборки и общей совокупностью. Такая ошибка охарактеризовывается как максимум вероятных ошибок при заданных условиях их появления.

Преднамеренные и непреднамеренные ошибки репрезентативности

Ошибки смещения данных бывают преднамеренными и непреднамеренными.

Тогда причинами появления преднамеренных ошибок является подход к подбору данных по методу определения тенденций. Непреднамеренные ошибки возникают еще на стадии подготовки выборочного наблюдения, формирования репрезентативной выборки. Для недопущения подобных ошибок необходимо создать хорошую основу для выборки, составляющей списки единиц отбора. Она должна полностью соответствовать целям проведения выборки, быть достоверной, охватывающей все аспекты исследования.

Валидность, надежность, репрезентативность. Расчет ошибок

Расчет ошибки репрезентативности (Мм) средней арифметической величины (М).

Среднее квадратическое отклонение: численность выборки (>30).

Ошибка репрезентативности (Мр) и (Р): численность выборки (n>30).

В том случае, когда приходится изучать совокупность, где количество выборки мало и составляет меньше 30 единиц, тогда число наблюдений станет меньше на одну единицу.

Величина ошибки прямо порциональна объему выборки. Репрезентативность информации и вычисление степени возможности составления точного прогноза отражает определенная величина предельной ошибки.

Репрезентативные системы

Не только в процессе оценки подачи информации используется репрезентативная выборка, но и сам человек, получающий информацию, использует репрезентативные системы. Таким образом, мозг обрабатывает некоторое создавая репрезентативную выборку из всего потока информации, чтобы качественно и быстро оценить подаваемые данные и понять суть вопроса. Ответить на вопрос: «Репрезентативность - что это?» - в масштабах человеческого сознания довольно просто. Для этого мозг использует все подвластные в зависимости от того, какую именно информацию необходимо вычленить из общего потока. Таким образом, различают:

  • Визуальную репрезентативную систему, где задействуются органы зрительного восприятия глаза. Люди, часто использующие подобную систему, называются визуалами. С помощью этой системы человек обрабатывает информацию, поступающую в виде изображений.
  • Аудиальная репрезентативная система. Главный орган, который используется - это слух. Информация, подаваемая в виде звуковых файлов или речи, обрабатываются именно этой системой. Люди, лучше воспринимающие информацию на слух, называются аудиалами.
  • Кинестетическая репрезентативная система представляет собой обработку потока информации, путем восприятия его с помощью обонятельных и осязательных каналов.
  • Дигитальная репрезентативная система используется вместе с другими как средство получения информации извне. восприятие и осмысление полученных данных.

Итак, репрезентативность - что это? Простая выборка из множества или неотъемлемая процедура при обработке информации? Однозначно можно сказать, что репрезентативность во многом определяет наше восприятие потоков данных, помогая вычленить из него наиболее веские и значимые.

Это означает,что если вы, опросив, предположим, 400 человек в районном городе, где численность взрослого платежеспособно­го населения составляет 100 тыс. человек, выявили, что 33% оп­рошенных покупателей предпочитают продукцию местного мясо­комбината, то с 95%-ной 39 вероятностью можете утверждать, что постоянными покупателями этой продукции являются 33+5% (т.е. от 28 до 38%) жителей этого города.

Можно также воспользоваться расчетами института Гэллапа для оценки соотношения размеров выборки и ошибки выборки (см. выше).

Сегодня многие трудные расчеты берет на себя техника, а стати­стические программы можно получить по Интернету. Вот и с рас­четом выборки ленивому социологу предоставили такую возмож-

ность на веб-сайте Аналитического центра «Бизнес и маркетинг» (http://www.bma.ru/enter.htm), где пользователю надо лишь внести необходимые данные, а затем нажать на кнопку «Рассчитать».

Контроль и ремонт выборки

Качество социологической информации может снизить множе­ство факторов: неправильно сформулированные анкетные вопро­сы, не так выбранный метод исследования, пропущенные ответы в анкетах, нечетко спланированная выборка и др.

Практика эмпирических исследований - зарубежных и отече­ственных, фундаментальных и прикладных - свидетельствует, что ошибки, в том числе при составлении выборки, встречаются по­чти в каждом исследовании. Другой вопрос - значимые или незна­чимые смещения такого рода. А поскольку ошибки, накладки и сме­щения происходят всегда, то для специалистов, занятых контролем и ремонтом выборки, работа всегда найдется. Да и саму эту область методической науки преждевременная старость не ожидает. Не только в науке, но и в любой другой сфере профессия контролеров и ремонтников всегда была хлебной и престижной.

Контролем выборки будем называть процесс научного сравне­ния генеральной и выборочной совокупностей, выявление степе­ни их расхождения, обнаружение причин отклонения и разработку возможных способов устранения погрешностей. В узком смысле - это уравнивание выборочных и генеральных распределений социаль­но-демографических характеристик респондентов.

Под ремонтам выборки надо понимать сам процесс устранения погрешностей, т.е. расхождения двух совокупностей, теми способами, методами и инструментами, которые предлагает методическая наука.

Таким образом, второй прием выступает практической реали­зацией первого, аналитического, а оба они составляют два обяза­тельных этапа проведения социологического исследования.

Часто контроль выборки употребляют в расширенном значении, включая в него также ремонт выборки. В этом случае говорят о широком понимании ремонта выборки как первичной статистичес­кой обработки данных, включающей коррекцию: а) выборочной совокупности; б) распределений социально-демографических ха­рактеристик респондентов; в) резко выделяющихся и пропущенных ответов, а также взвешивание исходных данных. Указанные виды коррекции призваны отремонтировать самое главное - выборку исследования, повысить степень ее репрезентативности. Почему это главное? Анкета может быть исключительно интересной, глубокой

Основная цель ремонта выборки - повышение качества уже собранной информации. Процедура ремонта выборки включает несколько операций 40 .

Коррекция выборочной совокупности. Далеко не всегда отобран­ные респонденты, по самым разным обстоятельствам, могут или желают отвечать на вопросы. Кто-то заболел или уехал в срочную командировку, другой отказывается по идейным соображениям или не способен отвечать в силу умственной недостаточности. Кого-то трудно застать дома, хотя анкетер приходил к нему не единожды.

Возникает проблема замены респондентов, которая может быть решена с помощью нескольких методов: выбор следующего по списку респондента (например, следующего номера в телефонном справочнике), использование первоначальной выборки больших размеров и формирование повторной выборки. В последнем слу­чае, если процент ответов оказался намного ниже, чем ожидалось, основа выборки расширяется за счет дополнительных имен, най­денных, например, случайным образом. Самым эффективным способом считается поиск эквивалентной замены. Если, к приме­ру, в вашу выборку попал работающий пенсионер такой-то наци­ональности и овдовевший, то желательно подыскать ему в каче­стве замены другого пенсионера сходного возраста, национально­сти, овдовевшего и работающего. Нередко подобный способ превращается в трудо- и времязатратное мероприятие. Если спи­сок генеральной совокупности невелик и найти замену не удает­ся, следует отказаться от эквивалентного метода и перейти к дру­гому.

Коррекция распределений демографических характеристик респон­дентов. Если по окончании исследования в паспортичке вашего исследования получилось, что у вас, к примеру, перебор женщин, людей с высшим образованием или пожилых людей в сравнении с теми процентными долями, которые они имеют в генеральной со­вокупности, то можно применить три способа: 1) удалить те груп­пы респондентов, которые оказались представлены в избыточном количестве; 2) доопросить те группы, которые оказались представ-

ленными в недостаточном количестве; 3) математически повысить значение ответов, представленных недостаточно, или снизить - представленных избыточно. Но сначала желательно выяснить, а влияет ли то и другое на содержание ответов. Может быть, все мож­но оставить и так.

Взвешивание исходных данных - математический способ повы­шения или понижения значения ответов конкретной группы рес­пондентов (например, незамужних сельских женщин в возрасте от 30 до 45 лет). Взвешивание означает присваивание каждому респон­денту определенного веса (коэффициента, на который нужно ум­ножить все мнения-ответы одного или группы респондентов ради восстановления репрезентативности). По мнению А. Балабанова 41 , взвешивание - единственный способ восстановления репрезента­тивности в панельных исследованиях без потери точности. По­скольку способов взвешивания существует очень много, то перед социологом возникают достаточно непростые методологические проблемы, которые без соответствующей подготовки и знаний ре­шить невозможно. Весовые коэффициенты можно определять по-разному, а сам процесс присвоения коэффициентов почти невоз­можно контролировать со стороны, другим исследователям. Самый простой способ - численность конкретной социально-демографи­ческой группы, например подростков от 13 до 17 лет, из генераль­ной совокупности (N) делят на количество респондентов, представ­ляющих данную возрастную группу (п), полагая, что один респон­дент представляет мнение jVчеловек генеральной совокупности.

Сотрудники Института социологии АН СССР А.А. Давыдов и А. О. Крыштановский в свое время установили любопытные фак­ты 42 . Оказывается, демофафические признаки респондентов почти никак не связаны с ответами об удовлетворенности работой и жиз­нью, оценкой темпов перестройки, одобрением деятельности по­литических лидеров, оценкой внешнеполитических событий и т.д. Другими словами, мужчины и женщины одинаково отвечают на вопросы об удовлетворенности жизнью или о политических собы­тиях. Для этих индикаторов перевзвешивание проводить не нуж­но. Если же одна характеристика, например пол, тесно связана со всеми содержательными вопросами или разные вопросы связаны с различными характеристиками, то коррекцию придется делать по схеме, описанной в пособии.

Специалисты ВЦИОМ обеспечивают при анализе данных тща­тельный ремонт выборки, чтобы минимизировать отклонения, возникшие на этапе полевых работ. Особенно сильные смещения наблюдаются по параметрам пола и возраста.

Коррекция резко выделяющихся ответов респондентов. При опросе иногда попадаются такие ответы респондентов, которые резко выделяются на общем фоне. Причины могут быть самые разные: респондент неправильно понял вопрос анкеты, у него оригинальные взгляды на мир или попросту решил подшутить над учеными. Могут быть и другие причины. Но вернуться к нему и переспросить уже нельзя. В таком случае, особенно если анкет много, бракованный экземпляр лучше удалить из обще­го массива.

Коррекция пропущенных ответов. Пропуски чаще всего воз­никают в открытых и табличных вопросах. Самый простой спо­соб коррекции - исключить их или всю анкету из научного ана­лиза. При пропуске не содержательного вопроса, а того, что. имеется в паспортичке, поступают так. Если социально-демо­графические характеристики не связаны с содержательными от­ветами, то анкете с пропущенными значениями следует присво­ить наиболее часто встречающиеся в выборке социально-демо­графические характеристики либо определить их случайным образом или пропорционально (если таких анкет много). Если же связь есть, то следует определить, к ответам какой группы (например, мужчин или женщин) ближе ответы в анкете, где графа «пол» не указана, и внести этот признак 44 .

Если данных получено много, то ремонт выборки может осу­ществляться за счет сокращения выборочной совокупности. Это, по мнению А.А. Давыдова и А.О.Крыштановского, наиболее ра­циональный подход к ремонту выборки, поскольку данная стра­тегия не опирается ни на какие дополнительные допущения. Если объем выборки незначителен, то для ее ремонта нужно принимать ряд дополнительных допущений, которые не следу­ют из собранного материала и истинность которых трудно про­верить.

Переформирование выборки осуществляется тогда, когда про­верка показала, что выборка не представляет совокупность в це­лом. В этом случае выбираются новые респонденты, и они добав­ляются к ранее использованной выборке, пока не достигается удовлетворительный уровень репрезентативности.

Далеко не все социологи, организующие эмпирическое иссле­дование, включают данные о контроле и ремонте выборки в его «паспортичку». Так, среди 300 исследований, содержавшихся в Банке данных ИС АН СССР на 1988 г., лишь в десяти осуществ­лялся ремонт выборки 45 . Для сравнения отметим: за рубежом ре­монт выборки уже давно стал распространенным методом повы­шения качества социологической информации.

Раньше причины отставания таились в отсутствии вычисли­тельной техники, специализированного программного обеспе­чения, методических пособий, недостаточной квалификации исследователей. Сегодня есть и техника, и нужные программы, но проблема не решена. Видимо, ее нельзя свести лишь к тех­ническим аспектам.

На практике ошибка выборки определяется путем сравнения известных характеристик генеральной совокупности с выборочны­ми средними. В социологии при обследованиях взрослого насе­ления чаще всего используют данные переписей населения, теку­щего статистического учета, предшествующих опросов на том же объекте. В качестве контрольных параметров обычно применяются социально-демографические признаки (пол, возраст, националь­ность, семейное положение). Поскольку сравнение своих и чужих данных можно сделать по завершении исследования, такой спо­соб контроля называется апостериорным, т.е. осуществляемым после опыта.

Например, институт Дж. Гэллапа, использующий выборки объемом 1500 чел., контролирует репрезентативность по имею­щимся в национальных цензах данным о распределении населе­ния по полу, возрасту, образованию, доходу, профессии, расовой принадлежности (белый - цветной), месту проживания, величи­не населенного пункта 46 . В исследованиях, проводимых ВЦИОМ, надежность выборочных данных определяется методом апосте­риорного контроля. В анкету мониторинга обязательно включа­ют несколько вопросов, по которым имеется надежная информа­ция в Госкомстате РФ. К ним обычно относятся пол, возраст, об­разование, тип поселения, семейное положение, сфера занятости, должностной статус респондента. Четыре показателя - пол, воз­раст, образование и место жительства респондента используются для выделения контролируемых групп при определении весов

опрошенных - они должны соответствовать аналогичным группам в генеральной совокупности 47 . Поскольку из официальной статистики известно, сколько в России мужчин и женщин, то легко сравнить по этим цифрам данные мониторинга и определить погрешность.

В обследованиях Центра «Социо-Экспресс» Института социо­логии РАН репрезентативность всероссийской выборки (проект­ный объем 2 тыс. чел.) контролируется по региональным пропор­циям численности населения, пропорциям между городским и сельским населением, пропорциям между населением указанных типов населенных пунктов. Опрос производится методом форма­лизованного интервью по месту жительства. В основе размещения выборки лежат десять экономико-географических зон, в каждой из которых выделяются крупные города (численностью свыше 500 тыс. населения), средние города (50-500 тыс.), малые города (до 50 тыс.) или поселки городского типа, а также сельские насе­ленные пункты. Авторы полагают, что предельная ошибка их вы­борки не превышает 3% 48 .

Эффективным контролем выборки и вообще качества данных в исследовании служит публикация ключевых характеристик ис­следования, прежде всего методического инструментария. Если автор исследования скрывает информацию, указывая на коммер­ческую тайну, то обязательно должно возникнуть подозрение в его нечистоплотности. Как справедливо замечает А. Балабанов, все методики измерений, даже в сфере маркетинговых исследований и масс-медиа, давно известны, они абсолютно открыты и не мо­гут являться объектом коммерческой тайны. Более того, отсут­ствие данных о методике измерений является нарушением всех имеющихся в мире соглашений, в частности о медиаизмерениях 49 .

Паспортичка выборки

При написании научного отчета и публикации статьи в акаде­мическом журнале от авторов исследования всегда требуют чет­ких разъяснений относительно самого исследования и выбороч-

ной совокупности: кто и когда проводил исследование, какие ме­тоды исследования использовались, каковы тип, объем и харак­тер выборки, ошибка репрезентативности, состав выборочной со­вокупности по главным параметрам (например, пол, возраст, на­циональность, образование), контроль данных и др. Если эти сведения отсутствуют, то статью в журнал обычно не принимают, а если они присутствуют лишь частично, то им не доверяют серь­езные исследователи. Таким образом, паспортичка исследования и паспортичка выборки необходимы авторам не меньше, чем ре­дакторам и читателям.

Паспортичка выборки появляется у социолога дважды. Первый раз характеристику типа выборки с кратким обоснованием целе­сообразности ее использования в соответствии с целями исследо­вания, требованиями репрезентативности и организационными возможностями исследования социологу приходится давать в Методическом разделе программы своего исследования. Раздел о выборке содержит ответы на следующие вопросы:

♦ Каков эмпирический объект исследования?

♦ Является ли исследование сплошным или выборочным?

♦ Если оно является выборочным, то претендует ли оно на репрезентативность?

♦ Если оно претендует на репрезентативность, то какова ге­неральная совокупность?

♦ Сколько ступеней отбора применяется в выборке?

♦ Какова единица отбора на каждой ступени?

♦ Какая стратегия отбора применяется на каждой ступени (случайная, квотная)?

♦ Какая конкретно разновидность случайного отбора приме­няется?

♦ Какие параметры используются при квотной выборке?

♦ Что является основой выборки (список, картотека, карта)?

♦ Какова единица наблюдения на последней ступени отбора?

Принципы выборки описываются не только для метода опро­са, но и для каждого метода, используемого в исследовании: ана­лиз документов, наблюдение и т.д.

Условный пример описания выборки. В исследовании эффек­тивности бригадных форм организации труда возможна такая стратегия. 1. В качестве эмпирического объекта принимаются ра­бочие, объединенные в бригадную форму организации труда. 2. Исследование выборочное. 3. Генеральной совокупностью вы­ступают все рабочие, объединенные в бригадную форму. 4. При­меняются три ступени отбора. 5. На первой ступени выделяют­ся бригады, занятые в основном и вспомогательном произвол-

стве. Для последних применяется сплошной опрос (в связи с их малочисленностью), а для первых - выборочный. 6. Вторая сту­пень - отбор бригад, занятых в основном производстве. По по­казателям, характеризующим конечные результаты, бригады раз­деляются на три группы: а) передовые; б) средние; в) отстающие. В зависимости от числа бригад на каждую группу составляют список, и по нему делается случайный непропорциональный отбор (например, по три бригады в каждой) с помощью опреде-ленного «шага выборки». 7. Третья ступень - в отобранных бри­гадах проводится сплошной опрос. Единицей наблюдения выс­тупает отдельный работник 50 .

Второй раз с описанием выборки социолог встречается уже после проведения исследования - когда пишет научный отчет или научную статью в журнал.

Неполное описание паспортных данных исследования, к сожа-лению, самая распространенная болезнь российских ученых. Не-которые не знают, как именно их составлять, другие считают та-кие сведения необязательными или неважными. А есть и такая ка-тегория исследователей, которым сообщить просто нечего, поскольку, описав все сведения о выборке, они разоблачат свою неграмотность. Распространенный случай - социолог как-то про-вел исследование, каким-то образом построил выборку и что-то там получил. Но сформулировать паспортичку, выразить на на­учном языке свои действия он не может.

Хроническая болезнь отечественных социологов - отсутствие или недостаточно высокая методическая культура. Она касается не только организации и проведения полевого исследования, но и публикации его результатов в открытой печати. Подобный факт известен всем и о нем переодически говорят с 1960-х по 2000-е гг. Иногда наших социологов и психологов удается, что называется, застичь на месте преступления.

Согласно данным исследования В.В. Солодникова, который провел вторичный анализ публикаций в трех академических жур- налах: «Социологические исследования», «Вопросы психологии»

и «Психологический журнал» за 1986-1992 гг., ни социологи, ни психологи не утомляют себя выдвижением, обоснованием и про­веркой гипотез. Большинство ученых (от 61 % у психологов до 92% у социологов) обходится без такого познавательного инструмен­та, нарушая все каноны научного метода. Только в 8% социоло­гических публикаций гипотезы формулируются в явном виде. Плохо обстоит дело у социологов и психологов с описанием объек­та исследования: мало кто указывает количество опрошенных, пол и возраст респондентов, редко сообщается уровень образования опрошенных, место проживания, продолжительность семейной жизни (для состоящих в браке), доход и профессиональный ста­тус. Проблема репрезентативности, т.е. сравнение выборочной и генеральной совокупностей по указанным признакам, почти со­всем не обсуждается. Кроме того, единичны упоминания социо­логов о пилотаже инструментария, об использовании ранее апро­бированных методик. Хотя самым распространенным методом сбора эмпирической информации выступает опрос, редко кто опи­сывает, какой именно его вид применялся в зависимости от мес­та, времени или способа заполнения анкеты.

2.12. Репрезентативность

Репрезентативность (франц. representatif - показательный) - свойство выборочной совокупности представлять характеристики генеральной совокупности. Репрезентативность выборки означа­ет, что с некоторой наперед заданной или вычисленной на фак­тической выборке погрешностью установленное на выборочной совокупности можно отождествить с генеральной совокупностью или, если использовать язык статистики, найти оценки парамет­ров генеральной совокупности. Во-первых, каждая единица гене­ральной совокупности должна иметь равную вероятность попасть в выборку. Во-вторых, во избежание направленного отбора выбор единиц генеральной совокупности нужно производить независи­мо от изучаемого признака. В-третьих, отбор должен производить­ся по возможности из однородных совокупностей. В-четвертых, число единиц генеральной совокупности, отобранных для обсле­дования, должно быть достаточно большим.

Процесс непосредственного определения репрезентативнос­ти выборки складывается из этапов: сопоставление средних по­казателей распределений выборочной и генеральной совокупно­стей; сопоставление форм распределения этих показателей. Сред­ний показатель распределения обычно берется как средняя 144

арифметическая или средневзвешенная арифметическая этого распределения.

В случае изучения совокупностей с альтернативными призна­ками вместо средней арифметической вычисляется доля единиц, обладающих рассматриваемой характеристикой, относительно всей совокупности. Если обозначить объем совокупности симво­лом N, а явление с данным признаком - М, то Р - доля явлений с этим признаком определяется:

где Q - доля явлений с альтернативным признаком.

Пользоваться выводами, полученными на основании исследо-вания выборочной совокупности, можно в том случае, если раз-ность между средними арифметическими (или средними долями)" признаков выборочной и генеральной совокупностей стремится к нулю. Предполагается, что это требование удовлетворяется при выполнении четырех условий, оговоренных выше. Правда, зная только выборочные средние показатели, нельзя дать точные оцен-ки их разности, так как неизвестны средние показатели генераль-ной совокупности. Кроме того, сами значения выборочных сред­них могут колебаться в зависимости от того, какие единицы ге­неральной совокупности попадут в выборку. Поэтому оценка репрезентативности выборочной совокупности по средним пока­зателям ее распределения сводится к поиску ошибки репрезента­тивности.

Сравнение выборочной и генеральной совокупностей по сред­ним показателям не дает полного представления о генеральной совокупности. Так, в двух совокупностях с одинаковыми средни­ми показателями расхождения между максимальным и минималь­ным значением признака, определяющие форму его распределе­ния, могут быть различны. Если представить такое распределение графически, то оно образует симметричную колоколообразную (нормальную) кривую, отражающую тот факт, что сумма многих независимых произвольно распределенных случайных перемен­ных приближенно распределяется по нормальному закону. Орди­ната у, которая определяет высоту кривой для каждой точки х, представляет собой плотность вероятности для значения х г

Максимум плотности вероятности приходится на среднее зна­чение переменной и равен единице. Это означает, что чем меньше

случайное значение переменной отличается от ее среднего значе­ния, тем больше вероятность его проявления. И наоборот, чем боль­ше отклонение значений переменной от ее средней величины, тем вероятность их появления меньше. Таким образом, значения откло­нений от средних величин, т.е. значения вида х (- х, несут инфор­мацию о вариации изучаемых переменных. Если бы все значения признака были одинаковы и совпадали с его средней величиной, то совокупность значения этого признака была бы предельно од­нородной.

Обычно число положительных отклонений от среднего ариф­метического значения совокупности примерно равно числу отри­цательных отклонений, т.е. сумма всех отклонений неизбежно стремится к нулевому значению. Поэтому, если бы потребовалось просуммировать все отклонения признака в совокупности, эта сумма всегда была бы равна нулю:

Во избежание этого каждое отклонение возводят в квадрат и находят сумму квадратов - дисперсию.

Нормальное распределение в полной мере характеризуется параметрами: jc - среднее значение признака и а - среднее квад­ратичное (стандартное) отклонение. Среднее х определяет поло­жение распределения относительно оси х; стандартное отклоне­ние показывает форму кривой; чем больше значение а, тем шире кривая и тем ниже ее максимум.

Площадь под нормальной кривой располагается таким образом, что в границах х ± о находится 68% всего распределения призна­ка, в границах х ± 2<т - 95,5, в пределах х ± Зет - 99,7%. Вероят­ность того, что разность между случайной переменной, распреде­ленной примерно по нормальному закону, и ее средним значением по абсолютной величине превосходит Зет, меньше 0,3%. Отсюда следует, что практически со стопроцентной точностью можно ут­верждать:

Оценка репрезентативной выборочной совокупности по фор­ме распределения показателей представляет собой сравнение мер вариации этих показателей в выборочной и генеральной совокуп­ностях. Дисперсия генеральной совокупности известна далеко не в сегда, однако в математической статистике доказано, что меж-

ду генеральной и выборочной дисперсиями существует соотно­шение вида:

где п - объем выборки.

Проблема репрезентативности выборки имеет важное значение как проблема правомерности экстраполяции выводов, полученных при анализе выборочной совокупности, на всю генеральную со-вокупность 52 .

Глава 3. ПРОГРАММА


Похожая информация.