Анализ регрессионной модели в условиях гетероскедастичности ошибок. Гетероскедастичность и методы ее выявления. Оценивание регрессии в условиях гетероскедастичности ошибок

Гетероскедастичность (англ. Heterosсedasticity ) - понятие, используемое в эконометрике, означающее неоднородность наблюдений, выражающаяся в неодинаковой (непостоянной) дисперсии случайной ошибки регрессионной (эконометрической) модели. Гетероскедастичность противоположна понятию гомоскедастичность , которое означает однородность наблюдений, то есть постоянство дисперсии случайных ошибок модели.

Наличие гетероскедастичности случайных ошибок приводит к неэффективности оценок, полученных с помощью метода наименьших квадратов. Кроме того, в этом случае оказывается смещённой и несостоятельной классическая оценка ковариационной матрицы МНК-оценок параметров. Следовательно статистические выводы о качестве полученных оценок могут быть неадекватными. В связи с этим тестирование моделей на гетероскедастичность является одной из необходимых процедур при построении регрессионных моделей.

К тестам, позволяющим выявить наличие гетероскедас­тичности случайных остатков, относят тесты Гольдфельда - Квандта, Парка, Глейзера, Уайта, Бреуша - Патана, ранговой корреляции Спирмена и т.д.

Тест Гольдфельда -Квандта применяется, если случайные остатки предполагаются нормально распределенными вели­чинами и объем наблюдений достаточно большой. Процедура проверки следующая.

1. Все наблюдения упорядочивают по мере возрастания ка­кой-либо независимой переменной, которая, как пред­полагается, оказывает влияние на изменение дисперсии случайных остатков.

2. Упорядоченную совокупность делят на три группы, при­чем первая и последняя должны быть равного объема, с числом наблюдений, больших, чем число параметров модели регрессии. Пусть в первую и третью группы ото­брано по к наблюдений.

3. По первой и третьей группам находят параметры урав­нений регрессии той же структуры, что и исходное урав­нение регрессии, и остаточные суммы квадратов по ка­ждой модели.

4. Используя данные об остаточных суммах квадратов мо­делей первой и третьей групп, рассчитывают фактиче­ское значение F-критерия Фишера по формуле

где - большая остаточная сумма квадратов; - меньшая остаточная сумма квадратов.

5. Сравнивают фактическое значение F-критерия с таблич­ным, найденным для степеней сво­боды. Если F-фактическое больше табличного, то гипо­теза об отсутствии гетероскедастичности отклоняется.

Тесты Парка, Глейзера, Уайта и Бреуша - Пагана основы­ваются на предположении, что дисперсия случайных остатков представляет собой определенную функцию от некоторой не­зависимой переменной (или переменных). Перед применени­ем этих тестов по уравнению регрессии необходимо рассчи­тать случайные остатки .

Для теста Парка строят зависимость вида

, (69)

где - -e значение - независимой переменной, оказывающей вли­яние на дисперсию остатков; - случайный остаток.

По тесту Глейзера находят параметры целой серии урав­нений, задаваемых функцией

, (70)

где - какое-либо число, например и т.п.

Тест Уайта заключается в построении квадратичной фун­кции, включающей все независимые переменные, входя­щие в исходную модель, а также их попарные произведения. Включение попарных произведений независимых перемен­ных является необязательным, их можно опустить. Для случая с двумя переменными эта функция будет иметь вид

где - неизвестные параметры.

Тест Бреуша - Пагана предполагает исследование вли­яния на дисперсию остатков нескольких независимых пере­менных, которые включают в регрессию вида

где - -e значениям -й, -й, -й незави­симых переменных, оказывающих влияние на дисперсию остатков; - оценка дисперсии случайных остатков, рассчитанная по формуле

Остатки считаются гетероскедастичными, если параметр в функциях по тесту Парка (69) или тесту Глейзера (70) значим (для теста Глейзера - хотя бы при одном значении ). При проверке по тесту Уайта говорят, что остатки гетероскедастичны, если вся функция (71) значима по F-критерию Фишера.

Проверка гетероскедастичности по тесту Бреуша - Пагана заключается в расчете по функции (72) факторной суммы квадратов

которое сравнивается с табличным (число степеней свобо­ды равно , т.е. числу независимых переменных в мо­дели (72); уровень значимости равен . Нулевая гипотеза о гомоскедастичности случайных остатков отвергается, если

Тест ранговой корреляции Спирмена, так же как и ранее рассмотренные тесты, основывается на предположении о за­висимости (прямой или обратной) величины дисперсии слу­чайных остатков от значений какой-либо независимой пере­менной. Для проведения проверки по этому тесту значения случайных остатков, взятые по модулю, и значения этой пере­менной ранжируют (например, по возрастанию), а затем на­ходят коэффициент корреляции рангов Спирмена

,

где - разность между рангами -гo случайного остатка и -гo зна­чения независимой переменной.

Полученное значение коэффициента корреляции проверяют на значимость, рассчитывая фактическое значение - критерия Стьюдента (73) и сравнивая его с табличным значением при числе степеней свободы .

Если фактическое значение критерия больше таблично­го, то гипотеза о гомоскедастичности остатков отклоняется.

Проверим на гетероскедастичность модель регрессии из на­шего примера:

Рассчитаем случайные остатки для этой модели (табл. 9).

Таблица 9. Расчет случайных остатков для модели регрессии поступления налогов от количества занятых, объема отгрузки в обрабатывающих производствах и производства энергии

1422,20 4804,33 -3382,13 16 868,50 14 895,12 1973,38
2529,70 5056,17 -2526,47 18 019,40 13 781,67 4237,73
2629,10 5144,80 -2515,70 18 950,30 27 753,87 -8803,57
2764,30 4755,64 -1991,34 19 995,50 27 517,44 -7521,94
3347,50 7553,53 -4206,03 20 445,60 13 948,95 6496,65
3914,20 5263,55 -1349,35 21 220,80 29 518,94 -8298,14
4400,80 7241,83 -2841,03 21 360,00 20 644,76 715,24
5904,00 8992,88 -3088,88 21 418,80 19 152,00 2266,80
6956,70 7161,55 -204,85 21 477,10 22 791,19 -1314,09
7595,10 10 469,73 -2874,63 21 816,30 21 263,08 553,22
9257,80 14 251,91 994,11 22 824,90 14 496,10 8328,80
9317,10 5569,87 3747,23 23 579,30 17 021,68 6557,62
9978,80 12 356,21 -2377,41 23 702,60 14 531,28 9171,32
10 144,80 10 929,40 -784,60 24 007,20 22 773,85 1233,35
10 215,40 9619,74 595,66 27 581,20 31 028,32 -3447,12
11 349,50 14 390,38 -3040,88 28 057,50 32 314,79 -4257,29
12 046,90 14 174,13 -2127,23 29 815,50 31 859,41 -2043,91
12 061,40 14 898,60 -2837,20 32 236,50 31 936,40 300,10
12 104,20 17 000,04 -4895,84 32 657,40 32 494,15 163,25
13 042,40 10 214,84 2827,56 32 672,70 26 620,17 6052,53
13 104,30 13 167,07 -62,77 34 351,10 22 852,20 11 498,90
13 396,40 17 660,39 -4263,99 36 050,40 35 892,53 157,87
14 170,30 22 136,25 -7965,95 36 544,30 22 893,37 13 650,93
14 227,00 15 269,09 -1042,09 37 136,90 22 606,54 14 530,36


График зависимости случайных остатков от выровненного значения зависимой переменной имеет вид, представленный на рис. 5. Можно отметить определенное увеличение раз­броса точек в центральной части графика и уменьшение раз­броса для последних нескольких точек. Такая картина может свидетельствовать о наличии гетероскедастичности остатков.

Рисунок 5. Изменение дисперсии случайных остатков с ростом выровненного значения зависимой переменной

Применим для анализа дисперсии остатков рассмотренные выше тесты. Так как большинство тестов основано на гипоте­зе, что известна переменная, вызывающая гетероскедастичность остатков, обратимся сначала к тесту Уайта, в котором рассматриваются все независимые переменные, входящие в модель регрессии.

Используем короткую форму теста Уайта, без включения попарных произведений независимых переменных. Получим следующий результат:

Табличное значение F-критерия равно 2,33 (). Таким образом, по тесту Уайта нет оснований отвергнуть нулевую гипотезу о гомоскедастичности остатков. Отметим также, что все параметры незначимы, но наиболь­шее значение -критерия (и достаточно близкое к таблично­му) имеют параметры при переменной (табличное значение -критерия составило 2,02 ()). Таким обра­зом, переменная может быть рассмотрена в других тестах как возможная причина гетероскедастичности.

Тест Бреуша - Пагана позволяет рассматривать различные комбинации переменных в качестве объясняющих гетероске­дастичность остатков. Уравнение теста, включающее в себя все три независимые переменные, будет иметь вид

.

Табличное значение критерия равно 7,82 (), таким образом, нет оснований отвергнуть нулевую гипо­тезу о гомоскедастичности случайных остатков. Руководствуясь предположениями, сделанными в ходе анализа теста Уайта, проведем тест Бреуша - Пагана применительно только к пе­ременной . Получим следующие результаты:

.

Табличное значение критерия в данном случае равно 3,84 (), таким образом, мы отвергаем нулевую гипо­тезу о гомоскедастичности случайных остатков. Остатки гетероскедастичны по переменной . Анализ по тесту Бреуша - Пагана при необходимости можно продолжить, исследуя влияние на дисперсию случайных остатков других независи­мых переменных. Опираясь на выявленное влияние на дис­персию остатков переменной , проверим эту связь с помо­щью других тестов.

Использование критерия Гольдфельда - Квандта предпо­лагает упорядочивание данных, в нашем случае по перемен­ной .

Общий объем наблюдений составляет 48 регионов, т.е. их можно разделить на три равные группы по 16 наблюдений в каждой или по 18 наблюдений в первой и третьей группах и 12 наблюдений во второй. Так как критерий Гольдфельда - Квандта предполагает построение уравнений регрессии той же структуры, что и исходное уравнение, остановимся на втором варианте деления совокупности как обеспечивающим боль­шую достоверность регрессионного анализа (18 наблюдений на три коэффициента регрессии, т.е. по шесть наблюдений на каждый коэффициент).

Для первой и третьей совокупностей наблюдений най­дем параметры уравнений множественной регрессии вида и рассчитаем случайные остатки по ка­ждому из них. Получим следующие результаты.

Первая группа (минимальные значения ):

Подводя итоги выявления гетероскедастичности в нашем примере, отметим, что по ряду тестов (Бреуша - Пагана, Гольдфельда - Квандта, Глейзера) гипотеза о гомоскеда­стичности остатков была отвергнута, т.е. можно утверждать, что на дисперсию случайных остатков оказывает влияние пе­ременная . То, что гетероскедастичность была выявлена не во всех тестах, связано с тем, что разные тесты опираются на разные предпосылки о форме связи величины случайных остатков и независимой переменной. Исследование по тесту Глейзера показывает, что эта форма может быть описана вы­ражением , где - линейная функция.

Причинами гетероскедастичности случайных остатков мо­гут быть неверная функциональная форма уравнения регрес­сии (неверная спецификация модели), неоднородность иссле­дуемой совокупности. Соответственно способами устранения гетероскедастичности являются построение модели иной фун­кциональной формы и (или) разбиение совокупности на одно­родные группы. Если по каким-то причинам это сделать не­возможно или нежелательно, то для нахождения параметров уравнения регрессии можно воспользоваться обобщенным методом наименьших квадратов.

*графический

Прежде всего, проверяется случайный характер остатков еi (1ая предпосылка мнк). С этой целью строится график зависимости остатков еi от теоретических расчетных значений уi. Если на графике нет направленности в расположении точек остатков еi, то остатки представляют собой случайные величины, МНК оправдан, теоретические значения расчетного уi хорошо аппроксимируют значения фактического yi.

Для обеспечения несмещенности оценок коэффициента регрессии, полученного МНК, необходимо выполнение условий независимости случайных остатков еi и переменных хi (2ая предпосылка мнк). С этой целью строится график зависимости случайных остатков ei от факторов хi, включенных в регрессию. На графике поверяется отсутствие направленности в расположении ei.

*Тест ранговой корреляции Спирмена

При использовании данного теста предполагается, что дисперсия отклонения будет либо увеличиваться, либо уменьшаться с увеличением значения X. Поэтому для регрессии построенной по МНК абсолютные величины отклонений и значения будут коррелированы. Значения и ранжируются (упорядочиваются по величинам). Затем определяется коэффициент ранговой корреляции:

где - разность между рангами значений и ().

Если tрасч> tтабл, гипотеза о равенстве 0 коэф-та корел-ии отклоняется, отсутствие гетероскедастичности. В противном случае нулевая гипотеза принимается.

*Тест Голдфелда–Квандта. Этот тест применяется в том случае, если ошибки регрессии можно считать нормально распределенными случайными величинами.

Предположим, что средние квадратические (стандартные) отклонения возмущений о, пропорциональны значениям объясняющей переменной X (это означает постоянство часто встречающегося на практике относительного (а не абсолютного, как в классической модели) разброса возмущений е, регрессионной модели.

Упорядочим n наблюдений в порядке возрастания значений регрессора X и выберем т первых и т последних наблюдений.

В этом случае гипотеза о гомоскедастичности будет равносильна тому, что значения е 1 ,..., е т и е п-т+ 1,..., е n (т.е. остатки е i регрессии первых и последних т наблюдений) представляют собой выборочные наблюдения нормально распределенных случайных величин, имеющих одинаковые дисперсии.

Гипотеза о равенстве дисперсий двух нормально распределенных совокупностей, как известно (см., например, ), проверяется с помощью критерия Фишера–Снедекора.

Нулевая гипотеза о равенстве дисперсий двух наборов по т наблюдений (т.е. гипотеза об отсутствии гетероскедастичности) отвергается, если

где р – число регрессоров.

Заметим, что числитель и знаменатель в выражении (7.19)следовало разделить на соответствующее число степеней свободы, но в данном случае эти числа одинаковы и равны (т – р).


Мощность теста, т.е. вероятность отвергнуть гипотезу об отсутствии гетероскедастичности, когда действительно гетероскедастичности нет, оказывается максимальной, если выбирать т порядка n /3.

При применении теста Голдфелда–Квандта на компьютере нет необходимости вычислять значение статистики F вручную, так как величины представляют собой суммы квадратов остатков регрессии, осуществленных по “урезанным” выборкам.

ОМНК

Наиболее существенным достижением эконометрики является значительное развитие самих методов оценивания неизвестных параметров и усовершенствование критериев выявления статической значимости рассматриваемых эффектов. В этом плане невозможность или нецелесообразность использования традиционного МНК по причине проявляющейся в той или иной степени гетероскедастичности привели к разработке обобщенного метода наименьших квадратов (ОМНК).

Фактически при этом корректируется модель, изменяются ее спецификации, преобразуются исходные данные для обеспечения несмещенности, эффективности и состоятельности оценок коэффициентов регрессии.

Предполагается, что среднее остатков равно нулю, но их дисперсия уже не является постоянной, а пропорциональна величинам Кi, где эти величины представляют собой коэффициенты пропорциональности, различные для различных значений фактора х. Таким образом, именно эти коэффициенты (величины Кi) характеризуют неоднородность дисперсии. Естественно, считается, что сама величина дисперсии, входящая общим множителем при этих коэффициентах пропорциональности, неизвестна.

Исходная модель после введения этих коэффициентов в уравнение множественной регрессии продолжает оставаться гетероскедастичной (точнее говоря, таковыми являются остаточные величины модели). Пусть эти остаточные величины (остатки) не являются автокоррелированными. Введем новые переменные, получающиеся делением исходных переменных модели, зафиксированных в результате i-наблюдения, на корень квадратный из коэффициентов пропорциональности Кi. Тогда получим новое уравнение в преобразованных переменных, в котором уже остатки будут гомоскедастичны. Сами новые переменные - это взвешенные старые (исходные) переменные.

Поэтому оценка параметров полученного таким образом нового уравнения с гомоскедастичными остатками будет сводиться к взвешенному МНК (по существу это и есть ОМНК). При использовании вместо самих переменных регрессии их отклонения от средних выражения для коэффициентов регрессии приобретают простой и стандартизованный (единообразный) вид, незначительно различающийся для МНК и ОМНК поправочным множителем 1/К в числителе и знаменателе дроби, дающей коэффициент регрессии.

Следует иметь в виду, что параметры преобразованной (скорректированной) модели существенно зависят от того, какая концепция положена за основу для коэффициентов пропорциональности Кi. Часто считают, что остатки просто пропорциональны значениям фактора. Наиболее простой вид модель принимает в случае, когда принимается гипотеза о том, что ошибки пропорциональны значениям последнего по порядку фактора. Тогда ОМНК позволяет повысить вес наблюдений с меньшими значениями преобразованных переменных при определении параметров регрессии по сравнению с работой стандартного МНК с первоначальными исходными переменными. Но эти новые переменные уже получают иное экономическое содержание.

Гипотеза о пропорциональности остатков величине фактора вполне может иметь под собой реальное обоснование. Пусть обрабатывается некая недостаточно однородная совокупность данных, например, включающая крупные и мелкие предприятия одновременно. Тогда большим объемным значениям фактора может соответствовать и большая дисперсия результативного признака, и большая дисперсия остаточных величин. Далее, использование ОМНК и соответствующий переход к относительным величинам не просто снижают вариацию фактора, но и уменьшают дисперсию ошибки. Тем самым реализуется наиболее простой случай учета и коррекции гетероскедастичности в регрессионных моделях посредством применения ОМНК.

Изложенный выше подход к реализации ОМНК в виде взвешенного МНК является достаточно практичным - он просто реализуется и имеет прозрачную экономическую интерпретацию. Конечно, это не самый общий подход, и в контексте математической статистики, служащей теоретической основой эконометрики, нам предлагается значительно более строгий метод, реализующий ОМНК в самом общем виде. В нем необходимо знать ковариационную матрицу вектора ошибок (столбца остатков). А это в практических ситуациях, как правило, несправедливо, и отыскать эту матрицу как таковую бывает невозможно. Поэтому приходится каким-то образом оценивать искомую матрицу, чтобы использовать вместо самой матрицы такую оценку в соответствующих формулах. Таким образом, описанный вариант реализации ОМНК представляет одну из таких оценок. Иногда его называют доступный обобщенный МНК.

Лекция 5. Гетероскедастичность и автокорреляция регрессионных остатков

Литература:

    Эконометрика: учебник / И.И. Елисеева, С.В. Курышева, Т.В. Костеева и др.; под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2006.

    Бородич С.А. Эконометрика: учебное пособие. – Минск: ООО «Новое знание», 2005 – 408с.

    Еремеева Н.С., Лебедева Т.В. Эконометрика: учебн. Пособие для вузов. – Оренбург: ОАО «ИПК «Южный Урал», 2010. – 296 с.

    Кремер Н.Ш. Эконометрика: учебник (Н.Ш. Кремер, Б.А. Путко). – М.: ЮНИТИ-ДАНА, 2006 – 311с.

1. Гетероскедастичность. Тесты на гетероскедастичность

2. Автокорреляция регрессионных остатков. Методы выявления

3. Обобщенный метод наименьших квадратов для смягчения гетероскедастичности и устранения автокорреляции

Для получения качественных оценок параметров уравнения регрессии необходимо следить за выполнимостью предпосылок МНК. Применяя МНК мы предполагаем, что остатки ε i подчиняются условиям Гаусса-Маркова, данное предположение необходимо проверить, после построения уравнения регрессии.

1. Гетероскедастичность. Тесты на гетероскедастичность

Допущение о постоянстве дисперсии остатков известно какдопущение о гомоскедастичности. Если это допущение нарушено и дисперсия остатков не является постоянной, то говорят, что оценки гетероскедастичны.

На практике, для каждого i-го наблюдения определяется единственное значение ε i , но мы говорим об определении дисперсии остатков, т.е. о множестве ε i для каждого i-го наблюдения. Это объясняется тем, что мы имеем дело с выборочной совокупностью, а априори ε i могли принимать любые значения на основе некоторых вероятностных распределений.

Гетероскедастичность приводит к тому, что коэффициенты регрессии не являются оценками с минимальной дисперсией, следовательно, они больше не являются наиболее эффективными коэффициентами. Вследствие, выводы, получаемые на основе t и F-статистик, а также интервальные оценки будут ненадежными. Дисперсии и, следовательно, стандартные ошибки этих коэффициентов будут смещенными. Если смещение отрицательно, то оценочные стандартные ошибки будут меньше, чем они должны быть, а критерий проверки - больше чем в реальности. Таким образом, можно сделать вывод, что коэффициент значим, когда он таковым не является. И наоборот если смещение положительно, то оценочные ошибки будут больше чем они должны быть, а критерии проверки - меньше. Значит, возможно ошибочное принятие нулевой гипотезы.

Обнаружение гетероскедастичности

Существует несколько формальных тестов, позволяющих обнаружить гетероскедастичность (графический анализ остатков, тест ранговой корреляции Спирмена, тест Парка, тест Голфелда-Квандта, тест Уайта).

Графический анализ остатков

Использование графического представления отклонений позволяет определиться с наличием гетероскедастичности. В этом случае по оси абсцисс откладываются значения x i объясняющей переменной X (либо линейной комбинации объясняющих переменных

а по оси ординат либо отклонения ε i либо их квадраты , i = 1, 2, ..., п . Если все отклонения находятся внутри полуполосы постоянной ширины, параллельной оси абсцисс, это говорит о независимости дисперсий от значений переменной X и их постоянстве, т.е. в этом случае выполняются условия гомоскедастичности. Графический анализ отклонений является удобным и достаточно надежным в случае парной регрессии.

Обычно не ограничиваются визуальной проверкой гетероскедастичности, а проводят ее эмпирическое подтверждение.

При проведении регрессионного анализа, основанного на методе наименьших квадратов, на практике следует обратить серьезное внимание на проблемы, связанные с выполнимостью свойств случайных отклонений моделей. Как мы отмечали ранее, свойства оценок коэффициентов регрессии напрямую зависят от свойств случайного члена в уравнении регрессии. Для получения качественных оценок необходимо следить за выполнимостью предпосылок МНК (условий Гаусса− Маркова), т. к. при их нарушении МНК может давать оценки с плохими статистическими свойствами. При этом существуют другие методы определения более точных оценок. Одной из ключевых предпосылок МНК является условие постоянства дисперсий случайных отклонений (см. параграф 5.1, предпосылка2 0 ):

дисперсия случайных отклонений ε i постоянна. D(ε i )=D(ε j ) =σ 2 для любых наблюдений i и j.

Выполнимость данной предпосылки называется гомоскедастич-

ностью (постоянством дисперсии отклонений). Невыполнимость данной предпосылки называется гетероскедастичностью (непостоянством дисперсий отклонений).

В данной главе мы подробно проанализируем суть гетероскедастичности, ее причины и последствия, а также приведем несколько способов смягчения этих последствий.

8.1. Суть гетероскедастичности

При рассмотрении выборочных данных требование постоянства дисперсии случайных отклонений может вызвать определенное недоумение в силу того, что при каждом i-м наблюдении имеется единственное значениеε i . Откуда же появляется разброс? Дело в том, что при рассмотрении выборочных данных мы имеем дело с конкретными реализациями зависимой переменной yi и соответственно c определенными случайными отклонениямиε i , i = 1, 2, ..., n. Но до осуществления выборки эти показатели априори могли принимать произвольные значения на основе некоторых вероятностных распределений. Одним из требований к этим распределениям является равенство дисперсий. Данное условие подразумевает, что несмотря на то что при каждом конкретном наблюдении случайное отклонение может быть большим либо маленьким, положительным либо отрицательным, не должно быть некой априорной причины, вызывающей большую

ошибку (отклонение) при одних наблюдениях и меньшую − при других.

Однако на практике гетероскедастичность не так уж и редка. Зачастую есть основания считать, что вероятностные распределения случайных отклонений ε i при различных наблюдениях будут различными. Это не означает, что случайные отклонения обязательно будут большими при определенных наблюдениях и малыми− при других, но это означает, что априорная вероятность этого велика. Поэтому важно понимать суть этого явления и его последствия.

На рис. 8.1 приведены два примера линейной регрессии − зависимости потребления С от дохода I: C =β 0 +β 1 I +ε .

В обоих случаях с ростом дохода растет среднее значение потребления. Но если на рис. 8.1, а дисперсия потребления остается одной и той же для различных уровней дохода, то на рис. 8.1,б при аналогичной зависимости среднего потребления от дохода дисперсия потребления не остается постоянной, а увеличивается с ростом дохода. Фактически это означает, что во втором случае субъекты с большим доходом в среднем потребляют больше, чем субъекты с меньшим доходом, и, кроме того, разброс в их потреблении более существенен для большего уровня дохода. Фактически люди с большими доходами имеют больший простор для распределения своего дохода. Реалистичность данной ситуации не вызывает сомнений. Разброс значений потребления вызывает разброс точек наблюдения относительно линии регрессии, что и определяет дисперсию случайных отклонений. Динамика изменения дисперсий (распределений) отклонений для данного примера проиллюстрирована на рис. 8.2. При гомоскедастичности

(рис. 8.2, а ) дисперсииε i постоянны, а при гетероскедастичности (рис. 8.2,б ) дисперсииε i изменяются (в нашем примере− увеличиваются).

а − гомоскедастичность

б − гетероскедастичность

Проблема гетероскедастичности в большей степени характерна для перекрестных данных и довольно редко встречается при рассмотрении временных рядов. Это можно объяснить следующим образом. При перекрестных данных учитываются экономические субъекты (потребители, домохозяйства, фирмы, отрасли, страны и т. п.), имеющие различные доходы, размеры, потребности и т. д. Но в этом случае возможны проблемы, связанные с эффектом масштаба. Во временных рядах обычно рассматриваются одни и те же показатели в различные моменты времени (например, ВНП, чистый экспорт, темпы инфляции

и т. д. в определенном регионе за определенный период времени). Однако при увеличении (уменьшении) рассматриваемых показателей с течением времени может возникнуть проблема гетероскедастичности.

8.2. Последствия гетероскедастичности

Как отмечалось в разделе 5.1, при рассмотрении классической линейной регрессионной модели МНК дает наилучшие линейные несмещенные оценки (BLUE-оценки) лишь при выполнении ряда предпосылок, одной из которых является постоянство дисперсии отклонений (гомоскедастичность):σ 2 (ε i ) =σ 2 для всех наблюдений i, i = 1, 2, …, n.

При невыполнимости данной предпосылки (при гетероскедастичности) последствия применения МНК будут следующими.

1. Оценки коэффициентов по-прежнему остаются несмещенными и линейными.

2. Оценки не будут эффективными (т. е. они не будут иметь наименьшую дисперсию по сравнению с другими оценками данного параметра). Они не будут даже асимптотически эффективными. Увеличение дисперсии оценок снижает вероятность получения максимально точных оценок.

3. Дисперсии оценок будут рассчитываться со смещением. Смещенность появляется вследствие того, что необъясненная уравнением

менных), которая используется при вычислении оценок дисперсий всех коэффициентов (см. параграф 6.2, (6.23)), не является более несмещенной.

4. Вследствие вышесказанного все выводы, получаемые на основе соответствующих t- и F-статистик, а также интервальные оценки будут ненадежными. Следовательно, статистические выводы, получаемые при стандартных проверках качества оценок, могут быть ошибочными и приводить к неверным заключениям по построенной модели. Вполне вероятно, что стандартные ошибки коэффициентов будут занижены, а следовательно, t-статистики будут завышены. Это может привести к признанию статистически значимыми коэффициентов, таковыми на самом деле не являющимися.

Причину неэффективности оценок МНК при гетероскедастичности легко пояснить следующим примером парной регрессии.

Из рис. 8.3 видно, что для каждого конкретного значения хi СВ Х переменная Y принимает значение уi из некоторого множества, имеющего свое распределение, отличное одно от другого в силу непостоянства дисперсий (сравните распределения для значений у1 и уn ).

По МНК минимизируется сумма квадратов отклонений

∑e i 2 = ∑(y i −b 0 −b 1 x i ) 2 .

Но в этом случае каждое конкретное значение ei 2 в данной сумме имеет одинаковый “вес” вне зависимости от того, получено оно из распределения с маленькой дисперсией (например, e1 2 ) или с большой (например, e2 n ). Но это противоречит логике, т. к. точка, полученная

из распределения с меньшей дисперсией, более точно определяет направление линии регрессии. Поэтому она должна иметь больший “вес”, чем точка из распределения с большей дисперсией. Следовательно, методы оценивания, учитывающие “веса” точек наблюдений, позволяют получать более точные (эффективные) оценки. Учет “весов” точек характерен, например, для метода взвешенных наименьших квадратов, рассмотренного ниже.

8.3. Обнаружение гетероскедастичности

В ряде случаев на базе знаний характера данных появление проблемы гетероскедастичности можно предвидеть и попытаться устранить этот недостаток еще на этапе спецификации. Однако значительно чаще эту проблему приходится решать после построения уравнения регрессии.

Обнаружение гетероскедастичности в каждом конкретном случае является довольно сложной задачей, т. к. для знания дисперсий отклонений σ 2 (еi ) необходимо знать распределение СВ Y, соответствующее выбранному значению хi СВ Х. На практике зачастую для каждого конкретного значения хi определяется единственное значение уi , что не позволяет оценить дисперсию СВ Y для данного хi .

Естественно, не существует какого-либо однозначного метода определения гетероскедастичности. Однако к настоящему времени для такой проверки разработано довольно большое число тестов и критериев для них. Рассмотрим наиболее популярные и наглядные: графический анализ отклонений, тест ранговой корреляции Спирмена, тест Парка, тест Глейзера, тест Голдфелда− Квандта.

8.3.1. Графический анализ остатков

Использование графического представления отклонений позволяет определиться с наличием гетероскедастичности. В этом случае по оси абсцисс откладывается объясняющая переменная Х (либо линейная комбинация объясняющих переменных Y = b0 + b1 X1 + ... +

Bm Xm ), а по оси ординат либо отклонения еi , либо их квадраты ei 2 . Примеры таких графиков приведены на рис. 8.4.

ei 2

ei 2

ei 2

ei 2

ei 2

На рис. 8.4, а все отклонения ei 2 находятся внутри полуполосы постоянной ширины, параллельной оси абсцисс. Это говорит о независимости дисперсий ei 2 от значений переменной Х и их постоянстве, т.е. в этом случае мы находимся в условиях гомоскедастичности.

На рис. 8.4, б − г наблюдаются некие систематические изменения в соотношениях между значениями xi переменной Х и квадратами от-

клонений ei 2 . Рис. 8.4,б соответствует примеру из параграфа 8.1. На

рис. 8.4, в отражена линейная; 8.4,г − квадратичная; 8.4,д − гиперболическая зависимости между квадратами отклонений и значениями объясняющей переменной Х. Другими словами, ситуации, представленные на рис. 8.4,б − д , отражают большую вероятность наличия гетероскедастичности для рассматриваемых статистических данных.

Отметим, что графический анализ отклонений является удобным и достаточно надежным в случае парной регрессии. При множественной регрессии графический анализ возможен для каждой из объясняющих переменных Хj , j = 1, 2, …, m отдельно. Чаще же вместо объясняющих переменных Хj по оси абсцисс откладывают значения yi ,

получаемые из эмпирического уравнения регрессии. Поскольку по уравнению множественной линейной регрессии yi является линейной

комбинацией хij , j = 1, 2, … , m, то график, отражающий зависимость ei 2 от yi , может указать на наличие гетероскедастичности аналогично

ситуациям на рис. 8.4, б − д . Такой анализ наиболее целесообразен при большом количестве объясняющих переменных.

8.3.2. Тест ранговой корреляции Спирмена

При использовании данного теста предполагается, что дисперсия отклонения будет либо увеличиваться, либо уменьшаться с увеличением значения Х. Поэтому для регрессии, построенной по МНК, абсолютные величины отклонений еi и значения хi СВ Х будут коррелированы. Значения хi и еi ранжируются (упорядочиваются по величинам). Затем определяется коэффициент ранговой корреляции:

r x,e= 1 − 6

∑d i 2

n(n2

− 1)

где di − разность между рангами хi и ei , i = 1, 2, … , n; n− число наблюдений.

Например, если х20 является 25-м по величине среди всех наблюдений Х; а е20 − является 32-м, то di = 25− 32=− 7.

Доказано, что если коэффициент корреляции ρ х,е для генеральной совокупности равен нулю, то статистика

rx,e n− 2

1 − r2

имеет распределение Стьюдента с числом степеней свободы ν = n− 2. Следовательно, если наблюдаемое значение t-статистики, вычисленное по формуле (8.2), превышает tкр. = tα ,n − 2 (определяемое по таблице критических точек распределения Стьюдента), то необходимо отклонить гипотезу о равенстве нулю коэффициента корреляцииρ х,е , а следовательно, и об отсутствии гетероскедастичности. В противном

случае гипотеза об отсутствии гетероскедастичности принимается. Если в модели регрессии больше чем одна объясняющая пере-

менная, то проверка гипотезы может осуществляться с помощью t- статистики для каждой из них отдельно.

8.3.3. Тест Парка

Р. Парк предложил критерий определения гетероскедастичности, дополняющий графический метод некоторыми формальными зависимостями. Предполагается, что дисперсия σ i 2 =σ 2 (ei ) является функцией i-го значения хi объясняющей переменной. Парк предложил следующую функциональную зависимость

Так как дисперсии уi 2 обычно неизвестны, то их заменяют оценками квадратов отклонений ei 2 .

Критерий Парка включает следующие этапы:

Строится уравнение регрессии yi = b0 + b1 xi + еi .

Для каждого наблюдения определяются lnei 2

Ln(yi − yi )2 .

Строится регрессия

ln ei 2 =α +β lnxi + vi ,

где α = lnσ 2 .

В случае множественной регрессии зависимость (8.5) строится для каждой объясняющей переменной.

4. Проверяется статистическая значимость коэффициента β уравнения

(8.5) на основе t-статистики t =в . Если коэффициентβ статисти- Sв

чески значим, то это означает наличие связи между lnei 2 и lnxi , т. е. гетероскедастичности в статистических данных.

Отметим, что использование в критерии Парка конкретной функциональной зависимости (8.5) может привести к необоснованным выводам (например, коэффициент β статистически незначим, а гетероскедастичность имеет место). Возможна еще одна проблема. Для случайного отклонения vi в свою очередь может иметь место гетероскедастичность. Поэтому критерий Парка дополняется другими тестами.

8.3.4. Тест Глейзера

Тест Глейзера по своей сути аналогичен тесту Парка и дополняет его анализом других (возможно, более подходящих) зависимостей между дисперсиями отклонений σ i и значениями переменной хi . По данному методу оценивается регрессионная зависимость модулей отклонений ei (тесно связанных сσ i 2 ) от хi . При этом рассматриваемая зависимость моделируется следующим уравнением регрессии:

| ei | =α +β хi k + vi .

Изменяя значения k, можно построить различные регрессии. Обычно k = …, − 1,− 0.5, 0.5, 1, … Статистическая значимость коэффициентаβ в каждом конкретном случае фактически означает наличие гетероскедастичности. Если для нескольких регрессий (8.6) коэффициентβ оказывается статистически значимым, то при определении характера зависимости обычно ориентируются на лучшую из них.

Отметим, что так же, как и в тесте Парка, в тесте Глейзера для отклонений vi может нарушаться условие гомоскедастичности. Однако во многих случаях предложенные модели являются достаточно хорошими для определения гетероскедастичности.

8.3.5. Тест Голдфелда − Квандта

В данном случае также предполагается, что стандартное отклонение σ i =σ (ε i ) пропорционально значению хi переменной Х в этом

наблюдении, т. е. уi 2 = у2 xi 2 . Предполагается, чтоε i имеет нормальное распределение и отсутствует автокорреляция остатков.

Тест Голдфелда− Квандта состоит в следующем:

1. Все n наблюдений упорядочиваются по величине Х.

2. Вся упорядоченная выборка после этого разбивается на три подвыборки размерностей k, (n − 2k), k соответственно.

3. Оцениваются отдельные регрессии для первой подвыборки (k первых наблюдений) и для третьей подвыборки (k последних наблюдений). Если предположение о пропорциональности дисперсий от-

клонений значениям Х верно, то дисперсия регрессии (сумма квад-

ратов отклонений S1 = ∑ ei 2 ) по первой подвыборке будет сущест-

венно меньше дисперсии регрессии (суммы квадратов отклонений

S3 = ∑ ei 2 ) по третьей подвыборке.

i= n-k

4. Для сравнения соответствующих дисперсий строится следующая F-статистика:

S3 /(k− m− 1)

S 3 .

S /(k − m− 1)

Здесь (k − m− 1)− число степеней свободы соответствующих выборочных дисперсий (m− количество объясняющих переменных в уравнении регрессии).

При сделанных предположениях относительно случайных отклонений построенная F-статистика имеет распределение Фишера с числами степеней свободыν 1 =ν 2 = k− m− 1.

5. Если Fнабл. =

> Fкр. = F

То гипотеза об отсутствии гетероскеда-

стичности отклоняется (здесь α − выбранный уровень значимости).

Естественным является вопрос, какими должны быть размеры подвыборок для принятия обоснованных решений. Для парной регрессии Голфелд и Квандт предлагают следующие пропорции: n = 30, k = 11; n = 60, k = 22.

Для множественной регрессии данный тест обычно проводится для той объясняющей переменной, которая в наибольшей степени связана с σ i . При этом k должно быть больше, чем (m + 1). Если нет уверенности относительно выбора переменной Xj , то данный тест может осуществляться для каждой из объясняющих переменных.

Этот же тест может быть использован при предположении об обратной пропорциональности между σ i и значениями объясняющей переменной. При этом статистика Фишера примет вид: F = S1 /S3 .

8.4. Методы смягчения проблемы гетероскедастичности

Как отмечалось в разделе 8.2, гетероскедастичность приводит к неэффективности оценок, несмотря на их несмещенность. Это может привести к необоснованным выводам по качеству модели. Поэтому при установлении гетероскедастичности возникает необходимость преобразования модели с целью устранения данного недостатка. Вид преобразования зависит от того, известны или нет дисперсии σ i 2 отклоненийε i .

8.4.1. Метод взвешенных наименьших квадратов (ВНК)

Данный метод применяется при известных для каждого наблюдения значениях σ i 2 . В этом случае можно устранить гетероскедастичность, разделив каждое наблюдаемое значение на соответствующее ему значение дисперсии. В этом суть метода взвешенных наименьших квадратов.

Для простоты изложения опишем ВНК на примере парной ре-

yi =β 0 +β 1 xi +ε i .

Разделим обе части (9.7) на известное σ i

уi 2

В 0

В 1

x i +

Уi * ,

xi * ,

Zi , получим уравнение

регрессии без свободного члена, но с дополнительной объясняющей переменной Z и с “преобразованным” отклонением v:

уi * =β 0 zi +β 1 xi * + vi .

При этом для vi выполняется условие гомоскедастичности. Действительно,

уi 2 (vi )= M(vi − M(vi ))2 = M(vi 2 )− M2 (vi ) .

Так как по предпосылке 1 0 МНК M(ei ) = 0, то M(vi )=

M(ei )= 0, и

уi 2

тогда уi 2 (vi )= M(vi 2 )=

ei 2

M(ei 2 )=

M(ei − M(ei ))2 =

уi 2 = 1= const.

уi 2

уi 2

уi 2

уi 2

Следовательно, для преобразованной модели (8.10) выполняются предпосылки 1 0 − 5 0 МНК. В этом случае оценки, полученные по МНК, будут наилучшими линейными несмещенными оценками.

Таким образом, метод взвешенных наименьших квадратов включает следующие этапы:

1. Каждую из пар наблюдений (х i , уi ) делят на известную величинуσ i . Тем самым наблюдениям с наименьшими дисперсиями придаются наибольшие “веса”, а с максимальными дисперсиями− наименьшие “веса”. Действительно, наблюдения с меньшими дисперсиями отклонений будут более значимыми при оценке коэффициентов регрессии, чем наблюдения с большими дисперсиями. Учет этого факта увеличивает вероятность получения более точных оценок.

1 2. По МНК для преобразованных значений

I ,i строится

у i у i

уравнение регрессии без свободного члена с гарантированными качествами оценок.

8.4.2. Дисперсии отклонений не известны

Для применения ВНК необходимо знать фактические значения дисперсий уi 2 отклонений. На практике такие значения известны крайне редко. Следовательно, чтобы применить ВНК, необходимо сделать реалистические предположения о значениях уi 2 .

Например, может оказаться целесообразным предположить, что дисперсии уi 2 отклоненийε i пропорциональны значениям хi (рис.8.5,а ) или значениям хi 2 (рис. 8.5,б ).

уi 2

уi 2

1. Дисперсии σ i 2 пропорциональны хi (рис. 8.5, а).

уi 2 =σ 2 хi (σ 2 − коэффициент пропорциональности).

Тогда уравнение (8.9) преобразуется делением его левой и правой частей на x i :

y i= a

1 +b x i +v i .

Несложно показать, что для случайных отклонений vi =

няется условие гомоскедастичности. Следовательно, для регрессии (8.11) применим обычный МНК. Действительно, в силу выполнимо-

сти предпосылки уi 2 =σ 2 (ε i ) =σ 2 хi имеем:

у2 (vi )= у2 (

1 у2 (еi )=

1 у2 xi = у2 = const.

Таким образом, оценив для (8.11) по МНК коэффициенты β 0 иβ 1 , затем возвращаются к исходному уравнению регрессии (8.8).

Если в уравнении регрессии присутствует несколько объясняющих переменных, можно поступить следующим образом. Вместо кон-

кретной объясняющей переменной Xj используетсяY исходного уравнения множественной линейной регрессии Y = b0 + b1 X1 + ... + bm Xm ,

т. е. фактически линейная комбинация объясняющих переменных. В этом случае получают следующую регрессию:

В 0

В 1

Иногда из всех объясняющих переменных выбирается наиболее подходящая, исходя из графического представления (рис. 8.4).

2. Дисперсия σ i 2 пропорциональна хi 2 (рис. 8.4, б).

В случае, если зависимость σ i 2 от хi целесообразнее выразить не линейной функцией, а квадратичной, то соответствующим преобразованием будет деление уравнения регрессии (8.8) на хi :

В 0

В 1 +

В 0

В1 + vi

Где vi =

По аналогии с вышеизложенным несложно показать, что для отклонений vi будет выполняться условие гомоскедастичности. После определения по МНК оценок коэффициентовβ 0 иβ 1 для уравнения (8.13) возвращаются к исходному уравнению (8.8).

Отметим, что для применения описанных выше преобразований существенную роль играют знания об истинных значениях дисперсий отклонений σ i 2 , либо предположения, какими эти дисперсии могут быть. Во многих случаях дисперсии отклонений зависят не от включенных в уравнение регрессии объясняющих переменных, а от тех, которые не включены в модель, но играют существенную роль в исследуемой зависимости. В этом случае они должны быть включены в модель. В ряде случаев для устранения гетероскедастичности необходимо изменить спецификацию модели (например, линейную на логлинейную, мультипликативную на аддитивную и т. п.).

В заключение отметим, что наличие гетероскедастичности не позволяет получить эффективные оценки, что зачастую приводит к необоснованным выводам по их качеству. Обнаружение гетероскедастичности - достаточно трудоемкая проблема и для ее решения разработано несколько методов (тестов). В случае установления наличия гетероскедастичности ее корректировка также представляет довольно серьезную проблему. Одним из возможных решений является метод взвешенных наименьших квадратов (при этом необходима определенная информация либо обоснованные предположения о величинах дисперсий отклонений). На практике имеет смысл попробовать несколько методов определения гетероскедастичности и способов ее корректировки (преобразований, стабилизирующих дисперсию).

Вопросы для самопроверки

1. В чем суть гетероскедастичности?

2. Какое из следующих утверждений верно, ложно или не определено:

а) вследствие гетероскедастичности оценки перестают быть эффективными и состоятельными; б) оценки и дисперсии оценок остаются несмещенными;

в) выводы по t- и F-статистикам являются ненадежными;

г) при наличии гетероскедастичности стандартные ошибки оценок будут заниженными; д) гетероскедастичность проявляется через низкое значение статистики Дар-

бина− Уотсона DW;

е) не существует общего теста для анализа гетероскедастичности;

ж) тест ранговой корреляции Спирмена основан на использовании t- статистики; з) тест Парка является частным случаем теста Глейзера;

и) использование метода взвешенных наименьших квадратов носит ограниченный характер, т. к. для его использования необходимо знать дисперсии отклонений;

к) если в парной регрессии дисперсия случайных отклонений пропорциональна величине объясняющей переменной (х), то для получения эффективных оценок необходимо все наблюдаемые значения поделить на х.

3. Приведите аргументы в пользу графического теста, теста Парка и теста Глейзера.

4. Приведите схему теста Голдфелда − Квандта.

5. В чем суть метода взвешенных наименьших квадратов (ВНК)?

6. Объясните кратко, почему при наличии гетероскедастичности ВНК позволяет получить более эффективные оценки, чем обычный МНК.

Упражнения и задачи

1. Пусть зависимость заработной платы (Y) от стажа работы (X) сотрудника выражена следующим уравнением регрессии:

Y = β 0 +β 1 X +γ D +ε ,

где D − фиктивная переменная, отражающая пол сотрудника. Как можно проверить предположение о том, что пол сотрудника не влияет на дисперсию случайных отклоненийε i ?

2. Приведены данные в условных единицах по доходам (Х) и расходам на непродовольственные товары (Y) для тридцати домохозяйств:

а) Определите по МНК оценки парного уравнения регрессии yi = b0 + b1 xi + ei . б) Оцените качество построенного уравнения.

в) Проведите графический анализ остатков.

г) Примените для указанных статистических данных ВНК предположение,

что σ 2 (ei ) =σ 2 xi 2 .

д) Примените к полученным в п. а) результатам тест ранговой корреляции Спирмена и тест Парка.

е) Определите, существенно ли повлияла гетероскедастичность на качество оценок в уравнении, построенном по МНК.

Для предприятий некоторой отрасли анализируют зависимость заработной

платы (Y) сотрудников в зависимости от масштаба (от количества сотрудни-

ков) предприятия (Х). Наблюдения по тридцати случайно отобранным пред-

приятиям представлены следующей таблицей:

а) Постройте уравнение регрессии Y на Х и оцените его качество.

б) Можно ли ожидать наличие гетероскедастичности в данном случае. Ответ поясните.

в) Проверьте наличие гетероскедастичности, используя тест Голдфелда− Квандта. Рекомендуется использовать разбиение, при котором k = 12.

г) Если предположить, что гетероскедастичность имеет место, и дисперсии отклонений пропорциональны значениям Х, то какое преобразование вы предложите, чтобы получить несмещенные, эффективные и состоятельные оценки.

д) Постройте новое уравнение регрессии на основе преобразования, осуществленного в предыдущем пункте, и оцените его качество.

е) Сравните результаты, полученные в пунктах а) и д).

4. Пусть для эмпирического уравнения парной регрессии Y = b0 + b1 X + e име-

ет место следующее соотношение M(ei 2 ) =σ 2 xi . Какое преобразование можно предложить, чтобы устранить проблему гетероскедастичности. Опишите поэтапно предложенную схему.

5. Пусть для регрессии Y = b0 + b1 X1 + b2 X2 + e, оцениваемой по ежегодным данным (1971− 1998), получены следующие результаты: сумма квадратов от-

клонений для данных 1971− 1980 гг. равна S1 =∑ ei 2 = 15, для данных 1981−

1998 гг. эта сумма равна S2 =∑ ei 2 = 50. С помощью теста Голдфелда− Квандта проверьте предположение о том, что дисперсия отклонений не постоянна (в частности, что дисперсия претерпела изменение где-то в 1981 г.).

6. Анализируется объем инвестиций для вымышленной страны. По данным с 1961 по 1990 г. построены два уравнения регрессии:

i t=

52.5 + 0.275gnpt

− 0.63ct ,

R2 = 0.98.

(t) = (12.5) (10.2)

0.27 −

gnpt

gnpt

gnpt − значения соответствующих показателей в момент времени t.

а) Что могло послужить причиной преобразования первого уравнения во второе?

б) Если причиной преобразования являлась гетероскедастичность, то какое предположение о дисперсии отклонений являлось основанием для данного преобразования?

в) Можно ли сравнить качества обоих уравнений на основе коэффициентов детерминации? Ответ поясните.

г) Должно ли преобразованное уравнение проходить через начало координат?

7. Выдвигается предположение, что средняя заработная плата наемных рабочих пропорциональна их стажу. Для анализа данного утверждения обследуются по 20 рабочих восьми категорий стажа. Получены следующие статистические данные:

[ 0, 5)[ 5, 10)[ 10, 15)[ 15, 20)[ 20, 25)[ 25, 30)[ 30, 35)[ 35, 40]

10000 12500 14300 18700 25400 29000 32000 34300

а) Постройте эмпирическое уравнение регрессии, в котором заработная плата является зависимой переменной, а стаж работы − объясняющей переменной (уравнение строится в предположение, что дисперсии отклонений постоянны).

г) Предполагая, что дисперсия отклонений пропорциональна трудовому стажу, постройте на основании тех же данных уравнение по методу взвешенных наименьших квадратов (ВНК).

д) Предполагая, что дисперсия отклонений пропорциональна квадрату величины трудового стажа, постройте по ВНК соответствующее уравнение регрессии.

е) Какое из трех предположений относительно дисперсии отклонений наиболее реалистично с вашей точки зрения?

8. Исследуется зависимость между доходом (Х) домохозяйства и его расходом

(Y) на продукты питания. Выборочные данные по 40 домохозяйствам представлены ниже.

Х 75.8 76.9 79.2 81.5 82.4 82.8 83.0 85.9 86.4 86.9 88.3 89.0

Y 26.1 20.0 19.8 21.2 29.0 17.3 23.5 22.0 18.3 13.7 14.5 27.3

а) Постройте эмпирическое уравнение регрессии Y на Х. б) Вычислите отклонения ei .

в) Проведите анализ модели на гетероскедастичность по тесту ранговой корреляции Спирмена.

г) Проведите графический анализ отклонений и выдвиньте предположение о зависимости дисперсии отклонений от значений Х.

д) На основании предыдущего пункта постройте новое уравнение регрессии, используя для этого ВНК.

9. Проводится анализ зависимости средней заработной платы от средней производительности на предприятиях различного масштаба. Проведенное обследование нашло отражение в следующей таблице.

Количество сотрудников

Стандартное

предприятия,

производительность,

отклонение з/п,

σ i ($)

− 4

− 9

− 19

− 49

− 99

− 199

− 499

− 999

− 1999

− 4999

в) Сравните полученные результаты. Какое из уравнений вы предпочтете и почему?

Постоянство дисперсии случайных остатков называют гомоскедастичностью случайных остатков. Напротив, если эта дисперсия не постоянна, то такое явление называют гетероскедастичностью случайных остатков.

Проверка выполнения требования гомоскедастичности случайных остатков может быть произведена визуально, на основе графика остатков, или с помощью специальных критериев.

Для проведения визуального анализа необходимо построить график зависимости величин случайных остатков от выровненного значения результирующей переменной. В случае гомоскедастичности "облако" случайных остатков находится в области, параллельной оси абсцисс (рис. 2.2, а). Все прочие случаи соответствуют гетероскедастичности случайных остатков (например, как на рис. 2.2, б). Аналогичные графики можно построить также для зависимости случайных остатков от значений конкретных независимых переменных, входящих в регрессию.

К тестам, позволяющим выявить наличие гетероскедастичности случайных остатков, относят тесты Гольдфельда – Квандта, Парка, Глейзера, Уайта, Бреуша – Пагана, ранговой корреляции Спирмена и т.д.

Тест Гольдфельда Квандта применяется, если случайные остатки предполагаются нормально распределенными величинами и объем наблюдений достаточно большой. Процедура проверки следующая.

  • 1. Все наблюдения упорядочивают по мере возрастания какой-либо независимой переменной, которая, как предполагается, оказывает влияние на изменение дисперсии случайных остатков.
  • 2. Упорядоченную совокупность делят на три группы, причем первая и последняя должны быть равного объема, с числом наблюдений, больших, чем число параметров модели регрессии. Пусть в первую и третью группы отобрано по к наблюдений.
  • 3. По первой и третьей группам находят параметры уравнений регрессии той же структуры, что и исходное уравнение регрессии, и остаточные суммы квадратов по каждой модели.
  • 4. Используя данные об остаточных суммах квадратов моделей первой и третьей групп, рассчитывают фактическое значение F-критерия Фишера по формуле

Рис. 2.2.

а – нет зависимости (гомоскедастичность); б – дисперсия остатков увеличивается с увеличением выровненного значения результата (один из случаев гетероскедастичности)

где – большая остаточная сумма квадратов; – меньшая остаточная сумма квадратов.

5. Сравнивают фактическое значение F-критерия с табличным, найденным для df l=df 2 = k-m- 1 степеней свободы. Если F-фактическое больше табличного, то гипотеза об отсутствии гетероскедастичности отклоняется.

Тесты Парка, Глейзера, Уайта и Бреуша – Пагана основываются на предположении, чт.д.сперсия случайных остатков представляет собой определенную функцию от некоторой независимой переменной (или переменных). Перед применением этих тестов по уравнению регрессии необходимо рассчитать случайные остатки е,.

Для теста Парка строят зависимость вида

(2.72)

где Χμ – і-e значение j-й независимой переменной, оказывающей влияние на дисперсию остатков; vf – случайный остаток.

По тесту Глейзера находят параметры целой серии уравнений, задаваемых функцией

(2.73)

где к – какое-либо число, например к – -1; -0,5; 0,5; 1 и т.п.

Тест Уайта заключается в построении квадратичной функции, включающей все независимые переменные, входящие в исходную модель, а также их попарные произведения. Включение попарных произведений независимых переменных является необязательным, их можно опустить. Для случая с двумя переменными эта функция будет иметь вид

где α, γ – неизвестные параметры.

Тест Бреуша Пагана предполагает исследование влияния на дисперсию остатков нескольких независимых переменных, которые включают в регрессию вида

где – i-е значения_/-й, (j + 1)-й,...(/ + к)-й независимых переменных, оказывающих влияние на дисперсию остатков; – оценка дисперсии случайных остатков, рассчитанная по формуле

Остатки считаются гетероскедастичными, если параметр а. в функциях по тесту Парка (2.72) или тесту Глейзера (2.73) значим (для теста Глейзера – хотя бы при одном значении к). При проверке по тесту Уайта говорят, что остатки гетероскедастичны, если вся функция (2.74) значима noF-критерию Фишера.

Проверка гетероскедастичности по тесту Бреуша – Пагана заключается в расчете по функции (2.75) факторной суммы квадратов

которое сравнивается с табличным (число степеней свободы равно df = к + 1, т.е. числу независимых переменных в модели (2.75); уровень значимости равен а. Нулевая гипотеза о гомоскедастичности случайных остатков отвергается, если

Тест ранговой корреляции Спирмена, так же как и ранее рассмотренные тесты, основывается на предположении о зависимости (прямой или обратной) величины дисперсии случайных остатков от значений какой-либо независимой переменной. Для проведения проверки по этому тесту значения случайных остатков, взятые по модулю, и значения этой переменной ранжируют (например, по возрастанию), а затем находят коэффициент корреляции рангов Спирмена

где dj – разность между рангами і-го случайного остатка и і-го значения независимой переменной.

Полученное значение коэффициента корреляции проверяют на значимость, рассчитывая фактическое значение t-критерия Стьюдента (2.76) и сравнивая его с табличным значением при числе степеней свободы df=n- 2.

Если фактическое значение критерия больше табличного, то гипотеза о гомоскедастичности остатков отклоняется.

Проверим на гетероскедастичность модель регрессии из нашего примера:

Рассчитаем случайные остатки е для этой модели (табл. 2.5).

Таблица 2.5. Расчет случайных остатков для модели регрессии поступления налогов от количества занятых, объема отгрузки в обрабатывающих производствах и производства энергии

График зависимости случайных остатков от выровненного значения зависимой переменной имеет вид, представленный на рис. 2.3. Можно отметить определенное увеличение разброса точек в центральной части графика и уменьшение разброса для последних нескольких точек. Такая картина может свидетельствовать о наличии гетероскедастичности остатков.

Применим для анализа дисперсии остатков рассмотренные выше тесты. Так как большинство тестов основано на гипотезе, что известна переменная, вызывающая гетероскедастичность остатков, обратимся сначала к тесту Уайта, в котором рассматриваются все независимые переменные, входящие в модель регрессии.

Используем короткую форму теста Уайта, без включения попарных произведений независимых переменных. Получим следующий результат:

Рис. 2.3.

Табличное значение F-критерия равно 2,33 (а = 0,05; d/j = = 6; d/2 = 41). Таким образом, по тесту Уайта нет оснований отвергнуть нулевую гипотезу о гомоскедастичности остатков. Отметим также, что все параметры незначимы, но наибольшее значение ί-критерия (и достаточно близкое к табличному) имеют параметры при переменной х3 (табличное значение t-критерия составило 2,02 (а = 0,05; d/ = 41)). Таким образом, переменная х3 может быть рассмотрена в других тестах как возможная причина гетероскедастичности.

Тест Бреуша – Пагана позволяет рассматривать различные комбинации переменных в качестве объясняющих гетероскедастичность остатков. Уравнение теста, включающее в себя все три независимые переменные, будет иметь вид

Табличное значение критерия χ2 равно 7,82 (а = 0,05; df = = 3), таким образом, нет оснований отвергнуть нулевую гипотезу о гомоскедастичности случайных остатков. Руководствуясь предположениями, сделанными в ходе анализа теста Уайта, проведем тест Бреуша – Пагана применительно только к переменной х3. Получим следующие результаты:

Табличное значение критерия χ2 в данном случае равно 3,84 = 0,05; df= 1), таким образом, мы отвергаем нулевую гипотезу о гомоскедастичности случайных остатков. Остатки гетероскедастичны по переменной х3. Анализ по тесту Бреуша – Пагана при необходимости можно продолжить, исследуя влияние на дисперсию случайных остатков других независимых переменных. Опираясь на выявленное влияние на дисперсию остатков переменной х3, проверим эту связь с помощью других тестов.

Использование критерия Гольдфельда – Квандта предполагает упорядочивание данных, в нашем случае по переменной х3.

Общий объем наблюдений составляет 48 регионов, т.е. их можно разделить на три равные группы по 16 наблюдений в каждой или по 18 наблюдений в первой и третьей группах и 12 наблюдений во второй. Так как критерий Гольдфельда – Квандта предполагает построение уравнений регрессии той же структуры, что и исходное уравнение, остановимся на втором варианте деления совокупности как обеспечивающим большую достоверность регрессионного анализа (18 наблюдений на три коэффициента регрессии, т.е. по шесть наблюдений на каждый коэффициент).

Для первой и третьей совокупностей наблюдений найдем параметры уравнений множественной регрессии вида и рассчитаем случайные остатки по каждому из них. Получим следующие результаты.

Первая группа (минимальные значения х3):

Третья группа (максимальные значения х3):

Разделим большую остаточную сумму квадратов (по третьей группе) на меньшую (по первой группе): = 18,58. Табличное значение F-критерия равно 2,48 при df t = df 2= = 18 – 4 = 14 степенях свободы и уровне значимости 0,05. Следовательно, дисперсия остатков зависит от величины значений переменной х3, гипотеза о гомоскедастичности остатков отвергается.

Расчеты по тестам Парка и Глейзера по переменной х3 приводят к следующим результатам.

Тест Парка:

Тест Глейзера:

Табличное значение критерия Стьюдента равно 2,0129 (а = 0,05; df = 46). Таким образом, по тесту Глейзера при k = 1 и 0,5 гипотеза о гомоскедастичности остатков отвергается, по тесту Парка – нет оснований отвергнуть нулевую гипотезу.

Оценка гетероскедастичности остатков по переменной х3 с использованием коэффициента ранговой корреляции Спирмена привела к следующему результату:

То есть коэффициент ранговой корреляции незначим (табличное значение критерия Стьюдента, так же как в тестах Глейзера и Парка, равно 2,0129), нет оснований отвергнуть нулевую гипотезу о гомоскедастичности остатков.

Подводя итоги выявления гетероскедастичности в нашем примере, отметим, что по ряду тестов (Бреуша – Пагана, Гольдфельда – Квандта, Глейзера) гипотеза о гомоскедастичности остатков была отвергнута, т.е. можно утверждать, что на дисперсию случайных остатков оказывает влияние переменная х3. То, что гетероскедастичность была выявлена не во всех тестах, связано с тем, что разные тесты опираются на разные предпосылки о форме связи величины случайных остатков и независимой переменной. Исследование по тесту Глейзера показывает, что эта форма может быть описана выражением σ ε = Дх3), где / – линейная функция.

Причинами гетероскедастичности случайных остатков могут быть неверная функциональная форма уравнения регрессии (неверная спецификация модели), неоднородность исследуемой совокупности. Соответственно способами устранения гетероскедастичности являются построение модели иной функциональной формы и(или) разбиение совокупности на однородные группы. Если по каким-то причинам это сделать невозможно или нежелательно, т.д.я нахождения параметров уравнения регрессии можно воспользоваться обобщенным методом наименьших квадратов.