Методы определения гетероскедастичности. Обнаружение гетероскедастичности

Одним из условий Гаусса-Маркова является предположение о постоянстве дисперсии случайного члена :
для любого

Невыполнимость этого предположения называется гетероскедастичностью (непостоянством, неоднородностью дисперсии отклонений)

Обнаружение гетероскедастичности

В ряде случаев на базе знаний характера данных появление проблемы гетероскедастичности можно предвидеть и попытаться устранить этот недостаток еще на этапе спецификации.Однако значительно чаще эту проблему приходится решать после построения уравнения регрессии.

Обнаружение гетероскедастичности в каждом конкретном случае является довольно сложной задачей,т.к.для знания дисперсий отклонений σ 2 ()необходимо знать распределение случайной величины (СВ) Y,соответствующее выбранному значению СВ Х. В выборкедля каждого конкретного значения определяется единственное значение,что не позволяет оценить дисперсию СВYдля данного.

Не существует какого-либо однозначного метода определения гетероскедастичности.Однако к настоящему времени для выявлениягетероскедастичности разработано довольно большое число тестов и критериев:графический анализ отклонений,тест Голдфелда−Квандта (Goldfeld,Quandt, 1956),тест ранговой корреляции Спирмена,тест Парка,тест Глейзера и т.д. Рассмотрим некоторые из этих методов.

Графический анализ остатков

Использование графического представления отклонений позволяет сделать предположение о наличии или отсутствии гетероскедастичности. В этом случае по оси абсцисс откладывается объясняющая переменная Х (либо линейная комбинация объясняющих переменных,а по оси ординат либо отклонения ,либо их квадраты

Примеры таких графиков приведены на рис.4

На рис..4.а все отклонения находятся внутри полуполосы постоянной ширины, параллельной оси абсцисс. Это говорит о независимости дисперсий от значений переменной Х и их постоянстве, т.е. в этом случае мы находимся в условиях гомоскедастичности.

На рис.4.б г наблюдаются некие систематические изменения в соотношениях между значениями x i переменной Х и квадратами отклонений . На рис. 8.4,в отражена линейная; 8.4,г − квадратичная; 8.4,д − гиперболическая зависимости между квадратами отклонений и значениями объясняющей переменной Х. Другими словами, ситуации, представленные на рис. 8.4,б д , отражают большую вероятность наличия гетероскедастичности для рассматриваемых статистических данных.

Отметим, что графический анализ отклонений является удобным и достаточно надежным в случае парной регрессии. При множественной регрессии графический анализ возможен для каждой из объясняющих переменных Х j , j = 1, 2, …,kотдельно. Чаще же вместо объясняющих переменных Х j по оси абсцисс откладывают значения, получаемые из эмпирического уравнения регрессии. Поскольку расчетное значение зависимой переменнойявляется линейной комбинацией факторных переменных, j = 1, 2,k, то график, отражающий зависимостьот, может указать на наличие гетероскедастичности аналогично ситуациям на рис. 8.4,б д . Такой анализ наиболее целесообразен при большом количестве объясняющих переменных.

Тест ранговой корреляции Спирмена

При использовании данного теста предполагается,что дисперсия отклонения будет либо увеличиваться,либо уменьшаться с увеличением значения Х.Поэтому для регрессии,построенной по МНК,абсолютные величины отклонений и значения СВ Х будут коррелированы.Значения и ранжируются(упорядочиваются по значению).Затем определяется коэффициент ранговой корреляции:
(1)

где−разность между рангами и,
, где n −число наблюдений

Например,если
является15-м по величине среди всех наблюдений Х;а
−является30-м,то= 15 − 30= −15.

Доказано,что если коэффициент корреляции для генеральной совокупности равен нулю,то статистика

(2)

имеет распределение Стьюдента с числом степеней свободы ν= n − 2.

Следовательно,если наблюдаемое значениеt-статистики,вычисленное по формуле(2),превышаетt кр. (α,n−2) (определяемое по таблице критических точек распределения Стьюдента),то необходимо отклонить гипотезу о равенстве нулю коэффициента корреляции ,а следовательно,и об отсутствии гетероскедастичности.В противном случае гипотеза об отсутствии гетероскедастичности принимается.

Если в модели регрессии больше чем одна объясняющая переменная,то проверка гипотезы может осуществляться с помощьюt-статистики для каждой из них отдельно.

Тест Голдфелда−Квандта

Данный тест является наиболее популярным. При проведении проверки по этому критерию предполагается, что случайный член распределен нормально и неподвержен автокорреляции. Этот тест применяется, когда есть предположение о том, что среднее квадратическое отклонение возмущений
(i =1, 2, …, n ) возрастает пропорционально значению некоторого фактора возрастает пропорционально значению фактора. Проверка проводится для всех факторов, включенных в модель, либо только для факторов, предположительно влияющих на однородность исследуемой совокупности. Проверка по некоторому фактору X j выполняется в следующей последовательности:

С помощью данного теста проверяется основная гипотеза :

H 0:гетероскедастичность отсутствует .

H 1: (альтернативная гипотеза)– дисперсии ошибок прямо пропорциональны значениям выбранной переменной .

Для проведения теста необходимо выполнить следующие действия:

Замечание. Если верна основная гипотеза, то статистика
имеет распределение Фишера сстепенями свободы.


если
, то нет оснований отвергнуть основную гипотезу;

если
, то основная гипотеза отклоняется в пользу альтернативной, т.е. существует прямо пропорциональная зависимость между дисперсиями ошибок и значениями выбранной переменной.

Тест Уайта

Тест ранговой корреляции Спирмена и тест Голдфедда-Квандта позволяют обнаружить лишь само наличие гетероскедастичности, но они не дают возможности проследить количественный характер зависимости дисперсий ошибок регрессии от значений регрессоров и, следовательно, не представляют каких-либо способов устранения гетероскедастичности.

Очевидно, для продвижения к этой цели необходимы некоторые дополнительные предположения относительно характера гетероскедастичности. В самом деле, без подобных предположений, очевидно, невозможно было бы оценить п параметров (п дисперсий ошибок регрессии ) с помощью п наблюдений.

Наиболее простой и часто употребляемый тест на гетероскедастичность - тест Уайта. При использовании этого теста предполагается, что дисперсии ошибок регрессии представляют собой одну и ту же функцию от наблюдаемых значений регрессоров, т.е.

=
(3)

Чаще всего функция
выбирается квадратичной, что соответствует тому, что средняя квадратическая ошибка регрессии зависит от наблюдаемых значений факторных переменных приближенно линейно. Гомоскедастичной выборке соответствует случай
= const.

Идея теста Уайта заключается в оценке функции (3) с помощью соответствующего уравнения регрессии для квадратов остатков:


(4)

где - случайный член.

Гипотеза об отсутствии гетероскедастичности (условие
= const) принимается в случае незначимости регрессии (4) в целом.

В большинстве современных пакетов, регрессию (4) не приходится осуществлять вручную - тест Уайта входит в пакет как стандартная подпрограмма. В этом случае функция
выбирается квадратичной, факторные переменные в (4) - это переменные рассматриваемой модели.

Недостатком метода является то, что факт невыявление гетероскедастичности еще не означает ее отсутствия.

    Обоснования введения в модель ведущих факторов. Понятие мультиколлинеарности.

Если в модель включаются два или более тесно взаимосвязанных фактора, то наряду с уравнением регрессии появляется и другая линейная зависимость. Подобное явление называемое мультиколлинеарностью, искажает величину коэффициентов регрессии, затрудняет их экономическую интерпретацию.

Мультиколлинеарность – это тесная зависимость между факторными признаками, включенными в модель.

Мультиколлинеарность:

Искажает величины параметров модели, которые имеют тенденцию к завышению;

Приводит к изменению смысла экономической интерпретации коэффициентов регрессии;

Вызывает слабую обусловленность системы нормальных уравнений.

Осложняет процесс определения наиболее существенных факторных признаков.

Решение проблемы мультиколлинеарности:

Установление наличия мультиколлинеарности;

Определение причин возникновения мультиколлинеарности.

Разработка мер по устранению мультиколлинеарности.

Причины возникновения мультиколлинеарности между признаками:

Изучаемые факторные признаки характеризуют одну и ту же сторону явления или процесса (например, показатели объёма произведённой продукции и среднегодовой стоимости основных фондов одновременно включать в модель не рекомендуется, так как оба характеризуют размер предприятия)

Использование в качестве факторных признаков, суммарное значение которых представляет собой постоянную величину (например, коэффициент годности и коэффициент износа основных фондов)

Факторные признаки, являющиеся элементами друг друга (например, затраты на производство продукции и себестоимости единицы продукции)

Факторные признаки, по экономическому смыслу дублирующие друг друга (например, прибыль и рентабельность продукции).

Способы определения наличия или отсутствия мультиколлинеарности:

Анализ матрицы коэффициентов парной корреляции – факторы могут быть признаны коллинеарными, если >0,8.

Исследование матрицы Х’X– если определитель матрицы Х’Xблизок к нулю, то это свидетельствует о наличии мультиколлинеарности.

Устранение мультиколлинеарности возможно посредством исключения из корреляционной модели одного или нескольких линейно связанных факторных признаков или преобразование исходных факторных признаков в новые, укрупнённые факторы. Опрос о том, какой из факторов следует отбросить, решается на основе качественного и логического анализа изучаемого явления.

Методы устранения или уменьшения мультиколлинеарности:

Сравнение значений линейных коэффициентов корреляции: при отборе факторов предпочтение отдаётся тому фактору, который более тесно, чем другие факторы, связан с результативным признаком, причём желательно, чтобы связь данного факторного признака с у была выше, чем его связь с другим факторным признаком, т.е. и .

Метод включения факторов: метод заключается в том, что в модель включаются факторы по одному в определённой последовательности. На первом шаге в модель вводится тот фактор, который имеет наибольший коэффициент корреляции с зависимой переменной. На втором и последующих шагах в модель включается фактор, который имеет наибольший коэффициент корреляции с остатками модели. После включения каждого фактора в модель, рассматриваются её характеристики, и модель проверяется на достоверность. Построение модели заканчивается, если модель перестаёт удовлетворять определённым условиям (например, k гдеn - число наблюдений;k число факторных признаков, включаемых в модель;l среднеквадратическая ошибка модели, полученная на предыдущем шаге и включающая (k -1) переменных)

Метод исключения факторов: метод состоит в том, что в модель включаются все факторы. Затем после построения уравнения регрессии из модели исключают фактор, коэффициент при котором незначим и имеет наименьшее значение t-критерия. После этого получают новое уравнение регрессии и снова проводят оценку значимости всех оставшихся коэффициентов регрессии. Процесс исключения факторов продолжается до тех пор, пока модель не начнёт удовлетворять определённым условиям и все коэффициенты регрессии не будут значимы.

    Оценка влияния отдельных факторов на результативный показатель по коэффициентам: детерминация, эластичность.

    Понятие об эконометрических моделях. Отличие эконометрических моделей от математических моделей. Спецификация и идентификация моделей.

    Однофакторная линейная модель регрессии. Определение параметров модели по МНК.

Уравнение линейной парной регрессии:

yx= где , – параметры модели; – случайная величина (величина остатка).

– свободный коэффициент (член) регрессионного уравнения. Не имеет экономического смысла и показывает значение результативного признака у, если факторный признак х=0.

Коэффициент регрессии показывает, на какую величину в среднем изменится результативный признак у, если переменную х увеличить на единицу измерения. Знак при коэффициенте регрессии показывает направление связи: при >0 – связь прямая; при <0 – связь обратная.

– независимая, нормально распределённая случайная величина, остаток с нулевым математическим ожиданием ( =0) и постоянной дисперсией (). Отражает тот факт, что изменение у будет неточно описываться изменением х, так как присутствуют другие факторы, не учтённые в данной модели.

Оценка параметров модели и осуществляется методом наименьших квадратов. Сущность метода наименьших квадратов заключается в том, что отыскиваются такие значения параметров модели ( и ), пери которых сумма квадратов отклонений фактических значений результативного признакаyi от вычисленных по уравнению регрессии будет наименьшей из всех возможных.

При оценке параметров уравнения регрессии мы применяем метод наименьших квадратов. При этом делаем определенные предпосылки относительно случайной составляющей . В модели

у = а + b 1  x + 

случайная составляющая  представляет собой ненаблюдаемую величину. После того как проведена оценка параметров модели, рассчитав разности фактических и теоретических значений результативного признака у , можно определить оценки случайной составляющей (у ). При изменении спецификации модели, добавлении в нее новых наблюдений выборочные оценки остатков i , могут меняться. Поэтому в задачу регрессионного анализа входит не только построение самой модели, но и исследование случайных отклонений  i , т.е. остаточных величин.

В предыдущем разделе рассматривались формальные проверки статистической достоверности коэффициентов регрессии и корреляции с помощью t -критерия Стьюдента и F -критерия. При использовании этих критериев делаются предположения относительно поведения остатков  i . Остатки представляют собой независимые случайные величины, и их среднее значение равно 0; они имеют одинаковую (постоянную) дисперсию и подчиняются нормальному распределению.

Оценки параметров регрессии должны отвечать определенным критериям: быть несмещенными, состоятельными и эффективными.

Несмещенность оценки означает, что математическое ожидание остатков равно нулю. Следовательно, при большом числе выборочных оцениваний остатки не будут накапливаться и найденный параметр регрессии b i можно рассматривать как среднее значение из возможного большого количества несмещенных оценок.

Для практических целей важна не только несмещенность, но и эффективность оценок. Оценки считаются эффективными , если они характеризуются наименьшей дисперсией.

Степень реалистичности доверительных интервалов параметров регрессии обеспечивается, если оценки будут не только несмещенными и эффективными, но и состоятельными . Состоятельность оценок характеризует увеличение их точности с увеличением объема выборки.

Исследования остатков  i предполагают проверку наличия следующих пяти предпосылок МНК (см. условия ГауссаМаркова):

    Случайный характер остатков.

Для этого строится график зависимости остатков  i от теоретических значений результативного признака .Если на графике нет направленности в расположении точек  i , то остатки  i представляют собой случайные величины и МНК оправдан, теоретические значения хорошо аппроксимируют фактические значенияу .

    Нулевая средняя величина остатков, не зависящая от х i .

Вторая предпосылка МНК относительно нулевой средней величины остатков означает, что (у ) = 0. Это выполнимо для линейных моделей и моделей, нелинейных относительно включаемых переменных. Для моделей, нелинейных по оцениваемым параметрам и приводимых к линейному виду логарифмированием, средняя ошибка равна нулю для логарифмов исходных данных. Так, для модели вида

    Гомоскедастичность дисперсия каждого отклонения i одинакова для всех значений х .

В соответствии с третьей предпосылкой метода наименьших квадратов требуется, чтобы дисперсия остатков была гомоскедастичной . Это значит, что для каждого значения фактора х i остатки имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность (рис. 1).

Гомоскедастичность остатков означает, что дисперсия остатков  i одинакова для каждого значения х .

Наличие гетероскедастичности в отдельных случаях может привести к смещенности оценок коэффициентов регрессии, хотя несмещенность оценок коэффициентов регрессии в основном зависит от соблюдения второй предпосылки МНК, т.е. независимости остатков и величин факторов.

Гетероскедастичность будет сказываться на уменьшении эффективности оценок b i . В частности, становится затруднительным использование формулы стандартной ошибки коэффициента регрессии , предполагающей единую дисперсию остатков для любых значений фактора.

Рассмотрим тесты , которые позволяют провести анализ модели на гомоскедастичность.

При малом объеме выборки, что наиболее характерно для эконометрических исследований, для оценки гетероскедастичности может использоваться метод Гольдфельда Квандта , разработанный в 1965 г. Гольдфельд и Квандт рассмотрели однофакторную линейную модель, для которой дисперсия остатков возрастает пропорционально квадрату фактора. Для того чтобы оценить нарушение гомоскедастичности, они предложили параметрический тест , который включает в себя следующие шаги:

    Упорядочение п наблюдений по мере возрастания переменной х .

    Исключение из рассмотрения С центральных наблюдений; при этом (п  С)/2 > р , где р  число оцениваемых параметров.

Из экспериментальных расчетов, проведенных авторами метода для случая одного фактора, рекомендовано при п = 30 принимать С = 8, а при п = 60 – соответственно С = 16.

    Разделение совокупности из (п С ) наблюдений на две группы (соответственно с малыми и большими значениями фактора х ) и определение по каждой из групп уравнений регрессии.

    Определение остаточной суммы квадратов для первой (S 1) и второй (S 2) групп и нахождение их отношения: R = S 1 /S 2 , где S 1 > S 2 .

При выполнении нулевой гипотезы о гомоскедастичности отношение R будет удовлетворять F -критерию с (п С 2р )/2 степенями свободы для каждой остаточной суммы квадратов. Чем больше величина R превышает табличное значение F -критерия, тем более нарушена предпосылка о равенстве дисперсий остаточных величин.

Критерий ГольдфельдаКвандта используется и при проверке остатков множественной регрессии на гетероскедастичность.

Наличие гетероскедастичности в остатках регрессии можно проверить и с помощью ранговой корреляции Спирмэна . Суть проверки заключается в том, что в случае гетероскедастичности абсолютные остатки  i коррелированы со значениями фактора х i . Эту корреляцию можно измерять с помощью коэффициента ранговой корреляции Спирмэна:

, (31)

где d  абсолютная разность между рангами значений х i и | i |.

Статистическую значимость  можно оценить с помощью t -критерия:

. (32)

Сравнив эту величину с табличной величиной при  = 0,05 и числе степеней свободы (п m ). Принято считать, что если t  > t  , то корреляция между  i и х i статистически значима, т. е. имеет место гетероскедастичность остатков. В противном случае принимается гипотеза об отсутствии гeтероскедастичности остатков.

Рассмотренные критерии не дают количественной оценки зависимости дисперсии ошибок регрессии от соответствующих значений факторов, включенных в регрессию. Они позволяют лишь определить наличие или отсутствие гетероскедастичности остатков. Поэтому если гетероскедастичность остатков установлена, можно количественно оценить зависимость дисперсии ошибок регрессии от значений факторов. С этой целью могут быть использованы тесты Уайта, Парка, Глейзера и др.

Тест Уайта предполагает, что дисперсия ошибок регрессии представляет собой квадратичную функцию от значений факторов, т.е. при наличии одного фактора  2 = а + bx + cx 2 + u , или при наличии факторов:

 2 = a + b 1 x 1 + b 11 +b 2 x 2 + b 22 +b 12 x 1 x 2 + … + b p x p + b pp + + b 1 p x 1 x p + b 2 p x 2 x p + … + u .

Так что модель включает в себя не только значения факторов, но и их квадраты, а также попарные произведения. Поскольку каждый параметр модели =f (х i ) должен быть рассчитан на основе достаточного числа степеней свободы, то чем меньше объем исследуемой совокупности, тем в меньшей мере квадратичная функция сможет содержать попарные произведения факторов. Например, если регрессия строится по 30 наблюдениям как y i = a + b 1 x +  i , то последующая квадратичная функция для остатков может быть представлена лишь как

 2 = а + b 1 x + b 11 х 2 + u ,

поскольку на каждый параметр при х должно приходиться не менее 67 наблюдений. В настоящее время тест Уайта включен в стандартную программу регрессионного анализа в пакете Econometric Views. О наличии или отсутствии гетероскедастичности остатков судят по величине F -критерия Фишера для квадратичной функции регрессии остатков. Если фактическое значение F -критерия выше табличного, то, следовательно, существует четкая корреляционная связь дисперсии ошибок от значений факторов, включенных в регрессию, и имеет место гетероскедастичность остатков. В противном случае (F факт < F табл) делается вывод об отсутствии гeтероскедастичности остатков регрессии.

Тест Парка также относится к формализованным тестам гетероскедастичности. Предполагается, что дисперсия остатков связана со значениями факторов функций ln  2 = а + b ln х + и . Данная регрессия строится для каждого фактора в условиях многофакторной модели. Проверяется значимость коэффициента регрессии b по t -критерию Стьюдента. Если коэффициент регрессии для уравнения ln 2 окажется статистически значимым, то, следовательно, существует зависимость ln 2 от lnх , т.е. имеет место гетероскедастичность остатков.

Если тесты Уайта и Парка предназначены для оценки гетероскедастичности для квадрата остатков  2 , то тест Глейзера основывается на регрессии абсолютных значений остатков ||, т.е. рассматривается функция | i | = а + b + и i . Регрессия | i | от х i строится при разных значениях параметра с , и далее отбирается та функция, для которой коэффициент регрессии b оказывается наиболее значимым, т.е. имеет место наибольшее значение t -критерия Стьюдента или F -критерия Фишера и R 2 .

При обнаружении гетероскедастичности остатков регрессии ставится цель ее устранения, чему служит применение обобщенного метода наименьших квадратов (см. ниже).

    Отсутствие автокорреляции остатков. Значения остатков i , распределены независимо друг от друга .

Автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений.

При построении регрессионных моделей чрезвычайно важно соблюдение данного условия. Коэффициент корреляции между  i и  i -1 , где  i  остатки текущих наблюдений,  i -1  остатки предыдущих наблюдений может быть определен как

, (33)

что соответствует формуле линейного коэффициента корреляции. Если этот коэффициент окажется существенно отличным от нуля, то остатки автокоррелированы и функция плотности вероятности F () зависит от j -й точки наблюдения и от распределения значений остатков в других точках наблюдения.

Отсутствие автокорреляции остатков обеспечивает состоятельность и эффективность оценок коэффициентов регрессии. Особенно актуально соблюдение данной предпосылки МНК при построении регрессионных моделей по рядам динамики, где при наличии тенденции последующие уровни динамического ряда, как правило, зависят от своих предыдущих уровней.

    Остатки подчиняются нормальному распределению.

Предпосылка о нормальном распределении остатков позволяет проводить проверку параметров регрессии и корреляции с помощью критериев t иF . Вместе с тем оценки регрессии, найденные с применением МНК, обладают хорошими свойствамидаже при отсутствии нормального распределения остатков, т.е. при нарушении пятой предпосылки метода наименьших квадратов.

Наряду с предпосылками метода наименьших квадратов как метода оценивания параметров регрессии при построении регрессионных моделей должны соблюдаться определенные требования относительно переменных, включаемых в модель. Прежде всего, число переменных т должно быть не больше, чем
. Иначе параметры регрессии оказываются статистически незначимыми. В общем виде применение МНК возможно, если число наблюдений п превышает число оцениваемых параметров т , т.е. система нормальных уравнений имеет решение только тогда, когда п > т .

При несоблюдении основных предпосылок МНК приходится корректировать модель, изменяя ее спецификацию, добавлять (исключать) некоторые факторы, преобразовывать исходные данные для того, чтобы получить оценки коэффициентов регрессии, которые обладают свойством несмещенности, имеют меньшее значение дисперсии остатков и обеспечивают в связи с этим более эффективную статистическую проверку значимости параметров регрессии. Этой цели, как уже указывалось, служит применение обобщенного метода наименьших квадратов.

*графический

Прежде всего, проверяется случайный характер остатков еi (1ая предпосылка мнк). С этой целью строится график зависимости остатков еi от теоретических расчетных значений уi. Если на графике нет направленности в расположении точек остатков еi, то остатки представляют собой случайные величины, МНК оправдан, теоретические значения расчетного уi хорошо аппроксимируют значения фактического yi.

Для обеспечения несмещенности оценок коэффициента регрессии, полученного МНК, необходимо выполнение условий независимости случайных остатков еi и переменных хi (2ая предпосылка мнк). С этой целью строится график зависимости случайных остатков ei от факторов хi, включенных в регрессию. На графике поверяется отсутствие направленности в расположении ei.

*Тест ранговой корреляции Спирмена

При использовании данного теста предполагается, что дисперсия отклонения будет либо увеличиваться, либо уменьшаться с увеличением значения X. Поэтому для регрессии построенной по МНК абсолютные величины отклонений и значения будут коррелированы. Значения и ранжируются (упорядочиваются по величинам). Затем определяется коэффициент ранговой корреляции:

где - разность между рангами значений и ().

Если tрасч> tтабл, гипотеза о равенстве 0 коэф-та корел-ии отклоняется, отсутствие гетероскедастичности. В противном случае нулевая гипотеза принимается.

*Тест Голдфелда–Квандта. Этот тест применяется в том случае, если ошибки регрессии можно считать нормально распределенными случайными величинами.

Предположим, что средние квадратические (стандартные) отклонения возмущений о, пропорциональны значениям объясняющей переменной X (это означает постоянство часто встречающегося на практике относительного (а не абсолютного, как в классической модели) разброса возмущений е, регрессионной модели.

Упорядочим n наблюдений в порядке возрастания значений регрессора X и выберем т первых и т последних наблюдений.

В этом случае гипотеза о гомоскедастичности будет равносильна тому, что значения е 1 ,..., е т и е п-т+ 1,..., е n (т.е. остатки е i регрессии первых и последних т наблюдений) представляют собой выборочные наблюдения нормально распределенных случайных величин, имеющих одинаковые дисперсии.

Гипотеза о равенстве дисперсий двух нормально распределенных совокупностей, как известно (см., например, ), проверяется с помощью критерия Фишера–Снедекора.

Нулевая гипотеза о равенстве дисперсий двух наборов по т наблюдений (т.е. гипотеза об отсутствии гетероскедастичности) отвергается, если

где р – число регрессоров.

Заметим, что числитель и знаменатель в выражении (7.19)следовало разделить на соответствующее число степеней свободы, но в данном случае эти числа одинаковы и равны (т – р).


Мощность теста, т.е. вероятность отвергнуть гипотезу об отсутствии гетероскедастичности, когда действительно гетероскедастичности нет, оказывается максимальной, если выбирать т порядка n /3.

При применении теста Голдфелда–Квандта на компьютере нет необходимости вычислять значение статистики F вручную, так как величины представляют собой суммы квадратов остатков регрессии, осуществленных по “урезанным” выборкам.

ОМНК

Наиболее существенным достижением эконометрики является значительное развитие самих методов оценивания неизвестных параметров и усовершенствование критериев выявления статической значимости рассматриваемых эффектов. В этом плане невозможность или нецелесообразность использования традиционного МНК по причине проявляющейся в той или иной степени гетероскедастичности привели к разработке обобщенного метода наименьших квадратов (ОМНК).

Фактически при этом корректируется модель, изменяются ее спецификации, преобразуются исходные данные для обеспечения несмещенности, эффективности и состоятельности оценок коэффициентов регрессии.

Предполагается, что среднее остатков равно нулю, но их дисперсия уже не является постоянной, а пропорциональна величинам Кi, где эти величины представляют собой коэффициенты пропорциональности, различные для различных значений фактора х. Таким образом, именно эти коэффициенты (величины Кi) характеризуют неоднородность дисперсии. Естественно, считается, что сама величина дисперсии, входящая общим множителем при этих коэффициентах пропорциональности, неизвестна.

Исходная модель после введения этих коэффициентов в уравнение множественной регрессии продолжает оставаться гетероскедастичной (точнее говоря, таковыми являются остаточные величины модели). Пусть эти остаточные величины (остатки) не являются автокоррелированными. Введем новые переменные, получающиеся делением исходных переменных модели, зафиксированных в результате i-наблюдения, на корень квадратный из коэффициентов пропорциональности Кi. Тогда получим новое уравнение в преобразованных переменных, в котором уже остатки будут гомоскедастичны. Сами новые переменные - это взвешенные старые (исходные) переменные.

Поэтому оценка параметров полученного таким образом нового уравнения с гомоскедастичными остатками будет сводиться к взвешенному МНК (по существу это и есть ОМНК). При использовании вместо самих переменных регрессии их отклонения от средних выражения для коэффициентов регрессии приобретают простой и стандартизованный (единообразный) вид, незначительно различающийся для МНК и ОМНК поправочным множителем 1/К в числителе и знаменателе дроби, дающей коэффициент регрессии.

Следует иметь в виду, что параметры преобразованной (скорректированной) модели существенно зависят от того, какая концепция положена за основу для коэффициентов пропорциональности Кi. Часто считают, что остатки просто пропорциональны значениям фактора. Наиболее простой вид модель принимает в случае, когда принимается гипотеза о том, что ошибки пропорциональны значениям последнего по порядку фактора. Тогда ОМНК позволяет повысить вес наблюдений с меньшими значениями преобразованных переменных при определении параметров регрессии по сравнению с работой стандартного МНК с первоначальными исходными переменными. Но эти новые переменные уже получают иное экономическое содержание.

Гипотеза о пропорциональности остатков величине фактора вполне может иметь под собой реальное обоснование. Пусть обрабатывается некая недостаточно однородная совокупность данных, например, включающая крупные и мелкие предприятия одновременно. Тогда большим объемным значениям фактора может соответствовать и большая дисперсия результативного признака, и большая дисперсия остаточных величин. Далее, использование ОМНК и соответствующий переход к относительным величинам не просто снижают вариацию фактора, но и уменьшают дисперсию ошибки. Тем самым реализуется наиболее простой случай учета и коррекции гетероскедастичности в регрессионных моделях посредством применения ОМНК.

Изложенный выше подход к реализации ОМНК в виде взвешенного МНК является достаточно практичным - он просто реализуется и имеет прозрачную экономическую интерпретацию. Конечно, это не самый общий подход, и в контексте математической статистики, служащей теоретической основой эконометрики, нам предлагается значительно более строгий метод, реализующий ОМНК в самом общем виде. В нем необходимо знать ковариационную матрицу вектора ошибок (столбца остатков). А это в практических ситуациях, как правило, несправедливо, и отыскать эту матрицу как таковую бывает невозможно. Поэтому приходится каким-то образом оценивать искомую матрицу, чтобы использовать вместо самой матрицы такую оценку в соответствующих формулах. Таким образом, описанный вариант реализации ОМНК представляет одну из таких оценок. Иногда его называют доступный обобщенный МНК.

Обнаружение гетероскедастичности

В случае парной регрессии о проявлении гетероскедастичности можно судить по характеру расположения экспериментальных точек на корреляционном поле (рис. 5.1). На рис. 5.1 можно заметить, что дисперсии случайных отклонений неодинаковы и увеличиваются с возрастанием значений объясняющей переменной. Однако даже для парной регрессии выводы по определению гетероскедастичности могут являться неоднозначными при наличии локальных «выбросов» точек (пиков на диаграмме рассеивания). Естественно, что для множественной регрессии обнаружение гетероскедастичности является значительно более сложной задачей, чем для моделей с одним регрессором.

В настоящее время существует достаточно большое количество тестов для поверки на гетероскедастичность, базирующихся на дисперсионном анализе случайных отклонений. Рассмотрим наиболее распространенные из них.

Тест ранговой корреляции Спирмена . Идея данного теста заключается в том, что в случае гетероскедастичности дисперсия случайного отклонения будет либо увеличиваться, либо уменьшаться с увеличением значений регрессоров Х . Поэтому для регрессионной модели, построенной по МНК, абсолютные значения оценок отклонений e i и значения x i будут коррелированны.

Значения e i и x i ранжируются (упорядочиваются по величинам). Номеру i значения x i в упорядоченном ряду будет соответствовать ранг r xi . Аналогично упорядочим данные по абсолютным значениям остатков и каждому |e i | припишем ранг r ei . Тогда разность между рангами (d i ) запишем как d i = r xi - r ei . Например, если x 20 является 25-м по величие среди всех значений X , а e 20 является 30-м, то d i = 25 - 30 = -5.

Коэффициент ранговой корреляции Спирмена вычисляется по формуле

(5.2)

где n - число наблюдений.

Доказано, что при n > 10 статистика

(5.3)

имеет t -распределение Стьюдента с числом степеней свободы v = n - 2.

Следовательно, в соответствии со схемой проверки статистических гипотез, если наблюдаемое значение t -статистики, рассчитанное по формуле (5.3), превышает t кр = t a , n - 2 (табличное), то необходимо отклонить гипотезу Н 0 об отсутствии гетероскедастичности. В противном случае гипотеза Н 0 принимается, что соответствует гомоскедастичности.

Если анализируется модель множественной регрессии, то проверка гипотезы осуществляется с помощью t -статистики для каждой объясняющей переменной отдельно.

Следует заметить, что коэффициент ранговой корреляции Спирмена (r ) может иметь самостоятельное значение в эконометрических исследованиях. Он используется при установлении тесноты связи между порядковыми переменными. В этом случае анализируемые объекты упорядочивают по степени влияния (проявления) признака. Если объекты ранжированы по двум признакам Х иY , то имеется возможность оценить тесноту связи между этими переменными, основываясь на рангах. В том случае, если ранги всех объектов равны, то r = 1 (полная прямая связь). При полной обратной связи ранги объектов по двум переменным расположены в обратном порядке и r = -1. Во всех остальных случаях |r | < 1. Применение коэффициента ранговой корреляции не требует нормального распределения переменных и линейной связи между ними. Однако необходимо учитывать, что в случае количественных переменных переход от их первоначальных значений и размерностей к рангам сопровождается определенной потерей информации.

Тест Голдфелда-Квандта. Этот тест использует предположения о нормальности распределения случайных отклонений и о пропорциональности средних квадратических (стандартных) отклонений σ i = σ(e i ) значениям соответствующей объясняющей переменной X .

В рамках этих предположений Голдфелд и Квандт предложили следующую процедуру проверки на гетероскедастичность:

1. Все n наблюдений упорядочиваются в порядке возрастания значений регрессора X , и выборка после этого разбивается на три подвыборки размерностей k , n - 2k , k соответственно.

2. Оцениваются отдельные регрессии для первой и третьей подвыборок (рассматриваем k первых значений и k последних; средние n - 2k наблюдений отбрасываем).

3. Если, в соответствии с нашим предположением, дисперсия случайных отклонений увеличивается с ростом X , то дисперсия регрессии по первой подвыборке (сумма квадратов остатков ) будет существенно меньше дисперсии регрессии по третьей подвыборке (суммы квадратов остатков ).

4. Для сравнения соответствующих дисперсий определяется следующая F -статистика:

. (5.4)

Здесь (k - m - 1) – числа степеней свободы соответствующих выборочных дисперсий (m - одинаковое количество объясняющих переменных в уравнениях регрессии). При выполнении начальных предположений относительно остатков построенная F -статистика имеет распределение Фишера с числами степеней свободы v 1 = v 2 = k - m - 1.

5. Если наблюдаемое значение F -статистики (F набл ), рассчитанное по формуле (5.4), превосходит ее критическое значение , то гипотеза об отсутствии гетероскедастичности (о равенстве дисперсий) отклоняется на выбранном уровне значимости a.

Мощность теста Голдфелда-Квандта, т. е. вероятность отвергнуть гипотезу об отсутствии гетероскедастичности в случае, когда ее действительно нет, оказывается максимальной, если выбирать k » n /3.

Для множественной регрессии данный тест может осуществляться для каждой из объясняющих переменных или для одного выбранного регрессора, который в наибольшей степени связан с σ i .

Аналогичный тест может быть использован при условии обратной пропорциональности между стандартными отклонениями остатков σ i и значениями объясняющей переменной. При этом статистика Фишера примет вид: F = S 1 /S 3 .

Тест Уайта. Сущность данного теста заключается в том, что если в модели присутствует гетероскедастичность, то дисперсии случайных отклонений некоторым образом зависят от регрессоров; т. е. гетероскедастичность должна как-то проявляться в поведении остатков исходной регрессионной модели. Исходя из этого при использовании теста Уайта предполагается, что дисперсии остатков представляют собой некоторую функцию от наблюдаемых значений объясняющих переменных

Для получения соответствующих выводов осуществляется оценка функции (5.5) с помощью уравнения регрессии для квадратов остатков:

где v i - случайный член.

На практике чаще всего функция f выбирается квадратичной, а регрессоры в уравнении (5.6) – это регрессоры исходной модели, их квадраты и, возможно, попарные произведения. Для данного теста гипотеза об отсутствии гетероскедастичности, что соответствует условию f = const , принимается в случае незначимости регрессии (5.6) в целом.



Следует заметить, что во всех рассматриваемых тестах (критериях) осуществляется проверка нулевой гипотезы Н 0 об отсутствии гетероскедастичности.

Оценка точности регрессионных моделей.

Для оценки точности чаще всего используют два показателя, которые для линейных, так и для нелинейных моделей имеют вид:

1. Средняя ошибка аппроксимации

2. Среднеквадратическая ошибка аппроксимации

8.1. Сущность и причины гетероскедастичности

Второе условие Гаусса – Маркова о гомоскедастичности, то есть равноизменчивости остатков – это одно из важнейших предпосылок МНК.

Так как математическое ожидание остатков в каждом наблюдении равно нулю, то квадраты остатков могут служить оценками их дисперсий.

Эти квадраты остатков входят в ESS (которая минимизируется в МНК) с одинаковыми единичными весами, а это не всегда правомерно, так как на практике гетероскедастичность не так уж редко встречается.

Например, с ростом дохода растёт не только средний уровень потребления, но и разброс в потреблении. Он более присущ субъектам с высоким доходом, так как они имеют больший простор для распределения доходов. Проблема гетероскедастичности более характерна для пространственных выборок. Очевидно, что при наличии гетероскедастичности наблюдениям с большей дисперсией следует в ESS придавать меньший вес и наоборот, а не учитывать их равновзвешенными, как это делается в классическом МНК.

Точка на диаграмме рассеяния, полученная из наблюдения с меньшей дисперсией, более точно определяет направление линии регрессии, чем точка из наблюдения с большей дисперсией.

Последствия гетероскедастичности таковы:

1. Оценки параметров не будут эффективными, то есть не будут иметь наименьшую дисперсию по сравнению с другими оценками; при этом они будут оставаться несмещенными.

2. Дисперсии оценок будут смещены, так как будет смещена дисперсия на одну степень свободы которая используется при вычислении оценок дисперсий всех коэффициентов.

3. Выводы, получаемые на основе завышенных F и t статистик, и интервальные оценки будут ненадёжны.

8.2. Выявление гетероскедастичности

Это достаточно непростая задача; дисперсию σ 2 (ε i ) обычно определить не удаётся, так как для конкретного значения объясняющей переменой х i или конкретного значения вектора x при множественной регрессии мы располагаем лишь единственным значением зависимой переменой у i и можем вычислить единственное модельное значение переменной

Тем не менее, в настоящее время разработан ряд методов и тестов для обнаружения гетероскедастичности:

1. Графический – мы уже говорили, что М (ε i )=0; это значит что дисперсию остатка можно заменить её оценкой, а в качестве этой оценки можно взять величину . В таком случае можно построить график в координатах: есть функция от х i и по нему изучить характер указанной зависимости. Если объясняющих переменных несколько, то проверяется зависимость по каждой переменной х j , то есть изучается зависимость


Можно также исследовать зависимость , так как переменная у является линейной комбинацией всех объясняющих переменных.

2. Тест ранговой корреляции Спирмена

Значения x i и ε i упорядочиваются по возрастанию, и для каждого наблюдения в ряду х и в ряду ε устанавливается свой ранг (номер) в соответствии с этим упорядочением. Разность d i между рангами x и ε для каждого номера наблюдения рассчитывается как

Затем вычисляется коэффициент ранговой корреляции:

.

Известно, что если остатки не коррелируют с объясняющими переменными, то статистика

имеет распределение Стьюдента с числом степеней свободы

df = n−2 .

Если вычисленное значение t – статистики превышает табличное критическое значение при назначенном уровне значимости γ гипотезы Н 0 , то гипотеза об отсутствии гетероскедастичности отвергается и гетероскедастичность признаётся существенной. Критическое значение t– статистики определяется по таблице как

В том случае, если модель регрессии множественная, проверка гипотезы Н 0 выполняется для каждой объясняющей переменной.

3. Тест Гольдфельда–-Квандта

Предполагается, что дисперсия остатков в каждом наблюдении пропорциональна или обратно пропорциональна интересующему нас регрессору, также предполагается, что остатки распределены нормально и нет автокорреляции в остатках.

В случае множественной регрессии тест целесообразно проводить по каждому регрессору отдельно.

Последовательность проведения теста:

а) наблюдения (строки таблицы) упорядочиваются по возрастанию интересующего нас регрессора;

б) упорядоченная таким образом выборка разбивается на 3 подвыборки объемами , , , при этом Можно считать, что Авторы теста предлагают следующие значения: n = 30, k = 11; n = 60, k = 22; n = 100, k = 36…38; n = 300, k = 110 и так далее (см. табл. 8.1).