Для выявления автокорреляции в остатках используется критерий. Обнаружение автокорреляции остатков. Пример проверки наличия в модели автокорреляции

С автокорреляцией остатков

Вернемся еще раз к предположению (3.3). Из него, в частности, следует, что ковариации случайной ошибки для разных наблюдений равны нулю. Если к тому же случайные ошибки распределены нормально, то это означает их попарную независимость.

Однако регрессионные модели в экономике часто содержат стохастические зависимости между значениями случайных ошибок – автокорреляцию ошибок . Ее причинами являются: во-первых, влияние некоторых случайных факторов или опущенных в уравнении регрессии важных объясняющих переменных, которое не является однократным, а действует в разные периоды времени; во-вторых, случайный член может содержать составляющую, учитывающую ошибку измерения объясняющей переменной.

Применение к модели с автокорреляцией остатков обыкновенного МНК приведет к следующим последствиям :

1. Выборочные дисперсии полученных оценок коэффициентов будут больше по сравнению с дисперсиями по альтернативным методам оценивания, т.е. оценки коэффициентов будут неэффективны.

2. Стандартные ошибки коэффициентов будут оценены неправильно, чаще всего занижены, иногда настолько, что нет возможности воспользоваться для проверки гипотез соответствующими точными критериями – мы будем чаще отвергать гипотезу о незначимости регрессии, чем это следовало бы делать в действительности.

3. Прогнозы по модели получаются неэффективными.

На практике исследователь в этом случае поставлен перед проблемой тестирования наличия в модели автокорреляции, а также выявления причины автокорреляции при ее обнаружении: или в модели опущена существенная переменная, или структура ошибок зависит от времени. То есть, исследование остатков позволяет судить о правильности модели и ее пригодности для прогнозирования.

Простейшим способом проверки наличия автокорреляции является графическое изображение остатков e i . Возможно построение:

· графика временной последовательности, если остатки получены в разные моменты времени;

· графика зависимости остатков от значений , полученных по регрессии;

· графиков зависимости остатков от объясняющих переменных.

Если изображение остатков представляет собой горизонтальную полосу, это указывает на отсутствие каких-либо проблем, связанных с моделью. В противном случае в зависимости от вида и типа графика можно получить информацию о: неадекватности модели, ошибочности расчетов, необходимости включения в модель линейного или квадратичного члена от времени; наконец о непостоянстве дисперсии.

Ясно, что ошибки могут коррелировать по-разному, однако без нарушения общности можно рассматривать так называемую сериальную корреляцию (автокорреляцию), когда зависимость между ошибками, отстоящими на некоторое количество шагов s , называемое порядком корреляции (в частности, на один шаг, s =1), остается одинаковой, что хорошо проявляется визуально на графике в системе координат (e i ; e i - s ). Например, для s =1 на рис. 4.2 показаны отрицательная (слева) и положительная (справа) автокорреляция остатков. В экономических исследованиях чаще всего встречается положительная автокорреляция.


Рис. 4.2. Автокорреляция остатков

Более достоверным способом проверки существования автокорреляции является применение статистических критериев. Хорошо известны два – критерий знаков (относится к непараметрическим критериям) и критерий Дарбина-Уотсона .

Для проведения проверки по критерию знаков необходимо расположить остатки e i во временной последовательности, выписать их знаки, подсчитать число образующихся при этом серий n u из одинаковых знаков, а также n 1 – число остатков со знаком плюс и n 2 – число остатков со знаком минус. Далее определяется вероятность Pr (n u ) появления n u групп при нулевой гипотезе – последовательность остатков полностью случайна (автокорреляция отсутствует). Если Pr (n u ) < 1–a , где a – уровень доверия, то нулевая гипотеза отвергается.

Для ускорения расчетов для выборок с n 1 , n 2 не больше 20 составлены таблицы с критическими значениями n u при уровне доверия a =0,05.

Для больших выборок истинное распределение ошибок достаточно точно аппроксимируется нормальным со средним m =2n 1 n 2 /(n 1 +n 2)+1 и дисперсией s 2 =2n 1 n 2 (2n 1 n 2 – n 1 – n 2)/(n 1 + n 2) 2 /(n 1 + n 2 – 1), а величина z =(u m + 0,5)/s подчиняется нормированному нормальному распределению, следовательно, критические значения n u могут быть вычислены по формулам (m + z a s ) и (m z a s ), где z a определяется из условия F 0 (z a )=(1–a )/2 (значения даны в справочниках).

Пример . Получены остатки 0,6; 1,9; –1,8; –2,7; –2,9; 1,4; 3,3; 0,3; 0,8; 2,3; –1,4; –1,1, которые обнаруживают следующую последовательность знаков + + – – – + + + + + – –. Имеем n u =4, n 1 =7, n 2 =5. По таблице находим критические значения для n u : 3 и 11. Так как 3 < n u < 11, то нулевая гипотеза принимается, то есть остатки независимы и автокорреляция отсутствует.Ñ

Критерий знаков достаточно прост и не использует информацию о величине e i , и поэтому недостаточно эффективен.

Для проверки гипотезы о существовании линейной автокорреляции первого порядка, которая чаще всего имеет место на практике, предпочтителен критерий Дарбина-Уотсона , основанный на статистике:

(4.9)

Значения первых разностей ошибки в (4.9) будут обнаруживать тенденцию к уменьшению по абсолютной величине по сравнению с абсолютными значениями e i при положительной автокорреляции и к увеличению при отрицательной автокорреляции.

Для статистики d имеются верхний d U и нижний d L пределы уровня значимости. Различные статистические решения для нулевой гипотезы H 0: автокорреляция равна нулю, даны в табл. 4.3. При этом появляются области неопределенности, так как величина e i зависит не только от значений u , но и от значений последовательных X .

Следует отметить, что критерий Дарбина-Уотсона предназначен для моделей с детерминированными (нестохастическими) регрессорами X и не применим, например, в случаях, когда среди объясняющих переменных есть лаговые значения переменной Y .

Таблица 4.3

Области статистических решений для критерия Дарбина-Уотсона



Пример . Для примера 1 из п. 3.2 n =20, k =2 имеем табл. 4.4.

Значения d L и d U при уровне значимости 5% получим из справочника при n =20 и k =2: d L =1,10, d U =1,54.

Так как d >2, то вычисляем 4–d U =2,46 и 4–d L =2,90 и 2<d <4–d U .

Согласно табл. 4.3 гипотеза о равенстве нулю автокорреляции принимается. Ñ

Какой бы тест на автокорреляцию не использовался, необходимо помнить, что рекомендуется в случаях неопределенности (см. табл. 4.3) принимать гипотезу о наличии автокорреляции, поскольку это гарантирует от отрицательных последствий автокорреляции. В случаях же некорректного принятия гипотезы о равенстве нулю автокорреляции получаем модель, которая не может иметь удовлетворительного применения, хотя формально проходит все проверки.

Таблица 4.4

Вычисление значения статистики d

Ошибка e i e i 2 e i-1 ( e i -e i-1 ) 2 Ошибка e i e i 2 e i -1 (e i -e i -1) 2
-2,49 6,20 -0,68 0,46 -8,72 64,64
-1,86 3,46 -2,49 0,40 5,27 27,72 -0,68 35,40
31,93 1019,21 -1,86 1141,76 -5,29 27,93 5,27 111,51
-3,18 10,11 31,93 1232,71 -16,74 280,23 -5,29 131,10
-2,17 4,71 -3,18 1,02 8,94 79,87 -16,74 659,46
-18,38 337,64 -2,17 262,76 -3,57 12,74 8,94 156,50
-3,45 11,90 -18,38 222,90 5,18 26,79 -3,57 76,56
5,58 31,14 -3,45 81,54 7,72 59,60 5,18 6,45
-3,11 9,67 5,58 75,52 -0,85 0,72 7,72 73,44
-8,72 76,04 -3,11 31,47 4,85 23,47 -0,85 32,49
Сумма 2050,37 4397,66

Рассмотрим методы оценивания уравнения регрессии при наличии автокорреляции остатков.

Пусть имеем обобщенную линейную модель множественной регрессии в виде (4.3)-(4.7) с гомоскедастичными остатками .

Предположим, что остатки u i удовлетворяют следующему уравнению:

u i =ru i -1 +e i , i =2,...,n , (4.10)

E (e i )=0; (4.11)

Тогда несложно показать, что будет выполняться:

. (4.12)

Условие (4.12) является аналогом (4.5) и фактически означает гомоскедастичность дисперсии случайного члена (первая строчка) и автокорреляцию первого порядка (вторая строчка). Ясно, что если бы было известно значение r в (4.10) и затем в (4.12), то можно было бы применить ОМНК (элементы матрицы W в этом случае вычисляются согласно (4.12)) и получить эффективные оценки коэффициентов регрессии. Однако на практике значение r в большинстве случаев не известно, поэтому используются следующие методы оценивания регрессионной модели.

Метод 1 . Отказавшись от определения величины r , являющейся узким местом модели, статистически, можно положить r =0,5; 1 или -1. Однако даже грубая статистическая оценка будет, видимо, более эффективной, поэтому другой способ определения r с помощью статистики Дарбина-Уотсона r»1–0,5d . Применяя затем непосредственно ОМНК, получим оценки коэффициентов.

Метод 2 . Если значение r в (4.12) задано, то альтернативная схема отыскания оценок коэффициентов модели множественной регрессии суть (в целях упрощения, не нарушая общности, иллюстрация метода дана для случая парной регрессии):

а) Запишем уравнение модели для случая i и i –1:

Вычтем из обеих частей первого уравнения умноженное на r второе уравнение:

или переобозначив:

с учетом (4.10) , получим модель

, (4.13)

для случайного члена которой выполняется условие (4.11), т.е. автокорреляция отсутствует. При указанном преобразовании первое наблюдение умножается на , т.е. , .

б) Применяем обыкновенный МНК к модели (4.13).

В общем случае мы не располагаем информацией о порядке автокорреляции и значениях параметров в авторегрессионном уравнении, а значит, и методы 1 и 2 не дадут искомого результата.

Тем не менее, оценки коэффициентов можно найти приближенно с помощью следующих методов (опять в целях упрощения, не нарушая общности, иллюстрация методов дана для случая парной регрессии).

Метод 3 . Итеративная процедура Кохрейна-Оркатта.

а) Оценивается регрессия с исходными не преобразованными данными с помощью обыкновенного МНК.

б) Вычисляются остатки e i .

в) Оценивается регрессия e i =re i -1 +e i , и коэффициент при e i -1 дает оценку r .

г) С учетом полученной оценки r уравнение преобразовывается к виду (4.13), оценивание которого позволяет получить пересмотренные оценки коэффициентов b 0 и b 1 .

д) Вычисляются остатки регрессии (4.13) и процесс выполняется снова, начиная с этапа в).

Итерации заканчиваются, когда абсолютные разности последовательных значений оценок коэффициентов b 0 , b 1 и r будут меньше заданного числа (точности).

Подобная процедура оценивания порождает проблемы, касающиеся сходимости итерационного процесса и характера найденного минимума: локальный или глобальный.

Метод 4. Метод Хилдрета-Лу основан на тех же принципах, что и рассмотренный метод 3, но использует другой алгоритм вычислений. Здесь регрессия (4.13) оценивается МНК для каждого значения r из диапазона [-1, 1] с некоторым шагом внутри него. Значение, которое дает минимальную стандартную ошибку для преобразованного уравнения (4.13), принимается в качестве оценки r , а коэффициенты регрессии определяются при оценивании уравнения (4.13) с использованием этого значения.

Метод 5. Дарбиным была предложена простая схема, дающая эффективные оценки коэффициентов:

а). Подставляя (4.10) в модель Y i =b 0 +b 1 X i +u i , получим с учетом u i - 1 = Y i -1 - b 0 - b 1 X i -1:

Y i =b 0 (1-r )+rY i -1 +b 1 (X i - rX i -1) + e i ,

где ошибка e i удовлетворяет (4.11). Применяя обыкновенный МНК к последней модели, получаем оценку r как коэффициента при Y i -1 .

б). Вычисляем значения преобразованных переменных и применяем к ним обыкновенный МНК. Получаем искомые оценки коэффициентов регрессии.

Достоинством метода является простота его распространения на случай автокорреляции более высокого порядка.

Как показывают эксперименты, проведенные для малых выборок, лучшим является двухшаговый метод 2, использующий оценку r , полученную по методу, предложенному Дарбиным (метод 5 шаг а)).

9.1 Сущность и причины автокорреляции в остатках

Автокорреляция в остатках обычно встречается при регрессионном анализе временных рядов, и почти не встречается при анализе пространственных выборок. Чаще встречается положительная автокорреляция. Она в большинстве случаев вызывается направленным постоянным воздействием некоторых неучтенных в модели факторов. При положительной автокорреляции остатки изменяются монотонно с течением времени наблюдения, а при отрицательной – следует частое изменение знака остатка.

Среди базовых причин автокорреляции можно выделить следующие:

а) ошибки спецификации – неучет в модели какой-то важной объясняющей переменной или неверный выбор вида функции, что ведет к систематическим отклонениям точек наблюдения от линии регрессии,

б) инœерция – запаздывание реакции экономической системы на изменение факторов,

в) сглаживание данных.

Последствия автокорреляции в остатках такие же, как и в случае гетероскедастичности (потеря эффективности, смещение дисперсий оценок параметров, занижение стандартных ошибок и завышение t –статистик параметров), а это может повлечь признание незначимых факторов значимыми. Вследствие перечисленных обстоятельств, прогнозные качества модели ухудшаются.

При анализе временных рядов вместо индекса i часто будем использовать время t , а вместо числа наблюдений n будем писать – продолжительность интервала наблюдения временного ряда.

Мы будем рассматривать автокорреляцию первого порядка, так как в большинстве практических случаев автокорреляционная функция быстро убывает.

Коэффициент автокорреляции 1-го порядка в остатках:

В случае если данный коэффициент корреляции существенно отличен от 0, то можно говорить о наличии автокорреляции.

9.2. Обнаружение автокорреляции в остатках

1. Графический метод – при использовании этого метода строится график: ε t есть функция от ε t – 1 . В случае если в графике прослеживается отчетливая положительная или отрицательная тенденция, то, скорее всœего, имеет место соответствующая автокорреляция в остатках.

2. Метод рядов

В моменты времени определяются знаки отклонений, к примеру:

– для 20-ти наблюдений.

Рядом называют непрерывную последовательность одинаковых знаков (ряд ограничен скобками, в примере приведено 5 рядов). Количество знаков называют длиной ряда. В случае если рядов мало по сравнению с числом наблюдений, то вполне вероятна положительная автокорреляция, в случае если рядов много, – то отрицательная.

Для более детального анализа используется следующая процедура:

Пусть - число знаков ʼʼ+ʼʼ,

Число знаков ʼʼ–ʼʼ,

Количество рядов.

При достаточном количестве наблюдений и при отсутствии автокорреляции в остатках случайная величина имеет асимптотически нормальное распределœение со следующими параметрами:

Тогда, в случае если k лежит внутри интервала

то гипотеза об отсутствии автокорреляции не отклоняется; если лежит левее данного интервала, то есть положительная автокорреляция, а если правее – то отрицательная автокорреляция. Здесь γ – уровень значимости гипотезы об отсутствии автокорреляции. Стоит сказать, что для небольших и существует таблица Сведа–Эйзенхарта͵ в которой по значениям и находятся и .

В случае если k 1 < k < k 2 , то автокорреляция отсутствует, в случае если k < k 1 – есть положительная автокорреляция, в случае если k > k 2 – есть отрицательная автокорреляция.

3. Тест Дарбина-Уотсона (DW ). Это – самый популярный тест: ─ критерий Дарбина – Уотсона.

Установим связь между этим критерием и коэффициентом корреляции:

учитывая, что и , получим:

Процедура обнаружения автокорреляции по критерию DW такова:

1. Вычисляется критерий DW , для чего должна быть выполнена регрессия y на x и определœены остатки. Далее выдвигается гипотезаоб отсутствии автокорреляции в остатках.

2. По таблице критических значений теста Дарбина–Уотсона для назначенного уровня значимости γ , числа наблюдений n и числа факторов p определяются верхняя du и нижняя dl критические точки

3. Строятся области: I–от 0 до dl ; II–от dl до du; III–от du до 4–du ; IV– от 4–ul до 4–dl и V–от 4–dl до 4.

Это поясняется табл. 9.1.

таблица 9.1

При использовании критерия следует учитывать следующие ограничения:

а) он применим лишь для модели с ненулевым свободным членом,

в) временной ряд должен иметь одинаковую периодичность, то есть не должно быть пропусков наблюдений,

где - коэффициент авторегрессии, - количество наблюдений, – дисперсия коэффициента c 1 в уравнении авторегрессии y t = a + bx t + c 1 y t - 1 +…+ ε t , c 1 – коэффициент при в упомянутом уравнении.

Как использовать h – статистику?

Стоит сказать, что для назначенного уровня значимости γ выдвигают гипотезу об отсутствии автокорреляции в остатках, ᴛ.ᴇ. полагают, что в модели AR(1) остатков и статистика h имеет стандартное нормальное распределœение: .

По таблице функции Лапласа определяют критическую точку такую, что . В случае если , то отклоняется. В противном случае не отклоняется и автокорреляция не признается.

9.3. Методы устранения автокорреляции

1.Обобщенный МНК (ОМНК)

Рассмотрим исходную модель в моменты времени t и t –1:

– есть случайная величина, так как и – случайные величины,

Так как и .

Остаток не коррелирует ни с одним регрессором, следовательно, можно применить классический МНК. Оценка параметра b вычисляется непосредственно, а оценка параметра a вычисляется так: .

ОМНК может применяться для данных, начиная с момента , ᴛ.ᴇ. первое наблюдение теряется; его можно восстановить для и , используя поправку Прайса–Уинстена.

Автокорреляция остатков может возникать по нескольким причинам:

Во-первых, иногда автокорреляция связана с исходными данными и наличием ошибок измерения в значениях Y.

Во-вторых, иногда причину автокорреляции остатков следует искать в формулировке модели. В модель может быть не включен фактор, оказывающий существенное воздействие на результат, но влияние у которого отражается в остатках, вследствие чего последние могут оказаться автокоррелированными. Зачастую этим фактором является фактор времени t.

Иногда, в качестве существенных факторов могут выступать лаговые значения переменных , включенных в модель. Либо в модели не учтено несколько второстепенных факторов, совместное влияние которых на результат существенно ввиду совпадения тенденций их изменения или циклических колебаний.

Автокорреляция бывает явной и неявной.

Явная наблюдается в случае, когда известна точная зависимость между уровнями шоковой переменной, полученными в различные моменты времени.

Неявная – когда такая зависимость является стохастической:

Зависимость такого вида достаточно часто встречается при анализе временных рядов и носит название модели авторегрессии первого порядка AP (1).

К последствиям наличия в модели автокорреляции относятся:

а) увеличение дисперсий оценок параметров модели;

б) смещение оценок, полученных по МНК;

в) снижение значимости оценок параметров.

Если ρ >0, то автокорреляция будет положительной, а если ρ < 0 – отрицательной.

Наиболее популярным критерием диагностики эконометрической модели на наличие автокорреляции является тест Дарбина-Уотсона.

Кроме точечной проверки наличия автокорреляции шоковой переменной на практике проверяют статистические гипотезы следующих видов:

Критерии проверки гипотез 1) и 2) основаны на специальных таблицах Дарбина-Уотсона, в которых по уровню надежности содержаться доверительные границы статистики .

Однако, существуют особые ограничения при использовании теста Дарбина-Уотсона.



1) Модель должна содержать свободный член ;

2) Модель не должна содержать лаговых переменных.

В других учебниках существует деление автокорреляции на чистую и ложную .

Чистая вызывается зависимостью случайного члена от прошлых значений. Она, в свою очередь, делится на автокорреляцию первого порядка, второго порядка и высших порядков.

Ложная автокорреляция вызывается неправильной спецификацией модели.

Причинами чистой автокорреляции могут быть:

1. Инерция. Трансформация и изменение многих экономических показателей обладает инерционностью.

2. Эффект паутины. Многие экономические показатели реагируют на изменение экономических условий с временным лагом (запаздыванием).

3. Сглаживание данных. Усреднение данных по некоторому продолжительному интервалу времени.

Последствия автокорреляции:

1. Истинная автокорреляция не приводит к смещению оценок регрессии, но оценки перестают быть эффективными.

2. Автокорреляция (особенно положительная) часто приводит к уменьшению стандартных ошибок коэффициентов, что влечет за собой увеличение t -статистик.

3. Оценка дисперсии остатков S e 2 является смещенной оценкой истинного значения σ e 2 , во многих случаях занижая его.

4. В силу вышесказанного выводы по оценке качества коэффициентов и модели в целом, возможно, будут неверными. Это приводит к ухудшению прогнозных качеств модели.

Регрессионная модель МНК позволяет получить несмещенную оценку с минимальной дисперсией только тогда, когда остатки независимы друг от друга. Нарушение условия независимости остатков () называется автокорреляцией. Если имеет место автокорреляция остатков, то коэффициенты регрессии не смещены, но стандартные ошибки недооценены, а проверка статистической значимости коэффициентов ненадежна. Автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих наблюдений. Автокорреляция остатков обычно встречается в регрессионном анализе при использовании данных временных рядов. В силу этого в дальнейших выкладках вместо символа i порядкового номера наблюдения будем использовать символ t, отражающий момент наблюдения. Объем выборки при этом будем обозначать T.

Причины автокорреляции:

Ошибки спецификации – неучет в модели важной объясняющей переменной или неправильный выбор формы зависимости;

Эффект паутины – многие экономические показатели реагируют на изменение экономических условий с запаздыванием (временным лагом).

Методы обнаружения автокорреляции

В силу неизвестности значений параметров уравнения регрессии неизвестными будут также и истинные значения отклонений ,t= 1, 2, ..., Т. Поэтому выводы об их независимости осуществляются на основе оценок ε t ,t= 1, 2, ..., Т, полученных из эмпирического уравнения регрессии. Рассмотрим возможные методы определения автокорреляции.

Метод рядов.

Последовательно определяются знаки отклонений ,t= 1, 2, ..., Т.

Например, (- - - - -)(+++++++)(- - -)(++++)(-),

т.е. 5 «-», 7 «+», 3 «-», 4 «+», 1 «-».

Ряд определяется как непрерывная последовательность одинаковых знаков. Количество знаков в ряду называетсядлиной ряда .

Визуальное распределение знаков свидетельствует о неслучайном характере связей между отклонениями. Если рядов слишком мало по сравнению с количеством наблюдений п , то вполне вероятна положительная автокорреляция. (В большинстве случаев положительная автокорреляция вызывается направленным постоянным воздействием некоторых неучтенных в модели факторов). Если же рядов слишком много, то вероятна отрицательная автокорреляция. Для более детального анализа предлагается следующая процедура. Пусть

п - объем выборки;

п 1 - общее количество знаков «+» прип наблюдениях;

п 2 - общее количество знаков «-» прип наблюдениях; .

k- количество рядов.

Если при достаточно большом количестве наблюдений (n 1 >10,п 2 >10) количество рядовkлежит в пределах

то гипотеза об отсутствии автокорреляции не отклоняется.

Для небольшого числа наблюдений (n 1 <20,n 2 <20) Свед и Эйзенхарт разработали таблицы критических значенийk 1 ,k 2 отn 1 ,n 2 .

Если , то говорят об отсутствии автокорреляции;

если , говорят о положительной автокорреляции остатков;

если , говорят об отрицательной автокорреляции остатков.

В нашем примере: n=20,n 1 =11,n 2 =9,k=5. По таблицамk 1 =6,k 2 =16. Пронимается предположение о наличии положительной автокорреляции на уровне значимости 0,05.

Для проверки автокорреляции первого порядка (для регрессии временных рядов) необходимо рассчитать критерий Дарбина-Уотсона . Он определяется так:

.

Эмпирическое правило гласит, что если критерий Дарбина- Уотсона равен двум, то не существует положительной автокорреляции, если он равен нулю, то имеет место совершенная положительная автокорреляция, а если он равен четырем, то имеет место совершенная отрицательная автокорреляция. Критерий Дарбина-Уотсона имеет выборочное распределение, которое обладает двумя критическими значениями: d L – нижняя границаиd U – верхняя граница.

Мультиколлинеарность

Одним из условий классической линейной регрессионной модели является предположение о линейной независимости объясняющих переменных, что означает линейную независимость столбцов матрицы или (эквивалентно), что матрица не вырождена. При нарушении этого условия, т.е. когда один из столбцов матрицы есть линейная комбинация остальных столбцов, говорят, что имеет место полная коллинеарность. В этой ситуации нельзя построить МНК-оценку вектора параметров , поскольку .

На практике полная коллинеарность встречается исключительно редко. Гораздо чаще приходится сталкиваться с ситуацией, когда матрица имеет полный ранг, но между регрессорами имеется высокая степень корреляции, что приводит к тому, что матрица близка к вырожденной. Тогда говорят о наличии мультиколлинеарности. В этом случае МНК-оценка существует, но обладает «плохими» свойствами.

Мультиколлинеарность может возникнуть в силу разных причин. Например, несколько независимых переменных могут иметь общий временной тренд, относительно которого они совершают малые колебания.

Признаки мультиколлинеарности:

1) Небольшое изменение исходных данных (например, добавление новых наблюдений) приводит к существенному изменению оценок коэффициентов регрессии.

2) Оценки имеют большие стандартные ошибки (и, следовательно, большие доверительные интервалы), малую значимость (т.е. малые t -статистики ) в то время как модель в целом является значимой (т.е. высокое значение коэффициента детерминации и соответствующей F -статистики )

3) Оценки коэффициентов имеют неоправданные с точки зрения теории знаки или неоправданно большие значения.

4) Парная корреляция между малозначимыми объясняющими переменными достаточно высока.

5) Высокие частные коэффициенты корреляции.

Напомним, что выборочный коэффициент (парной) корреляции между переменными и находится по формуле:

(1)

Выборочный частный коэффициент корреляции находится следующим образом.

Пусть даны переменные , .

Обозначим .

Пусть , .

Построим регрессии и на :

(2)

(3)

Найдем остатки для этих регрессий:

Частный коэффициент корреляции между и без учета влияния переменных – это коэффициент парной корреляции между остатками и :

Таким образом, коэффициент частной корреляции позволяет исключить влияние других факторов на взаимосвязь между рассматриваемыми переменными.

Например, равен коэффициенту парной корреляции между остатками и следующих регрессий:

(6)

(7)

Последствия мультиколлинеарности

1) Большие стандартные ошибки затрудняют нахождение истинных значений определяемых величин и расширяют их интервальные оценки, ухудшая их точность.



2) Ухудшается качество прогноза.

3) Малые t -статистики коэффициентов могут привести к неоправданному выводу о их малой значимости, т.е. о слабом влиянии соответствующей объясняющей переменной на зависимую переменную.

4) Оценки коэффициентов и их стандартные ошибки становятся очень чувствительными к малейшим изменениям данных, т.е. они становятся неустойчивыми.

Методы устранения мультиколлинеарности

1) Исключение переменных из модели. Исключается из модели одна или несколько коррелированных объясняющих переменных. Например, можно последовательно исключать из модели объясняющие переменные с наименьшими незначащими t -статистиками коэффициентов регрессии (причем после каждого исключения из модели объясняющей переменной следует производить пересчет t -статистик для оставшихся объясняющих переменных).

2) Можно использовать описанный в предыдущей теме алгоритм оптимального отбора объясняющих переменных, основанный на использовании скорректированного коэффициента детерминации .

3) Получение дополнительных данных или новой выборки

4) Изменение спецификации модели

5) Преобразование переменных.

Например, вместо переменной можно включить в модель переменную .

Гетероскедастичность и автокорреляция остатков

Гетероскедастичность означает, что дисперсии случайных отклонений зависят от , т.е. нарушается гипотеза классической модели о постоянстве этих дисперсий.

Автокорреляция остатков означает, что ковариации не равны нулю при разных значениях и .

Суть и причины гетероскедастичности

Гетероскедастичность означает, что зависит от номера наблюдения . Обычно эта зависимость возникает вследствие зависимости от . Например, если – уровень дохода семьи, а – ее потребление, естественно ожидать что для семей с высоким доходом разброс в их потреблении больше, чем для семей с низким доходом.

Проблема гетероскедастичности характерна для перекрестных данных и довольно редко встречается при рассмотрении временных рядов.

Последствия гетероскедастичности

1) Оценки коэффициентов регрессии, оставаясь линейными и несмещенными, перестают быть эффективными, что (в частности) ухудшает прогноз.

2) Дисперсии и ковариации оценок являются смещенными. Это приводит к искажению значений статистик Стъюдента и Фишера, что негативным образом сказывается на результаты проверки гипотез и построении интервальных оценок.

Обнаружение гетероскедастичности

Графический анализ остатков.

По оси абсцисс откладываются либо номера наблюдений , либо значения объясняющей переменной , либо линейная комбинация объясняющих переменных, либо прогнозные значения объясняемой переменной. По оси ординат – либо отклонения , либо их квадраты . При наличии гетероскедастичности можно визуально заметить зависимость значений от .

Тест Уайта (White)

Сначала к исходной модели применяется обычный метод наименьших квадратов и находятся остатки регрессии , . Затем осуществляется регрессия квадратов этих остатков на все регрессоры исходной модели, их квадраты , попарные произведения и константу (если ее не было в составе исходных регрессоров). Для этой регрессии находится коэффициент детерминации . Тогда при выполнении нулевой гипотезы о постоянстве дисперсий случайных отклонений величина:

асимптотически (т.е. при большом количестве наблюдений ) имеет распределение , где – число регрессоров второй регрессии.

Напомним, что распределение «хи квадрат» с степенями свободы – это распределение следующей случайной величины:

где – независимые стандартные нормальные случайные величины.

Следовательно, при выполнении нулевой гипотезы имеет место равенство:

где – -квантиль распределения «хи квадрат» с степенями свободы.

В случае, если нулевая гипотеза отвергается (и, следовательно, можно сделать вывод о наличии гетероскедастичности); если , нет оснований отвергать нулевую гипотезу (и, она принимается).

Тест ранговой корреляции Спирмана

Этот тест применяется, когда есть предположение о прямой зависимости дисперсии ошибки от величины некоторой независимой переменной. Значения такой независимой переменной и абсолютные величины отклонений ранжируются (упорядочиваются по величинам). Затем определяется коэффициент ранговой корреляции:

, (11)

где – разность между рангами и . (Например, если при значение является 25-м по величине среди всех наблюдений , а является 32-м, то .)

Доказано, что если коэффициент корреляции равен нулю, то статистика:

(12)

имеет распределение Стъюдента с числом степеней свободы . Следовательно, если

(13)

(где двусторонняя квантиль распределения Стъюдента с степенями свободы при уровне значимости ), то нулевая гипотеза о равенстве нулю коэффициента корреляции отклоняется, и, следовательно, можно сделать вывод о присутствии гетероскедастичности.

Тест Голфельда-Куандта (Goldfeld-Quandt)

Этот тест также применяется, когда есть предположение о прямой зависимости дисперсии ошибки от величины некоторой независимой переменной.

1) упорядочить данные по убыванию той независимой переменной, относительно которой есть подозрение на гетероскедастичность;

2) исключить средних (в этом упорядочении) наблюдений ( должно быть примерно равно четверти общего количества наблюдений);

3) провести две независимые регрессии первых наблюдений и последних наблюдений и построить соответствующие остатки и ;

4) составить статистику .

Если верна нулевая гипотеза (8) о постоянстве дисперсий случайных отклонений, то построенная статистика имеет распределение Фишера с степенями свободы.

В случае, если нулевая гипотеза отвергается и, следовательно, можно сделать вывод о присутствии гетероскедастичности; если , нет оснований отвергать нулевую гипотезу.

Суть и причины автокорреляции

Автокорреляция остатков (отклонений) в подавляющем большинстве случаев встречается в регрессионном анализе при использовании данных временных рядов. В экономических задачах значительно чаще встречается положительная автокорреляция (т.е. когда ), нежели отрицательная.