Алгоритмы построения уравнения множественной регрессии скалярный матричный. Построение уравнения множественной регрессии. Какие факторы необходимо учитывать при построении множественной регрессии

Поскольку статистические явления органически связаны между собой, зависят друг от друга и обуславливают друг друга, то необходимы специальные статистические методы анализа, позволяющие изучать форму, тесноту и другие параметры статистических взаимосвязей. Одним из таких методов является корреляционный анализ. В отличие от функциональных зависимостей, при которых изменение какого-либо признака - функции полностью и однозначно определяется изменением другого признака-аргумента, при корреляционных формах связи изменению результирующего признака соответствует изменение среднего значения одного или нескольких факторов. При этом рассматриваемые факторы определяют результирующий признак полностью.

Если исследуется связь между одним фактором и одним признаком, связь называется однофакторной и корреляция является парной, если же исследуется связь между несколькими факторами и одним признаком, связь называется многофакторной и корреляция является множественной.

Силу и направление однофакторной связи между показателями характеризует линейный коэффициент корреляции r, который исчисляется по формуле:

Значение этого коэффициента изменяется от - 1 до +1. Отрицательное значение коэффициента корреляции свидетельствует о том, что связь обратная, положительная - связь прямая. Связь является тем более тесной и близкой к функциональной, чем ближе значение коэффициента к 1. По формуле линейного коэффициента (1.29) рассчитывают также парные коэффициенты корреляции, которые характеризуют тесноту связи между парами рассматриваемых переменных (без учета их взаимодействия с другими переменными). Показателем тесноты связи между результативным и факторным признаками является коэффициент множественной корреляции R. В случае линейной двухфакторной связи он может быть рассчитан по формуле:

где r - линейные (парные) коэффициенты корреляции.

Значение этого коэффициента может изменяться от 0 до 1.

Коэффициент R 2 называется коэффициентом множественной детерминации и показывает, какая доля вариации изучаемого показателя обуславливается линейным влиянием учтенных факторов. Значения коэффициента находятся в пределах от 0 до 1. Чем ближе R 2 к 1, тем большим является влияние отобранных факторов на результирующий признак.

Завершающим этапом корреляционно-регрессионного анализа является построение уравнения множественной регрессии и нахождение неизвестных параметров а 0, а 1 , …, а n выбранной функции. Уравнение двухфакторной линейной регрессии имеет вид:

y x = а 0 +a 1 x 1 +a 2 x 2 (1.30)

где y x - расчетные значения результирующего признака;

x 1 и x 2 - факторные признаки;

Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. Если же этим влиянием пренебречь нельзя, то в этом случае следует попытаться выявить влияние других факторов, введя их в модель, т.е. построить уравнение множественной регрессии

где – зависимая переменная (результативный признак),– независимые, или объясняющие, переменные (признаки-факторы).

Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах и целом ряде других вопросов эконометрики. В настоящее время множественная регрессия – один из наиболее распространенных методов в эконометрике. Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

2.1. Спецификация модели. Отбор факторов при построении уравнения множественной регрессии

Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели. Он включает в себя два круга вопросов: отбор факторов и выбор вида уравнения регрессии.

Включение в уравнение множественной регрессии того или иного набора факторов связано прежде всего с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям.

    Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность.

    Факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.

Включение в модель факторов с высокой интеркорреляцией, может привести к нежелательным последствиям – система нормальных уравнений может оказаться плохо обусловленной и повлечь за собой неустойчивость и ненадежность оценок коэффициентов регрессии.

Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются неинтерпретируемыми.

Включаемые во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строится модель с набором
факторов, то для нее рассчитывается показатель детерминации
, который фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии
факторов. Влияние других, не учтенных в модели факторов, оценивается как
с соответствующей остаточной дисперсией.

При дополнительном включении в регрессию
фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться:

и
.

Если же этого не происходит и данные показатели практически не отличаются друг от друга, то включаемый в анализ фактор
не улучшает модель и практически является лишним фактором.

Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по критерию Стьюдента.

Таким образом, хотя теоретически регрессионная модель позволяет учесть любое число факторов, практически в этом нет необходимости. Отбор факторов производится на основе качественного теоретико-экономического анализа. Однако теоретический анализ часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель. Поэтому отбор факторов обычно осуществляется в две стадии: на первой подбираются факторы исходя из сущности проблемы; на второй – на основе матрицы показателей корреляции определяют статистики для параметров регрессии.

Коэффициенты интеркорреляции (т.е. корреляции между объясняющими переменными) позволяют исключать из модели дублирующие факторы. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если
. Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.

Пусть, например, при изучении зависимости
матрица парных коэффициентов корреляции оказалась следующей:

Таблица 2.1

Очевидно, что факторы идублируют друг друга. В анализ целесообразно включить фактор, а не, хотя корреляцияс результатомслабее, чем корреляция факторас
, но зато значительно слабее межфакторная корреляция
. Поэтому в данном случае в уравнение множественной регрессии включаются факторы,.

По величине парных коэффициентов корреляции обнаруживается лишь явная коллинеарность факторов. Наибольшие трудности в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью, т.е. имеет место совокупное воздействие факторов друг на друга. Наличие мультиколлинеарности факторов может означать, что некоторые факторы будут всегда действовать в унисон. В результате вариация в исходных данных перестает быть полностью независимой и нельзя оценить воздействие каждого фактора в отдельности.

Включение в модель мультиколлинеарных факторов нежелательно в силу следующих последствий:

    Затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированы; параметры линейной регрессии теряют экономический смысл.

    Оценки параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

Для оценки мультиколлинеарности факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами.

Если бы факторы не коррелировали между собой, то матрица парных коэффициентов корреляции между факторами была бы единичной матрицей, поскольку все недиагональные элементы
были бы равны нулю. Так, для уравнения, включающего три объясняющих переменных

матрица коэффициентов корреляции между факторами имела бы определитель, равный единице:

.

Если же, наоборот, между факторами существует полная линейная зависимость и все коэффициенты корреляции равны единице, то определитель такой матрицы равен нулю:

.

Чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И, наоборот, чем ближе к единице определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов.

Существует ряд подходов преодоления сильной межфакторной корреляции. Самый простой путь устранения мультиколлинеарности состоит в исключении из модели одного или нескольких факторов. Другой подход связан с преобразованием факторов, при котором уменьшается корреляция между ними.

Одним из путей учета внутренней корреляции факторов является переход к совмещенным уравнениям регрессии, т.е. к уравнениям, которые отражают не только влияние факторов, но и их взаимодействие. Так, если
, то возможно построение следующего совмещенного уравнения:

Рассматриваемое уравнение включает взаимодействие первого порядка (взаимодействие двух факторов). Возможно включение в модель и взаимодействий более высокого порядка, если будет доказана их статистическая значимость по
-критерию Фишера, но, как правило, взаимодействия третьего и более высоких порядков оказываются статистически незначимыми.

Отбор факторов, включаемых в регрессию, является одним из важнейших этапов практического использования методов регрессии. Подходы к отбору факторов на основе показателей корреляции могут быть разные. Они приводят построение уравнения множественной регрессии соответственно к разным методикам. В зависимости от того, какая методика построения уравнения регрессии принята, меняется алгоритм ее решения на ЭВМ.

Наиболее широкое применение получили следующие методы построения уравнения множественной регрессии:

    Метод исключения – отсев факторов из полного его набора.

    Метод включения – дополнительное введение фактора.

    Шаговый регрессионный анализ – исключение ранее введенного фактора.

При отборе факторов также рекомендуется пользоваться следующим правилом: число включаемых факторов обычно в 6–7 раз меньше объема совокупности, по которой строится регрессия. Если это соотношение нарушено, то число степеней свободы остаточной дисперсии очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми, а
-критерий меньше табличного значения.

1. Модель с двумя независимыми переменными.

2. Оценка коэффициентов модели множественной регрессии методом наименьших квадратов.

3. Парная и частная корреляция в модели множественной регрессии.

4. Оценка качества модели множественной регрессии.

5. Мультиколлинеарность и методы ее устранения.

6. Интерпретация коэффициентов модели множественной регрессии.

Множественная регрессия - это уравнение статистической связи с несколькими независимыми переменными:

y = f (x 1 , x 2 , x p)

где y - зависимая переменная (результативный признак);

x 1 , x 2 , x p - независимые переменные (факторы).

Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели. Он включает в себя два круга вопросов: отбор факторов и выбор вида уравнения регрессии.

Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:

1. Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность.

2. Факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.

Включаемые во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строится модель с набором факторов, то для нее рассчитывается показатель детерминации , который фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии факторов. Влияние других, не учтенных в модели факторов, оценивается как с соответствующей остаточной дисперсией .

Отбор факторов обычно осуществляется в две стадии: на первой подбираются факторы исходя из сущности проблемы; на второй - на основе матрицы показателей корреляции определяют статистики для параметров регрессии.

Коэффициенты интеркорреляции (т.е. корреляции между объясняющими переменными) позволяют исключать из модели дублирующие факторы. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если . Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии.

Пусть, например, при изучении зависимости матрица парных коэффициентов корреляции оказалась следующей:

0,8 0,7 0,6
0,8 0,8 0,5
0,7 0,8 0,2
0,6 0,5 0,2

Очевидно, что факторы и дублируют друг друга. В анализ целесообразно включить фактор , а не , хотя корреляция с результатом слабее, чем корреляция фактора с , но зато значительно слабее межфакторная корреляция . Поэтому в данном случае в уравнение множественной регрессии включаются факторы , .


По величине парных коэффициентов корреляции обнаруживается лишь явная коллинеарность факторов. Наибольшие трудности в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью, т.е. имеет место совокупное воздействие факторов друг на друга . Наличие мультиколлинеарности факторов может означать, что некоторые факторы будут всегда действовать в унисон. В результате вариация в исходных данных перестает быть полностью независимой и нельзя оценить воздействие каждого фактора в отдельности.

Включение в модель мультиколлинеарных факторов нежелательно в силу следующих последствий:

1. Затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированы; параметры линейной регрессии теряют экономический смысл.

2. Оценки параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

Для оценки мультиколлинеарности факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами.

Если бы факторы не коррелировали между собой, то матрица парных коэффициентов корреляции между факторами была бы единичной матрицей, поскольку все недиагональные элементы были бы равны нулю. Так, для уравнения, включающего три объясняющих переменных

матрица коэффициентов корреляции между факторами имела бы определитель, равный единице:

.

Если же, наоборот, между факторами существует полная линейная зависимость и все коэффициенты корреляции равны единице, то определитель такой матрицы равен нулю:

.

Чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И, наоборот, чем ближе к единице определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов.

Самый простой путь устранения мультиколлинеарности состоит в исключении из модели одного или нескольких факторов. Другой подход связан с преобразованием факторов, при котором уменьшается корреляция между ними.

Одним из путей учета внутренней корреляции факторов является переход к совмещенным уравнениям регрессии, т.е. к уравнениям, которые отражают не только влияние факторов, но и их взаимодействие. Так, если , то возможно построение следующего совмещенного уравнения:

Рассматриваемое уравнение включает взаимодействие первого порядка (взаимодействие двух факторов). Возможно включение в модель и взаимодействий более высокого порядка, если будет доказана их статистическая значимость по -критерию Фишера, но, как правило, взаимодействия третьего и более высоких порядков оказываются статистически незначимыми.

В зависимости от того, какая методика построения уравнения регрессии принята, меняется алгоритм ее решения на ЭВМ.

Наиболее широкое применение получили следующие методы построения уравнения множественной регрессии:

1. Метод исключения - отсев факторов из полного его набора.

2. Метод включения - дополнительное введение фактора.

3. Шаговый регрессионный анализ - исключение ранее введенного фактора.

1. Основные определения и формулы

Множественная регрессия - регрессия между переменными и т.е. модель вида:

где - зависимая переменная (результативный признак);

- независимые объясняющие переменные;

Возмущение или стохастическая переменная, включающая влияние неучтенных в модели факторов;

Число параметров при переменных

Основная цель множественной регрессии - построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

Уравнение множественной линейной регрессии в случае независимых переменных имеет вид а в случае двух независимых переменных - (двухфакторное уравнение).

Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов . Строится система нормальных уравнений:

Решение этой системы позволяет получить оценки параметров регрессии с помощью метода определителей

где - определитель системы;

- частные определители, которые получаются путем замены соответствующего столбца матрицы определителя системы данными правой части системы.

Для двухфакторного уравнения коэффициенты множественной линейной регрессии можно вычислить по формулам:

Частные уравнения регрессии характеризуют изолированное влияние фактора на результат, ибо другие факторы закреплены на неизменном уровне. Эффекты влияния других факторов присоединены в них к свободному члену уравнения множественной регрессии. Это позволяет на основе частных уравнений регрессии определять частные коэффициенты эластичности :

Средние коэффициентами эластичности показывают на сколько процентов в среднем изменится результат при изменении соответствующего фактора на 1%:

Их можно сравнивать друг с другом и соответственно ранжировать факторы по силе их воздействия на результат.

Тесноту совместного влияния факторов на результат оценивает коэффиц и ент (индекс) множественной корреляции :

Величина индекса множественной корреляции лежит в пределах от 0 до 1 и должна быть больше или равна максимальному парному индексу корреляции:

Чем ближе значение индекса множественной корреляции к 1, тем теснее связь результативного признака со всем набором исследуемых факторов.

Сравнивая индексы множественной и парной корреляции, можно сделать вывод о целесообразности (величина индекса множественной корреляции существенно отличается от индекса парной корреляции) включения в уравнение регрессии того или иного фактора.

При линейной зависимости совокупный коэффициент множественной ко р реляции определяется через матрицу парных коэффициентов корреляции:

где - определитель матрицы парных коэффициентов корреляции;

- определитель матрицы межфакторной корреляции.

Частны е коэффициент ы корреляции характеризуют тесноту линейной зависимости между результатом и соответствующим фактором при устранении влияния других факторов. Если вычисляется, например, (частный коэффициент корреляции между и при фиксированном влиянии ), это означает, что определяется количественная мера линейной зависимости между и которая будет иметь место, если устранить влияние на эти признаки фактора

Частные коэффициенты корреляции, измеряющие влияние на фактора при неизменном уровне других факторов, можно определить как:

или по рекуррентной формуле:

Для двухфакторного уравнения:

или

Частные коэффициенты корреляции изменяются в пределах от -1 до +1.

Сравнение значений парного и частного коэффициентов корреляции показывает направление воздействия фиксируемого фактора. Если частный коэффициент корреляции получится меньше, чем соответствующий парныйкоэффициент значит взаимосвязь признаков и в некоторой степени обусловлена воздействием на них фиксируемой переменной И наоборот, большее значение частного коэффициента по сравнению с парным свидетельствует о том, что фиксируемая переменная ослабляет своим воздействием связь и

Порядок частного коэффициента корреляции определяется количеством факторов, влияние которых исключается. Например, - коэффициент частной корреляции первого порядка.

Зная частные коэффициенты корреляции (последовательно первого, второго и более высокого порядка), можно определить совокупный коэффициент мн о жественной корреляции :

Качество построенной модели в целом оценивает коэффициент (индекс) множественной детерминации , который рассчитывается как квадрат индекса множественной корреляции: Индекс множественной детерминации фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии факторов. Влияние других, не учтенных в модели факторов, оценивается как

Если число параметров при близко к объему наблюдений, то коэффициент множественной корреляции приблизится к единице даже при слабой связи факторов с результатом. Для того чтобы не допустить возможногопреувеличения тесноты связи, используется скорректированный индекс множественной корреляции , который содержит поправку на число степеней свободы:

Чем больше величина тем сильнее различия и

Значимость частных коэффициентов корреляции проверяется аналогично случаю парных коэффициентов корреляции. Единственным отличием является число степеней свободы, которое следует брать равным =--2.

Значимость уравнения множественной регрессии в целом , так же как и в парной регрессии, оценивается с помощью - критерия Фишера :

Мерой для оценки включения фактора в модель служит частный -критерий . В общем виде для фактора частный -критерий определяется как

Для двухфакторного уравнения частные -критерии имеют вид:

Если фактическое значение превышает табличное, то дополнительное включение фактора в модель статистически оправданно и коэффициент чистой регрессии при факторе статистически значим. Если же фактическое значение меньше табличного, то фактор нецелесообразно включать в модель, а коэффициент регрессии при данном факторе в этом случае статистически незначим.

Для оценки значимости коэффициентов чистой регрессии по -критерию Стьюдента используется формула:

где - коэффициент чистой регрессии при факторе

- средняя квадратическая (стандартная) ошибка коэффициента регрессии которая может быть определена по формуле:

При дополнительном включении в регрессию нового фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если это не так, то включаемый в анализ новый фактор не улучшает модель и практически является лишним фактором. Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по -критерию Стьюдента.

При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарности факторов. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

Для оценки мультиколлинеарности факторов может использоваться опред е литель матрицы между факторами . Чем ближе к 0 определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И наоборот, чем ближе к 1 определитель, тем меньше мультиколлинеарность факторов.

Для применения МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это означает, что для каждого значения фактора остатки имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность . При нарушении гомоскедастичности выполняются неравенства

Наличие гетероскедастичности можно наглядно видеть из поля корреляции (рис. 9.22).

Рис. 9.22 . Примеры гетероскедастичности:

а) дисперсия остатков растет по мере увеличения

б) дисперсия остатков достигает максимальной величины при средних значениях переменной и уменьшается при минимальных и максимальных значениях

в) максимальная дисперсия остатков при малых значениях и дисперсия остатков однородна по мере увеличения значений

Для проверки выборки на гетероскедастичность можно использовать метод Гольдфельда-Квандта (при малом объеме выборки) или критерий Бартлетта (при большом объеме выборки).

Последовательность применения теста Гольдфельда-Квандта :

1) Упорядочить данные по убыванию той независимой переменной, относительно которой есть подозрение на гетероскедастичность.

2) Исключить из рассмотрения центральных наблюдений. При этом где - число оцениваемых параметров. Из экспериментальных расчетов для случая однофакторного уравнения регрессии рекомендовано при =30 принимать =8, а при =60 соответственно =16.

3) Разделить совокупность из наблюдений на две группы (соответственно с малыми и большими значениями фактора ) и определить по каждой из групп уравнение регрессии.

4) Вычислить остаточную сумму квадратов для первой и второй групп и найти их отношение где При выполнении нулевой гипотезы о гомоскедастичности отношение будет удовлетворять -критерию Фишера со степенями свободы для каждой остаточной суммы квадратов. Чем больше величина превышает тем более нарушена предпосылка о равенстве дисперсий остаточных величин.

Если необходимо включить в модель факторы, имеющие два или более качественных уровней (пол, профессия, образование, климатические условия, принадлежность к определенному региону и т.д.), то им должны быть присвоены цифровые метки, т.е. качественные переменные преобразованы в количественные. Такого вида сконструированные переменные называют фиктивными (и с кусственными) переменными .

К оэффициент регрессии при фиктивной переменной интерпретируется как среднее изменение зависимой переменной при переходе от одной категории к другой при неизменных значениях остальных параметров. Значимость влияния фиктивной переменной проверяется с помощью -критерия Стьюдента.

2. Решение типовых задач

Пример 9. 2. По 15 предприятиям отрасли (табл. 9.4) изучается зависимость затрат на выпуск продукции (тыс. ден. ед.) от объема произведенной продукции (тыс. ед.) и расходов на сырье (тыс. ден. ед). Необходимо:

1) Построить уравнение множественной линейной регрессии.

2) Вычислить и интерпретировать:

Средние коэффициенты эластичности;

Парные коэффициенты корреляции, оценить их значимость на уровне 0,05;

Частные коэффициенты корреляции;

Коэффициент множественной корреляции, множественный коэффициент детерминации, скорректированный коэффициент детерминации.

3) Оценить надежность построенного уравнения регрессии и целесообразность включения фактора после фактора и после

Таблица 9.4

x 1

x 2

Решение:

1) В Excel составим вспомогательную таблицу рис. 9.23.

Рис. 9.23 . Расчетная таблица многофакторной регрессии.

С помощью встроенных функций вычислим: =345,5; =13838,89; =8515,78; =219,315; =9,37; =6558,08.

Затем найдем коэффициенты множественной линейной регрессии и оформим вывод результатов как на рис. 9.24.

Рис. 9.24 . Решение задачи в MS Excel

Для вычисления значения коэффициента используем формулы

Формулы для вычисления параметров заносим в ячейки Е 20 , Е 2 1, Е 2 2. Так длявычисления параметра b 1 в Е 20 поместим формулу =(B20*B24-B21*B22)/(B23*B24-B22^2) и получим 29,83. Аналогично получаем значения =0,301 и Коэффициент =-31,25 (рис. 9.25.).

Рис. 9.25 . Вычисление параметров уравнения множественной регрессии (в с т роке формул формула для расчета b 2) .

Уравнение множественной линейной регрессии примет вид:

31,25+29,83+0,301

Таким образом, при увеличении объема произведенной продукции на 1 тыс. ед. затраты на выпуск этой продукции в среднем увеличатся на 29,83 тыс. ден. ед., а при увеличении расходов на сырье на 1 тыс. ден. ед. затраты увеличатся в среднем на 0,301 тыс. ден. ед.

2) Для вычисления средних коэффициентов эластичности воспользуемся формулой: Вычисляем: =0,884 и =0,184. Т.е. увеличение только объема произведенной продукции (от своего среднего значения) или только расходов на сырье на 1% увеличивает в среднем затраты на выпуск продукции на 0,884% или 0,184% соответственно. Таким образом, фактор оказывает большее влияние на результат, чем фактор

Для вычисления парных коэффициентов корреляции воспользуемся функцией «КОРРЕЛ» рис. 9.26.

Рис. 9.26 . Вычисление парных коэффициентов корреляции

Значения парных коэффициентов корреляции указывают на весьма тесную связь с и на тесную связь с В то же время межфакторная связь очень сильная (=0,88>0,7), что говорит о том, что один из факторов является неинформативным, т.е. в модель необходимо включать или или

З начимост ь парных коэффициентов корреляции оценим с помощью -критерия Стьюдента. =2,1604 определяем с помощью встроенной статистической функции СТЬЮДРАСПОБР взяв =0,05 и =-2=13.

Фактическое значение -критерия Стьюдента для каждого парного коэффициента определим по формулам: . Результат расчета представлен на рис. 9.27.

Рис. 9.27 . Результат расчета фактических значений -критерия Стьюдента

Получим =12,278; =7,1896; =6,845.

Так как фактические значения -статистики превосходят табличные, то парные коэффициенты корреляции не случайно отличаются от нуля, а статистически значимы.

Получим =0,81; =0,34; =0,21. Таким образом, фактор оказывает более сильное влияние на результат, чем

При сравнении значений коэффициентов парной и частной корреляции приходим к выводу, что из-за сильной межфакторной связи коэффициенты парной и частной корреляции отличаются довольно значительно.

Коэффициент множественной корреляции

Следовательно, зависимость от и характеризуется как очень тесная, в которой =93% вариации затрат на выпуск продукции определяются вариацией учтенных в модели факторов: объема произведенной продукции и расходов на сырье. Прочие факторы, не включенные в модель, составляют соответственно 7% от общей вариации

Скорректированный коэффициент множественной детерминации =0,9182 указывает на тесную связь между результатом и признаками.

Рис. 9.28 . Результаты расчета частных коэффициентов корреляции и коэфф и циента множественной корреляции

3) Оценим надежность уравнения регрессии в целом с помощью -критерия Фишера. Вычислим . =3,8853 определяем взяв =0,05, =2, =15-2-1=12 помощью встроенной статистической функции FРАСПОБР с такими же параметрами.

Так как фактическое значение больше табличного, то с вероятностью 95% делаем заключение о статистической значимости уравнения множественной линейной регрессии в целом.

Оценим целесообразность включения фактора после фактора и после с помощью частного -критерия Фишера по формулам

; .

Для этого в ячейку B32 заносим формулу для расчета F x 1 «=(B28- H24^2)*(15-3)/(1-B28) », а в ячейку B 33 формулу для расчета F x 2 «=(B28-H23^2)*(15-3)/(1-B28) », результат вычисления F x 1 = 22,4127, F x 2 = 1,5958. Табличное значение критерия Фишера определим с помощью встроенной функции FРАСПОБР с параметрами =0,05, =1, =12 «=FРАСПОБР(0,05; 1 ;12) », результат - =4,747. Так как =22,4127>=4,747, а =1,5958<=4,747, то включение фактора в модель статистически оправдано и коэффициент чистой регрессии статистически значим, а дополнительное включение фактора после того, как уже введен фактор нецелесообразно (рис. 9.29).

Рис. 9.29 . Результаты расчета критерия Фишера

Низкое значение (немногим больше 1) свидетельствует о статистической незначимости прироста за счет включения в модель фактора после фактора Это означает, что парная регрессионная модель зависимости затрат на выпуск продукции от объема произведенной продукции является достаточно статистически значимой, надежной и что нет необходимости улучшать ее, включая дополнительный фактор (расходы на сырье).

3. Дополнительные сведения для решения задач с помощью MS Excel

Сводные данные основных характеристик для одного или нескольких массивов данных можно получить с помощью инструмента анализа данных Опис а тельная статистика . Порядок действий следующий:

1. Необходимо проверить доступ к Пакету анализа . Для этого в ленте выбираем вкладку «Данные», в ней раздел «Анализ» (рис. 9.30.).

Рис. 9.30 . Вкладка данные диалоговое окно «Анализ данных»

2. В диалоговом окне «Анализ данных» выбрать Описательная стат и стика и нажать кнопку «ОК», в появившемся диалоговом окне заполните необходимые поля (рис. 9.31):

Рис. 9.31 . Диалоговое окно ввода параметров инструмента
« Описательная статистика »

Входной интервал - диапазон, содержащий данные результативного и объясняющих признаков;

Группирование - указать, как расположены данные (в столбцах или строках);

Метки - флажок, который указывает, содержит ли первая строка названия столбцов или нет;

Выходной интервал - достаточно указать левую верхнюю ячейку будущего диапазона;

Новый рабочий лист - можно задать произвольное имя нового листа, на который будут выведены результаты.

Для получения информации Итоговой статистики, Уровня наде ж ности, -го наибольшего и наименьшего значений нужно установить соответствующие флажки в диалоговом окне.

Получаем следующую статистику (рис. 2.10).

Проблемы множественного корреляционно-регрессионного анализа и моделирования обычно подробно изучаются в специальном курсе. В курсе «Общая теория статистики» рассматриваются только самые общие вопросы этой сложной проблемы и дается начальное представление о методике построения уравнения множественной регрессии и показателей связи. Рассмотрим линейную форму многофакторных связей не только как наиболее простую, но и как форму, предусмотренную пакетами прикладных программ для ПЭВМ. Если же связь отдельного фактора с результативным признаком не является линейной, то проводят линеаризацию уравнения путем замены или преобразования величины факторного признака.

Общий вид многофакторного уравнения регрессии следующий:


9.11. Меры тесноты связей в многофакторной системе

Многофакторная система требует уже не одного, а множества показателей тесноты связей, имеющих разный смысл и применение. Основой измерения связей является матри на парных коэффициентов корреляции (табл. 9.9).

По этой матрице можно судить о тесноте связи факторов с результативным признаком и между собой. Хотя все эти показатели относятся к парным связям, все же матрицу молено использовать для предварительного отбора факторов для включения их в уравнение регрессии. Не рекомендуется включать в уравнение факторы, слабо связанные с результативными признаками, но тесно связанные с другими факто-

Вернемся к табл. 9.11. Дисперсионный анализ системы связей предназначен для оценки того, насколько надежно доказывают исходные данные наличие связи результативного признака со всеми факторами, входящими в уравнение. Для этого сравниваются дисперсии у - объясненная и остаточная: суммы соответствующих квадратов отклонений, прнхо-

379

381

9.13. Корреляционно-регрессионные модели и их применение в анализе и прогнозе

Корреляционно-регрессионной моделью (КРМ) системы взаимосвязанных признаков является такое уравнение регрессии, которое включает основные факторы, влияющие на вариацию результативного признака, обладает высоким (не ниже 0,5) коэффициентом детерминации и коэффициентами регрессии, интерпретируемыми в соответствии с теоретическим знанием о природе связей в изучаемой системе.

Приведенное определение КРМ включает достаточно строгие условия: далеко не всякое уравнение регрессии можно считать моделью. В частности, полученное выше по 16 хозяйствам уравнение не отвечает последнему требованию из-за противоречащего экономике сельского хозяйства знака при факторе х2 - доля пашни. Однако в учебных целях будем рассматривать его как модель.

1. Признаки-факторы должны находиться в причинной связи с результативным признаком (следствием). Поэтому недопустимо, например, в модель себестоимости у вводить в качестве одного из факторов xj коэффициент рентабельности, хотя включение такого «фактора» значительно повысит коэффициент детерминации.

2. Признаки-факторы не должны быть составными частями результативного признака или его функциями.

3. Признаки-факторы не должны дублировать друг друга, т.е. быть коллинеарными (с коэффициентом корреляции более 0,8). Так, не следует в модель производительности труда включать энерго- и фондовооруженность рабочих, поскольку эти факторы тесно связаны друг с другом в большинстве объектов.

4. Не следует включать в модель факторы разных уровней иерархии, т.е. фактор ближайшего порядка и его субфакторы. Например, в модель себестоимости зерна не следует включать и урожайность зерновых культур, и дозу удобрений под них или затраты на обработку гектара, показатели качества семян, плодородия почвы, т.е. субфакторы самой урожайности.

5. Желательно, чтобы для результативного признака и факторов соблюдалось единство единицы совокупности, к которой они отнесены. Например, если у - валовой доход предприятия, то и все факторы должны относиться к предприятию: стоимость производственных фондов, уровень специализации, численность работников и т.д. Если же у - средняя зарплата рабочего на предприятии, то факторы должны относиться к рабочему: разряд или классность, стаж работы, возраст, уровень образования, энерговооруженность и т.д. Правило это некатегорическое, в модель заработной платы рабочего можно включить, к примеру, и уровень специализации предприятия. Вместе с тем нельзя забывать о предыдущей рекомендации.

6. Математическая форма уравнения регрессии должна соответствовать логике связи факторов с результатом в реальном объекте. Например, такие факторы урожайности, как дозы разных удобрений, уровень плодородия, число прополок и т.п., создают прибавки величины урожайности, малозавися-Аше друг от друга; урожайность может существовать и без любого из этих факторов. Такому характеру связей отвечает аддитивное уравнение регрессии:

Первое слагаемое в правой части равенства - это отклонение, которое возникает за счет отличия индивидуальных значений факторов у данной единицы совокупности от их средних значений по совокупности. Его можно назвать эффектом факторообеспеченности. Второе слагаемое - отклонение, которое возникает за счет не входящих в модель факторов и отличия индивидуальной эффективности факторов у данной единицы совокупности от средней эффективности факторов в совокупности, измеряемой коэффициентами ус-

Таблица 9.12 Анализ факторообеспеченности и фактороотдачи по регрессионной модели уровня валового дохода

ловно-чистой регрессии. Его можно назвать эффектом фактороотдачи.

Пример. Рассмотрим расчет и анализ отклонений по ранее построенной модели уровня валового дохода в 16 хозяйствах. Знаки тех и других отклонений 8 раз совпадают и 8 раз не совпадают. Коэффициент корреляции рангов отклонений двух видов составил 0,156. Это означает, что связь вариации факторообеспеченности с вариацией фактороотдачи слабая, несущественная (табл. 9.12).

Обратим внимание на хозяйство № 15 с высокой факто-

рообеспеченностью (15-е место) и самой худшей фактороот-

дачей (1-й ранг), из-за которой хозяйство недополучило по

1 22 руб. дохода с 1 га. Напротив, хозяйство № 5 имеет фак-

торообеспеченность ниже средней, но благодаря более эффективному использованию факторов получило на 125 руб. дохода с 1 га больше, чем было бы получено при средней по совокупности эффективности факторов. Более высокая эффективность фактора х\ (затраты труда) может означать более высокую квалификацию работников и большую заинтересованность в качестве выполняемой работы. Более высокая эффективность фактора хз с точки зрения доходности может заключаться в высоком качестве молока (жирность, охлажден-ность), благодаря которому оно реализовано по более высоким ценам. Коэффициент регрессии при х2, как уже отмечено, экономически не обоснован.

Использование регрессионной модели для прогнозирования состоит в подстановке в уравнение регрессии ожидаемых значений факторных признаков для расчета точечного прогноза результативного признака или (и) его доверительного интервала с заданной вероятностью, как уже сказано в 9.6. Сформулированные там же ограничения прогнозирования по уравнению регрессии сохраняют свое значение и для многофакторных моделей. Кроме того, необходимо соблюдать системность между подставляемыми в модель значениями факторных признаков.

Формулы расчета средних ошибок оценки положения гиперплоскости регрессии в заданной многомерной точке и для индивидуальной величины результативного признака весьма сложны, требуют применения матричной алгебры и здесь не рассматриваются. Средняя ошибка оценки значения результативного признака, рассчитанная по программе ПЭВМ «Mi-crostat» и приведенная в табл. 9.7, равна 79,2 руб. на 1 га. Это лишь среднее квадратическое отклонение фактических значений дохода от расчетных по уравнению, не учитывающее ошибки положения самой гиперплоскости регрессии при экстраполяции значений факторных признаков. Поэтому ограничимся точечными прогнозами в нескольких вариантах (табл. 9.13).

Для сравнения прогнозов с базисным уровнем средних по совокупности значений признаков введена первая строка таблицы. Краткосрочный прогноз рассчитан на малые изменения факторов за короткое время и снижение трудообеспечен-ности.

Таблица 9.13 Прогнозы валового дохода по регрессионной модели

Результат неблагоприятен: доход снижается. Долгосрочный прогноз А - «осторожный», он предполагает весьма умеренный прогресс факторов и соответственно небольшое увеличение дохода. Вариант Б - «оптимистический», рассчитан на существенное изменение факторов. Вариант 5 построен по способу, которым Агафья Тихоновна в комедии Н. В. Гоголя «Женитьба» мысленно конструирует портрет «идеального жениха»: нос взять от одного претендента, подбородок от другого, рост от третьего, характер от четвертого; вот если бы соединить все нравящиеся ей качества в одном человеке, она бы не колеблясь вышла замуж. Так и при прогнозировании мы объединяем лучшие (с точки зрения модели дохода) наблюдаемые значения факторов: берем значение Х[ от хозяйства № 10, значение х2 от хозяйства № 2, значение х3 от хозяйства № 16. Все эти значения факторов уже существуют реально в изучаемой совокупности, они не «ожидаемые», не «взятые с потолка». Это хорошо. Однако могут ли эти значения факторов сочетаться в одном предприятии, системны ли эти значения? Решение данного вопроса выходит за рамки статистики, оно требует конкретных знаний об объекте прогнозирования.

Если, кроме количественных факторов, при многофакторном регрессионном анализе в уравнение включается и неколичественный, то применяют следующую методику: наличие неколичественного фактора у единиц совокупности обозначают единицей, его отсутствие - нулем, т.е. вводят так назы-

Число фиктивных переменных должно быть на единицу меньше числа градаций качественного (неколичественного) фактора. С помощью данного приема можно измерять влияние уровня образования, местожительства, типа жилища и других социальных или природных, неизмеряемых количественно факторов, изолируя их от влияния количественных факторов.

РЕЗЮМЕ

Связи, которые проявляются не в каждом отдельном случае, а лишь в совокупности данных, называются статистическими. Они выражаются в том, что при изменении значения фактора х изменяется и условное распределение результативного признака у: разным значениям одной переменной (фактора х) соответствуют разные распределения другой переменной (результата у).

Корреляционная связь - частный случай статистической связи, при котором разным значениям одной переменной х соответствуют разные средние значения переменной у.

Корреляционная связь предполагает, что изучаемые переменные имеют количественное выражение.

Статистическая связь - более широкое понятие, оно не включает ограничений на уровень измерения переменных. Переменные, связь между которыми изучается, могут быть как количественными, так и неколичественными.

Статистические связи отражают сопряженность в изменении признаков х и у, которая может быть вызвана не причинными отношениями, а так называемой ложной корреляцией. Например, в совместных изменениях х и у обнаруживается определенная закономерность, но она вызвана не влиянием

390

Математическое описание корреляционной зависимости результативной переменной от нескольких факторных переменных называется уравнением множественной регрессии. Параметры уравнения регрессии оцениваются методом наименьших квадратов (МНК). Уравнение регрессии должно быть линейным по параметрам.

Если уравнение регрессии отражает нелинейность связи между переменными, то регрессия приводится к линейному виду (линеаризуется) путем замены переменных или их логарифмирования.

Вводя в уравнение регрессии фиктивные переменные, можно учесть влияние неколичественных переменных, изолируя их от влияния количественных факторов.

Если коэффициент детерминации близок к единице, то с помощью уравнения регрессии можно предсказать, каким будет значение зависимой переменной для того или иного ожидаемого значения одной или нескольких независимых переменных.

1. Елисеева И. И. Статистические методы измерения связей. - Л.: Изд-во Ленингр. ун-та, 1982.

2. Елисеева И. И., Рукавишников В. О. Логика прикладного статистического анализа. - М.: Финансы и статистика, 1982.

3. Крастинь О. П. Разработка и интерпретация моделей корреляционных связей в экономике. - Рига: Зинатне, 1983.

4. Кулаичев А. П. Методы и средства анализа данных в среде Windows. Stadia 6.0. - М.: НПО «Информатика и компьютеры», 1996.

5. Статистическое моделирование и прогнозирование: Учеб. пособие / Под ред. А. Г. Гранберга. - М.: Финансы и статистика, 1990.

6. Ферстер Э, Ренц Б. Методы корреляционного и регрессионного анализа. Руководство для экономистов: Пер. с нем. - М.: Финансы и статистика, 1983.