Что означает понятие корреляции простыми словами? Корреляция - это просто

Научные термины пугают и притягивают одновременно. Термин «корреляция» все чаще можно встретить на страницах газет, по радио, на телевидении. Им козыряют экономисты, политологи, аналитики. Но, похоже, частота использования этого термина в СМИ отрицательно коррелирует с уровнем его понимания потребителями.

В переводе на простой язык, сказанная фраза означает следующее: «Чем чаще используется термин «корреляция», тем менее точным становится содержание этого понятия в сознании людей». В реальности, возможно, это и не так - исследования не проводились. Но важно другое - корреляция в обыденном понимании отражает взаимосвязь между явлениями.

Взаимосвязи вокруг нас

В человеке живет интуитивное ощущение взаимосвязи всех явлений. В фантастическом рассказе Рэя Брэдбери герой попадает в далекое прошлое и, нарушая запрет, сходит с тропы. Он лишь раздавил бабочку. Но вернулся в другой мир, с другим языком и даже президентом. Все связано вокруг…

При чем здесь корреляция? А при том, что пытливое сознание человека пытается выявлять корреляции. Зная взаимосвязи между явлениями, на них можно влиять, ими можно управлять.

Я не буду «грузить» вас математической терминологией, сложными формулами. Давайте разберемся в сути этого понятия; уясним что значит отрицательная и положительная корреляция; значимая и незначимая.

Понятие корреляции

Слово «корреляция» происходит от латинского «correlatio», что означает «соотношение» или «взаимосвязь».

Взаимосвязь присуща многим явлениям. Например, кепка, надетая на голову, связана с ней - куда голова, туда и кепка. Или палочка в руке дирижёра - они взаимосвязаны, и она послушна руке хозяина, полету его вдохновения. Но можно ли говорить, что их движения коррелируют между собой? Нет, и вот почему.

Функциональная связь

Палочка и рука взаимосвязаны и эта связь - функциональная. Она детерминирующая - жестко связывает между собой объекты. Если дирижёр сосредоточен и крепко держит палочку, то в их согласованном движении не будет моментов, когда которых рука движется в одну сторону, а палочку - в другую. Корреляционная связь совсем иной природы.

Посмотрим за спину нашего дирижёра. В зале сидят слушатели, любители музыки. Они испытывают какие-то эмоции. Их переживания, возможно, как-то связаны с уровнем их музыкального образования. Чем больше они знают про музыку, тем выше их эмоциональный отклик. Эта связь - корреляционная.

Корреляционная связь

В отличие от функциональной связи, корреляция отражает не жесткую зависимость между явлениями. Кто-то очень подкован теоретически, но эмоциональный отклик на музыку слабый. Другой мало образован, но его «пробило» на эмоции. Такая связь называется случайной, стохастической. И это сфера статистики - науки, занимающейся не отдельными явлениями, а массовыми.

Итак, корреляция отражает не функциональную, а статистическую случайную связь между явлениями (переменными). Почему случайную? Потому что заранее не известно, кто и как из слушателей будет реагировать на музыку. Но если статистический (массовый) расчет показал положительную корреляцию между образованностью и эмоциональным откликом, то это дает основания для важных выводов. Знание корреляционной связи позволяет предсказывать.

В данном примере мы с большой долей вероятности сможем утверждать, что из двух слушателей более эмоционально слушал тот, кто более образован. Это не будет однозначный вывод, ведь связь у нас не функциональная. Это будет вывод статистический, вероятностный - мы всегда можем ошибиться. Но вероятность этой ошибки не велика и заранее известна. Она называется «уровень статистической значимости». Как видим, без математики в этом вопросе все-таки не обойтись.

Коэффициент корреляции

В повседневной жизни, говоря о корреляции, например, успеха и затраченных усилий или ощущения счастья и материального достатка, мы опираемся на мифы, интуицию или досужие домыслы. Эти величины трудно измерить, перевести на язык цифр потом строго доказать их взаимосвязи. Но если мы имеем дело с явлениями, которые можно измерить, то здесь корреляцию можно рассчитать и получить коэффициент, который будет отражать силу и направление взаимосвязи.

Например, мы взяли группу из 20-ти человек и определили для каждого два параметра: возраст (посмотрели паспорт) и уровень оптимизма (провели психологический тестирование). Эти данные нужно занести в так называемую таблицу исходных данных и загрузить в статистическую программу . В итоге получим значение коэффициента корреляции. Не стоит пугаться этого числа, разгадать его тайны не так сложно.

Коэффициент корреляции может принимать численные значения в диапазоне от -1 до +1. Для анализа важны два показателя:

  • Знак коэффициента корреляции (положительный или отрицательный).
  • Абсолютное значение коэффициента корреляции (то есть, без учета знака, «по модулю»).

Отрицательная связь не значит плохая, положительная не значит хорошая

Если расчет корреляции между возрастом и оптимизмом среди испытуемых дал отрицательный показатель, это значит следующее: с годами растет оптимизм. То есть, чем выше возраст испытуемого, тем более оптимистично он смотрит на жизнь (мудрецы).

Но мы могли получить и обратный результат - отрицательную корреляцию между возрастом и оптимизмом. То есть, чем больше прожитых лет, тем меньше хорошего видится вокруг (скептики).

Надеюсь, эта статья поможет вам написать работу по психологии самостоятельно. Если понадобится помощь, обращайтесь (все виды работ по психологии; статистические расчеты).

На протяжении веков люди обвиняли полнолуние во многих грехах, в частности, считали его причиной странного, девиантного поведения. В средневековье процветали истории о том, как полная луна превращает людей в оборотней. В XVIII веке бытовало мнение, что полнолуние может вызвать эпилепсию и лихорадку. Даже Шекспир в своей пьесе «Отелло» упоминает этот известный миф:

Отелло
Виновно отклонение луны:
Она как раз приблизилась к земле,
И у людей мутится разум.

Все эти казалось бы фантастические истории находят отражение в нашем языке и сейчас: например, слово «лунатик» (т.е. человек, который совершает какие-либо действия в состоянии сна) происходит от латинского корня «luna».

В XXI веке мы уже не верим мифам, опираясь в своих суждениях на разум и научно доказанные факты. Люди больше не обвиняют фазы Луны в болезнях и недомоганиях. Тем не менее, даже сегодня порой можно услышать, как кто-то именно влиянием полнолуния объясняет безумное поведение. Например, когда в психиатрической больнице начинается «аврал», медсестры часто говорят: «Должно быть, сегодня полнолуние».

Почему так происходит: наука vs. мифы

Между тем, существует не так много доказательств того, что полная фаза Луны действительно влияет на наше поведение. Анализ более чем 30 исследований показал, что нет никакой корреляции между фазами Луны и выигрышами в казино, количеством госпитализированных, числом самоубийств или дорожно-транспортных происшествий, уровнем преступности и многими другими показателями.

Но вот что любопытно: хотя все факты говорят об обратном, проведенное в 2005 году исследование показало, что 7 из 10 медсестер по-прежнему верят в миф о том, что полнолуние приводит к хаосу и странному поведению больных психиатрической клиники. По данным эксперимента, подавляющее большинство сотрудниц больницы (69 %!) верят во влияние полной фазы Луны на количество госпитализированных.

Не стоит думать, что медсестры, которые клянутся, что полнолуние вызывает странное поведение, глупы и поэтому верят во всякую ерунду. Они просто стали жертвами распространенной психологической ошибки, которую совершают многие из нас. Специалисты именуют этот небольшой «сбой» в работе нашего мозга «иллюзорными корреляциями» (illusory correlation).

Как мы обманываем себя, не осознавая этого

Иллюзорная корреляция возникает в тех случаях, когда мы ошибочно придаем повышенное значение одному элементу и при этом игнорируем все другие. Представьте, что вы приехали в большой незнакомый город, спускаетесь в метро и… вдруг кто-то «подрезает» вас перед самым входом в вагон. Добравшись до нужной станции, вы решаете пообедать и заходите в ближайший ресторан, но… официант открыто хамит вам. На улице вы понимаете, что потерялись, спрашиваете дорогу у прохожего и … вам показывают неверное направление. Приехав домой, вы, скорее всего, будете рассказывать родственникам о том, какие неудачи постигли вас в путешествии (еще бы, вы ведь запомнили только эту «полосу невезения»!), доказывать, что обитатели мегаполисов грубы и невоспитаны.

Однако в своем рассказе вы, скорее всего, забудете упомянуть про вкусную еду, которую попробовали в ресторане, про сотни других людей в метро, которые не толкали вас на платформе. Все эти мелочи были так незаметны, что мы не придаем им никакого значения, они даже не получают статус событий в нашей жизни. Это, скорее, «не-события». В результате получается, что легче запомнить, когда кто-то нахамил вам, чем когда вы вкусно пообедали или благополучно зашли в вагон метро.

В игру вступает наука о мозге

Сотни психологических исследований доказали, что мы склонны переоценивать важность событий, которые легко запоминаются, и недооценивать те моменты жизни, которые сложно восстановить в памяти. Принцип работы нашего мозга в этом случае прост: чем легче событие запомнилось, тем сильнее будет связь между ним и другим событием. Но на самом деле данные явления могут быть слабо связаны или не связаны друг с другом вообще.

В психологии этот феномен называется «эвристика доступности» (availability heuristic). Чем легче вспоминается какой-то момент нашей жизни (чем более он доступен), тем больше вероятность того, что мы переоценим его значение.

Иллюзорная корреляция — это своего рода сочетание эвристики доступности и такого когнитивного искажения как «предвзятость подтверждения» (тенденция интерпретировать информацию таким образом, чтобы подтвердить имеющиеся концепции).

Вы можете легко вспомнить какой-то случай (эвристика доступности) и поэтому начинаете думать, что такие случаи повторяются часто и даже складываются в определенную тенденцию. Когда это произойдет снова (как, например, полнолуние в случае с медсёстрами), вы сразу свяжете два явления и подтвердите свои же догадки (предвзятость подтверждения).

Как распознать иллюзорную корреляцию?

Чтобы определить, где ваш мозг дал «сбой» и защитить себя от воздействия иллюзорных корреляций, можно использовать таблицу случайностей (contingency table), которая поможет определить правомерность ваших суждений и реальную значимость событий.

Вспомним пример с полнолунием:

Клетка А: полнолуние и аврал в психиатрической больнице. Два явления представляют собой хорошо запоминающееся сочетание, поэтому мы в будущем будем переоценивать их значение.

Клетка B: полнолуние и затишье в больнице. Ничего особенного не происходит («не-событие»). Нам будет довольно трудно вспомнить эту ночь, поэтому мы склонны игнорировать данную ячейку.

Клетка C: полнолуния нет, но в больнице аврал. В этой ситуации медсестры просто скажут в конце смены: «Суматошная ночь на работе…».

Клетка D: полнолуния по-прежнему нет, и пациенты ведут себя спокойно. Это снова пример «не-события»: ничего запоминающегося не происходит, поэтому мы проигнорируем эту ночь.

Таблица случайностей демонстрирует тот алгоритм, по которому медсестры анализируют ситуацию во время полнолуния. Они могут быстро вспомнить ту ночь, когда в полнолуние больница была переполнена, но совершенно не учитывают (просто забывают) те многочисленные смены, когда в полнолуние пациенты вели себя обычным образом. Их мозг легко «выдает» информацию об авралах во время полнолуния, именно поэтому они уверены, что эти два события связаны.

Данную таблицу из книги «50 великих мифов популярной психологии» («50 Great Myths of Popular Psychology») можно адаптировать для любых жизненных ситуаций. В большинстве случаев мы уделяем слишком много внимания клетке А, но почти не замечаем клетку В, что может привести к иллюзорной корреляции. Использование всех четырех клеток позволяет вам вычислять реальную корреляцию между двумя событиями и не поддаваться влиянию известных мифов, таких как «эффект полнолуния».

Как исправить ошибки нашего мозга?

Оказывается, мы проводим иллюзорные корреляции во многих сферах жизни: Все слышали истории успеха Билла Гейтса (Bill Gates) или Марка Цукерберга (Mark Zuckerberg), которые бросили колледж, чтобы начать бизнес, принесший им миллиарды. Мы придаем повышенное значение этим случаям, обсуждаем их с друзьями и знакомыми. Между тем, вы никогда не услышите о тех нерадивых учениках, которые не добились успеха и не создали всемирно известных компаний. В потоке информации мы улавливаем только самые экстраординарные случаи, собираем «сливки», игнорируя при этом сотни или даже тысячи историй людей, бросивших колледж, но не уложившихся в парадигму успеха.

Если вы слышите, что арестовали представителя определенной этнической группы или расы, то, вероятно, вы будете в дальнейшем воспринимать каждого выходца из этой страны или континента как потенциального бандита. Но при этом вы забываете о тех 99% неизвестных вам людей, которые ведут примерный образ жизни и никогда не были арестованы (потому что арест — это событие, а не-арест — не-событие).

Если мы читаем в новостях о нападении акулы, то отказываемся заходить в океан во время отпуска на побережье. Вероятность нападения не увеличилась с тех пор, как мы плавали в последний раз, ведь мы не учитываем миллионы людей, которые вернулись невредимыми. Но никому не интересны скучные заголовки: «Миллионы туристов остаются живы каждый день», поэтому журналисты делают акцент на экстраординарных случаях, а мы проводим иллюзорную корреляцию и отказываемся от отдыха на побережье.

Когнитивные заблуждения подталкивают нас «видеть» множество ассоциаций, которых нет. Например, многие люди, страдающие артритом, настаивают на том, что их суставы болят больше в дождливую погоду, чем в ясную. Однако исследования показывают, что эта ассоциация — плод их воображения. По-видимому, такие люди обращают слишком большое внимание на клетку А — случаи, когда идет дождь и у них болят суставы, — что заставляет их воспринимать корреляцию, которой не существует.

Многие из нас даже не догадываются, что наша избирательная память о событиях влияет на убеждения, которых мы придерживаемся. Теперь вы знаете о когнитивных искажениях и сможете выявить и устранить иллюзорные корреляции в повседневной жизни с помощью таблицы случайностей.

06.06.2018 14 013 0 Игорь

Психология и общество

Все в мире взаимосвязано. Каждый человек на уровне интуиции пытается найти взаимосвязи между явлениями, чтобы иметь возможность влиять на них и управлять ними. Понятие, которое отражает эту взаимосвязь, называется корреляцией. Что она означает простыми словами?

Содержание:

Понятие корреляции

Корреляция (от латинского «correlatio» – соотношение, взаимосвязь) – математический термин, который означает меру статистической вероятностной зависимости между случайными величинами (переменными).



Пример: возьмем два вида взаимосвязи:

  1. Первый – ручка в руке человека. В какую сторону движется рука, в такую сторону и ручка. Если рука находится в состоянии покоя, то и ручка не будет писать. Если человек чуть сильнее надавит на нее, то след на бумаге будет насыщеннее. Такой вид взаимосвязи отражает жесткую зависимость и не является корреляционным. Это взаимосвязь – функциональная.
  2. Второй вид – зависимость между уровнем образования человека и прочтением литературы. Заранее неизвестно, кто из людей больше читает: с высшим образованием или без него. Эта связь – случайная или стохастическая, ее изучает статистическая наука, которая занимается исключительно массовыми явлениями. Если статистический расчет позволит доказать корреляционную связь между уровнем образованности и прочтением литературы, то это даст возможность делать какие-либо прогнозы, предсказывать вероятностное наступление событий. В этом примере с большой долей вероятности можно утверждать, что больше читают книги люди с высшим образованием, те, кто более образован. Но поскольку связь между данными параметрами не функциональная, то мы можем и ошибиться. Всегда можно рассчитать вероятность такой ошибки, которая будет однозначно невелика и называется уровнем статистической значимости (p).

Примерами взаимосвязи между природными явлениями являются: цепочка питания в природе, организм человека, который состоит из систем органов, взаимосвязанных между собой и функционирующих как единое целое.

Каждый день мы сталкиваемся с корреляционной зависимостью в повседневной жизни: между погодой и хорошим настроением, правильной формулировкой целей и их достижением, положительным настроем и везением, ощущением счастья и финансовым благополучием. Но мы ищем связи, опираясь не на математические расчеты, а на мифы, интуицию, суеверия, досужие домыслы. Эти явления очень сложно перевести на математический язык, выразить в цифрах, измерить. Другое дело, когда мы анализируем явления, которые можно просчитать, представить в виде цифр. В таком случае мы можем определить корреляцию с помощью коэффициента корреляции (r), отражающего силу, степень, тесноту и направление корреляционной связи между случайными переменными.

Сильная корреляция между случайными величинами – свидетельство наличия некоторой статистической связи конкретно между этими явлениями, но эта связь не может переноситься на эти же явления, но для другой ситуации. Часто исследователи, получив в расчетах значительную корреляцию между двумя переменными, основываясь на простоте корреляционного анализа, делают ложные интуитивные предположения о существовании причинно-следственных взаимосвязей между признаками, забывая о том, что коэффициент корреляции носит вероятностный характер.

Пример: количество травмированных во время гололеда и число ДТП среди автотранспорта. Эти величины будут коррелировать между собой, хотя они абсолютно не взаимосвязаны между собой, а имеют только связь с общей причиной этих случайных событий – гололедицей. Если же анализ не выявил корреляционной взаимосвязи между явлениями, это еще не является свидетельством отсутствия зависимости между ними, которая может быть сложной нелинейной, не выявляющейся с помощью корреляционных расчетов.




Первым, кто ввел в научный оборот понятие корреляции, был французский палеонтолог Жорж Кювье . Он в XVIII веке вывел закон корреляции частей и органов живых организмов, благодаря которому появилась возможность восстанавливать по найденным частям тела (останкам) облик всего ископаемого существа, животного. В статистике термин корреляции впервые применил в 1886 году английский ученый Френсис Гальтон . Но он не смог вывести точную формулу для расчета коэффициента корреляции, но это сделал его студент – известнейший математик и биолог Карл Пирсон.

Виды корреляции

По значимости – высокозначимая, значимая и незначимая.

Виды

чему равен r

Высокозначимая

r соответствует уровню статистической значимости p<=0,01

Значимая

r соответствует p<=0,05

Незначимая

r не достигает p>0,1

Отрицательная (уменьшение значения одной переменной ведет к росту уровня другой: чем больше у человека фобий, тем меньше вероятность занять руководящую должность) и положительная (если рост одной величины влечет за собой увеличение уровня другой: чем больше нервничаешь, тем больше вероятность заболеть). Если связи между переменными нет, то тогда такая корреляция называется нулевой.

Линейная (когда одна величина возрастает или убывает, вторая тоже увеличивается или уменьшается) и нелинейная (когда при изменении одной величины характер изменения второй невозможно описать с помощью линейной зависимости, тогда применяются другие математические законы – полиномиальной, гиперболической зависимости).

По силе .

Коэффициенты




В зависимости от того, к какой шкале относятся исследуемые переменные, рассчитываются разные виды коэффициентов корреляции:

  1. Коэффициент корреляции Пирсона, коэффициент парной линейной корреляции или корреляция моментов произведений рассчитывается для переменных с интервальной и количественной шкалой измерения.
  2. Коэффициент ранговой корреляции Спирмена или Кендалла – когда хотя бы одна из величин имеет порядковую шкалу либо не является нормально распределённой.
  3. Коэффициент точечной двухрядной корреляции (коэффициент корреляции знаков Фехнера) – если одна из двух величин является дихотомической.
  4. Коэффициент четырёхполевой корреляции (коэффициент множественной ранговой корреляции (конкордации) – если две переменные дихотомические.

Коэффициент Пирсона относится к параметрическим показателям корреляции, все остальные – к непараметрическим.

Значение коэффициента корреляции находится в пределах от -1 до +1. При полной положительной корреляции r = +1, при полной отрицательной – r = -1.

Формула и расчет





Примеры

Необходимо определить взаимосвязь двух переменных: уровня интеллектуального развития (по данным проведенного тестирования) и количества опозданий за месяц (по данным записей в учебном журнале) у школьников.

Исходные данные представлены в таблице:

Данные по уровню IQ (x)

Данные по количеству опозданий (y)

Сумма

1122

Среднее арифметическое

112,2


Чтобы дать правильную интерпретацию полученному показателю, необходимо проанализировать знак коэффициента корреляции (+ или -) и его абсолютное значение (по модулю).

В соответствии с таблицей классификации коэффициента корреляции по силе делаем вывод о том, rxy = -0,827 – это сильная отрицательная корреляционная зависимость. Таким образом, количество опозданий школьников имеет очень сильную зависимость от их уровня интеллектуального развития. Можно сказать, что ученики с высоким уровнем IQ опаздывают реже на занятия, чем ученики с низким IQ.



Коэффициент корреляции может применяться как учеными для подтверждения или опровержения предположения о зависимости двух величин или явлений и измерения ее силы, значимости, так и студентами для проведения эмпирических и статистических исследований по различным предметам. Необходимо помнить, что этот показатель не является идеальным инструментом, он рассчитывается лишь для измерения силы линейной зависимости и будет всегда вероятностной величиной, которая имеет определенную погрешность.

Корреляционный анализ применяется в следующих областях:

  • экономическая наука;
  • астрофизика;
  • социальные науки (социология, психология, педагогика);
  • агрохимия;
  • металловедение;
  • промышленность (для контроля качества);
  • гидробиология;
  • биометрия и т.д.

Причины популярности метода корреляционного анализа:

  1. Относительная простота расчета коэффициентов корреляции, для этого не нужно специальное математическое образование.
  2. Позволяет рассчитать взаимосвязи между массовыми случайными величинами, которые являются предметом анализа статистической науки. В связи с этим этот метод получил широкое распространение в области статистических исследований.

Надеюсь, теперь вы сможете отличить функциональную взаимосвязь от корреляционной и будете знать, что когда вы слышите по телевидению или читаете в прессе о корреляции, то под ней подразумевают положительную и достаточно значимую взаимозависимость между двумя явлениями.

В нашем мире все взаимосвязано, где-то это видно невооруженным глазом, а где-то люди даже и не подозревают о существовании такой зависимости. Тем не менее в статистике, когда имеют в виду взаимную зависимость, часто употребляют термин "корреляция". Его нередко можно встретить и в экономической литературе. Давайте попробуем вместе разобраться, в чем состоит суть этого понятия, какие бывают коэффициенты и как трактовать полученные значения.

Итак, что такое корреляция? Как правило, под этим термином подразумевают статистическую взаимосвязь двух или нескольких параметров. Если изменяется значение одного или нескольких из них, это неизбежно сказывается на величине остальных. Для математического определения силы такой взаимозависимости принято использовать различные коэффициенты. Следует отметить, что в случае, когда изменение одного параметра не приводит к закономерному изменению другого, но влияет на какую-либо статистическую характеристику данного параметра, такая связь является не корреляционной, а просто статистической.

История термина

Для того чтобы лучше разобраться, что такое корреляция, давайте немного окунемся в историю. Данный термин появился в XVIII веке благодаря стараниям французского палеонтолога Этот ученый разработал так называемый «закон корреляции» органов и частей живых существ, который позволял восстановить облик древнего ископаемого животного, имея в наличии лишь некоторые его останки. В статистике это слово вошло в обиход с 1886 года с легкой руки английского статистика и биолога В самом названии термина уже содержится его расшифровка: не просто и не только связь - «relation», а отношения, имеющие между собой нечто совместное - «co-relation». Впрочем, четко объяснить математически, что такое корреляция, смог только ученик Гальтона, биолог и математик К. Пирсон (1857 - 1936). Именно он впервые вывел точную формулу для расчета соответствующих коэффициентов.

Парная корреляция

Так называют отношения между двумя конкретными величинами. К примеру, доказано, что ежегодные затраты на рекламу в Соединенных Штатах очень тесно связаны с величиной внутреннего валового продукта. Подсчитано, что между этими величинами в период с 1956 по 1977 год составил 0,9699. Другой пример - число посещений интернет-магазина и объем его продаж. Тесная связь выявлена между такими величинами, как пива и температура воздуха, среднемесячная температура для конкретного места в текущем и предыдущем году и т. д. Как трактовать коэффициент парной корреляции? Сразу отметим, что он принимает значение от -1 до 1, причем отрицательное число обозначает обратную, а положительное - прямую зависимость. Чем больше модуль результата подсчетов, тем сильнее величины влияют друг на друга. Нулевое значение обозначает отсутсвие зависимости, величина меньше 0,5 говорит о слабой, а в противном случае - о ярко выраженной взаимосвязи.

Корреляция Пирсона

В зависимости от того, по какой шкале измерены переменные, для расчетов применяют тот или иной Фехнера, Спирмена, Кендалла и т. д.). Когда исследуют интервальные величины, чаще всего используют индикатор, придуманный

Этот коэффициент показывает степень линейных связей между двумя параметрами. Когда говорят о корреляционном отношении, чаще всего его и имеют в виду. Данный показатель стал настолько популярным, что его формула есть в Excel и при желании можно самому на практике разобраться, что такое корреляция, не вдаваясь в тонкости сложных формул. Синтаксис этой функции имеет вид: PEARSON(массив1, массив2). В качестве первого и второго массивов обычно подставляют соответствующие диапазоны чисел.

Понятие корреляции

Все явления в мире взаимосвязаны. Это значит, что каждое событие оказывает влияние на все события, следующие за ним, а само происходит вследствие всех событий, случившихся до него.

До сих пор рассматривались основные статистические характеристики изолированно друг от друга, теперь будем изучать, как и в к5акой форме одно явление оказывает влияние на другое. Это является предметом корреляционно-регрессионного анализа.

Три основные задачи корреляционно-регрессионного анализа:

1. Определение факторов, которые оказывают определяющее воздействие на результативный признак.

2. Определение форм воздействия факторов и результата.

3. Определение степени влияния на результат учтенных и неучтенных факторов.

В статистике изучаются следующие виды связей:

1. Балансовая связь – характеризует зависимость между источниками формирования результатов и их использованием.

2. Компонентные связи – характеризуются тем, что изменение статистического показателя определяется изменением компонентов, входящих в этот показатель, как множители.

3. Факторные связи – характеризуются тем, что они появляются в согласованной вариации изучаемых показателей.

Одни выступают как факторные, другие как результативные.

При функциональной связи изменение результативного признака обусловлено всецело действием одного факторного признака х, т.е. одному факторному соответствует одно и только одно значение результативного признака y=f(x). Функциональная связь проявляется во всех случаях наблюдения и для каждой конкретной единицы изучаемой величины.

Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, в среднем при большом числе наблюдений, то такая зависимость называется стохастической . Частным случаем стохастической связи является корреляционная , при которой изменение среднего значения результатов признака обусловлено изменением факторных признаков. По степени тесноты связи различают количественные критерии оценки тесноты связи.

По направлению выделяют связь прямую, т.е. с увеличением или уменьшением значения факторного признака происходит увеличение или уменьшение результата.

Например, увеличение производительности труда способствует увеличению уровня рентабельности.

И обратную, когда значения результативного признака изменяются под воздействием факторного, но в противоположном направлении.

Например, с увеличением фондоотдачи снижается себестоимость единицы продукции.

По аналитическому выражению выделяют связи прямолинейные и нелинейные.

В статистике не всегда требуются количественные оценки, важно просто определить форму воздействия одних факторов на другие.

Для выявления наличия связи, и характера, и направления используются следующие методы:

Приведение параллельных данных

Аналитических группировок

Графический

Корреляции

1.Метод приведения параллельных данных - основан на сопоставлении двух или нескольких рядов статистических величин. Такое сопоставление позволяет установить наличие связи и получить представление о ее характере.

Т.е. с увеличением x y, т.е. это может быть либо кривая, либо парабола 2 порядка.

2.Графически - взаимосвязь двух признаков изображается с помощью поля корреляции. В системе координат на оси абсцисс откладываются значения факторного признака, а у – результативного.

При отсутствии тесных связей имеет место беспорядочное расположение точки на графике. Чем сильнее связь между признаками, тем теснее будут группироваться точки вокруг определенной линии, выражающей форму связи.

Для социально-экономических явлений характерно, что наряду с существенными факторами, формирующими уровень результативного признака на него оказывают воздействие многие случайные факторы. Поэтому корреляционная связь отражается функцией у=ψ(х)+ε, где ε – влияние случайных факторов.

3.Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при котором изменение одной из случайных величин приводит к уменьшению математического ожидания другой. В статистике принято различать следующие варианты зависимостей:

1. Парная корреляция – связь между двумя признаками.

2. Частная корреляция – зависимость между результатом и одним факторным признаком при фиксированном значении других факторных признаков.

3. Множественная корреляция – зависимость результативного и двух или более факторных признаков, включенных в исследование.

Корреляционный анализ имеет своей задачей кол-но определить тесноту связи между двумя признаками (при парной связи) и между результативными и множеством факторных признаков (при многофакторной связи).

Теснота связи количественно выражается величиной коэффициентов корреляции. Величина коэффициентов корреляции служит также оценкой соответствия уравнения регрессии выявленным причинно-следственным связям. Одновременно с корреляцией начала использоваться регрессия. Корреляция и регрессия тесно связаны между собой:

Первая оценивает силу статистической связи, вторая исследует ее форму. Та и другая служат для установления соотношения между явлениями.

Корреляционно-регрессионный анализ как общее понятие, включает в себя измерение тесноты направления связей и установления аналитического выражения (формы) связей (регрессионный анализ).

Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной величины (результативный признак) обусловлено влиянием одной или нескольких независимых величин (факторов), а множество всех прочих факторов, также оказывающих влияние на зависимую величину, принимается за постоянные и средние значения. Регрессия может быть однофакторной (парной).

- линейная функция и многофакторной (множественной)

+а 2 х 2 - парабола

- гипербола нелинейная регрессия

По направлению связи распределяют:

а) прямую регрессию (положительную)

б) обратную (отрицательную), т.е. с увеличением или уменьшением независимой величины зависимая соответственно уменьшается или увеличивается.

Прямая (положительная) регрессия

Обратная (отрицательная) регрессия

Методы корреляционно-регрессионного анализа связи показателей

Наиболее разработанная – метод парной корреляции , рассматривающая влияние вариации факторного признака (х) на результативный (у).

Для выявления связи применяются различные виды уравнения прямолинейной и криволинейной связей. Аналитическая связь между ними может быть описана следующими уравнениями:

Прямая

Гипербола

Парабола
+а 2 х 2

Определить тип уравнения можно, исследуя зависимость графически. Однако есть более общее указание.

Если результативный и факторный признаки одинаково, примерно в арифметической прогрессии – прямая.

При обратной – гиперболическая.

Если факторный признак увеличивается в арифметической, а результативный быстрее, то парабола или степенная.

Оценка параметров уравнений регрессии а 0 ; а 1 ; а 2 осуществляется методом наименьших квадратов

при линейной зависимости

n – объем исследуемой совокупности.

; где а 0 – усредненное влияние на результативный признак случайных факторов. а 1 – коэффициент регрессии показывает насколько изменяется в среднем значение результативного признака при увеличении факторного на единицу собственного измерения.

Пример:

Имеются данные, характеризующие деловую активность ЗАО:

прибыль (тыс.р.) и затраты на 1 р. произведенной продукции (коп.)

затраты на 1 р. произв. продукции (коп.)

прибыль (тыс.р.)

На практике часто исследования проводятся по большому числу наблюдений. В этом случае исходные данные представляют в сводной корреляционной таблице . При этом анализу подвергаются сгруппированные данные и по факторному х и по результативному у, т.е. уравнение парной регрессии целесообразно строить на основе сгруппированных данных.

Если значения х и у заданы в определенных интервалах (а-в), то для каждого интервала сначала определяют середину интервала (а+в)/2, а затем уже коррелируют значения х / и у / и строят уравнения регрессии между ними.

Корреляционная таблица дает общее представление о направлении связи. Если оба признака (х и у) располагаются в возрастающем порядке, а частоты (f xy) сосредоточены по диагонали сверху вниз направо.

прямая обратная

О тесноте связи между признаками х и у по корреляционной таблице можно судить по кучности расположения частот вокруг диагонали (поскольку заполненные клетки таблицы в стороне от нее).

Если клетки заполнены большими цифрами, то связь слабая. Чем ближе частоты (f xy) располагаются к одной из диагоналей, тем теснее связь. Если в расположении частот (f xy) нет системности, то можно судить об отсутствии связи.

Пример:

величина капитала,

величина работающих активов, тыс.р.

Число банков

Число предпр.

Если у нас наличие линейной связи:

где n=30 коммерческих банков.

f x и f y – число банков согласно распределению соответственно по факторному и результативному признакам.

yf y ; xf x – значение результативного и факторного признаков по конкретной группе коммерческих банков.

Для 1 группы yf y = 1714,5*15=25717,5

хyf y =1714,5*4*42+1714,5*6*98+1714,5*2*154+1714,5*3*210=2904363

х 2 f x =42*42*8=14112

Статистические данные обладают ошибками упрощения , которые возникают как следствие:

1. Неполноты охвата единиц совокупности

2. Неполноты факторов, определяющих явление

3. Характера выбранного уравнения связи

Использование метода наименьших квадратов позволяет получить достоверные оценки при небольшом количестве наблюдений.

При изучении корреляционной связи показателей коммерческой деятельности в условиях наблюдения так называемого малого и среднего бизнеса, анализу подвергается сравнительно небольшие по составу единиц совокупности.

Коэффициент эластичности

Для оценки влияния факторного признака на результативный применяется коэффициент эластичности.

Он рассчитывается для каждой точки и в среднем по всей совокупности.

Коэффициент эластичности (Э)

Э=
Коэффициент эластичности показывает, на сколько % изменяется результативный признак при изменении факторного признака на 1%.

Если х=42, то при увеличении его на 1%, т.е. 42*(1+0,01)=42,42; С 42 до 42,42. Капитал. увеличится. Э=(59,7*42)/(7177,6+59,7*42)=2507,4/(7177,6+2507,4)=2507,4/9685=0,259

Это означает, что при увеличении фактического признака с 42 до 42,42 – результативный признак увеличится на 0,259%.

Измерение тесноты связи

Кроме состав. уравн. регрессии для коррелируемых переменных второй задачей является измерение тесноты связи между ними. Измерить ее означает определить насколько вариация результативного признака зависит от вариации факторного. Измерить тесноту зависимости между х и у можно при помощи:

1. Корреляционного отношения (η) (коэффициент корреляции по Персону)

2. Линейного коэффициента корреляции (r)

Первый применим ко всем зависимостям, второй только при линейной зависимости.

а) корреляционное отношение различается:

1. теоретическое

2. эмпирическое

Теоретическое представляет собой относительную величину, получающуюся в результате сравнения среднего квадратического отклонения в ряду выравненных значений результативного признака (), рассчитанных по уравнению регресии, со средним квадратическим отклонением в ряду эмпирических значений результатов признака.

первое – δ, второе – σ.

Учитывая, что выравненные эмпирические совпадают, т.е.

и средние значения признака у рядов одинаково (), среднее квадратическое отклонение ряда выравненных значений результативного признака можно записать

Если дисперсию выравненного σ 2 обозначить через среднее квадратическое для эмпирического ряда результатов признака σ=
σ 2 =D y , то корреляционное отношение можно записать

Возведя обе части в квадрат получим
; это корреляционное отношение называется коэффициентом детерминации. σ 2 =D y , характеризует вариацию в ряду (у) за счет всех факторов, включая и фактор (х), а δ 2 =
характеризует вариацию результативного признака под влиянием фактора х. Если найдем отношение,то получим малую долю, занимаемую дисперсией, определяемую влиянием факторного признака х. Т.е. в основе корреляционного отношения лежит правило сложения дисперсий
.

При изучении корреляционных связей дисперсия в ряду и является межгрупповой дисперсией δ 2 =
ибо она отражает колеблемость групповых значений результативного признака (т.е. характерных для этой группы х) вокруг общей средней ряда, т.е. колеблемость за счет факторного признака.

Т.е. средняя из внутригрупповых дисперсий это и будет остаточная дисперсия, т.е. вариация в ряду у за счет всех остальных факторов, кроме х

Из правила сложения дисперсий

Корреляционное отношение, находится в пределах от 0 до 1.

1. Если результ. полностью зависит от фактора х

2. Фактор х не анализ. влияние на у

Т.е. чем ближе значение корреляционного отношения к 1, тем больше связь у и х. Чем ближе к 0, тем связь слабее. Обычно η меньше 0,3, зависимость маленькая; 0,3-0,6 – зависимость средняя, больше 0,6 – большая.

внесено удобр.,ц/га.

урож.,ц/га

Зависимость параболическая.

5a 0 +15a 1 +55a 2 =50

15a 0 +55a 1 +225a 2 =167

55a 0 +225a 1 +979a 2 =649

Дисперсия ряда теоретическая. Значение результативного признака.

Дисперсия ряда эмпирическая. Значение результативного признака.

Корреляционное отношение характеризует высокую степень тесноты зависимости изменения урожайности от количества внесенных удобрений.

От теоретического следует отличать эмпирическое корреляционное отношение, которое рассчитывается по данным групповых таблиц.

где -дисперсия групповых средних результативного признака

-общая дисперсия результативного признака.

Эмпирическое корреляционное отношение не требует знания и расчета уравнений регрессии, а основывается на сопоставлении межгрупповой и общей дисперсий результативного признака, рассчитанных по групповым таблицам.

Рассмотрим пример с корреляционной таблицей:

На основе этого показателя можно сделать вывод о том, что вариация групповых средних несущественно зависит от вариации группировочного признака.

Линейный коэффициент корреляции

В случае линейной зависимости между двумя коррелируемыми величинами тесноту связи измеряют линейным коэффициентом корреляции (r), который может быть рассчитан по нескольким формулам:

1.

где а 1 - коэффициент регрессии в управлении связи;

σ х - среднее квадратическое отклонение факторного признака;

σ у - среднее квадратическое отклонение результативного признака.

2.

3.

Рассчитаем линейный коэффициент корреляции по разным формулам:

основные произв. фонды, млн.р. х

валовая продукция, млн.р. у