Корреляционное исследование

Корреляционное исследование

Корреляция (от лат. correlatio), корреляционная зависимость — взаимозависимость двух или нескольких случайных величин. Суть ее заключается в том, что при изменении значения одной переменной происходит закономерное изменение (уменьшению или увеличению) другой(-их) переменной(-ых).

При расчете корреляций пытаются определить, существует ли статистически достоверная связь между двумя или несколькими переменными в одной или нескольких выборках. Например, взаимосвязь между ростом и весом детей, взаимосвязь между успеваемостью и результатами выполнения теста IQ, между стажем работы и производительностью труда.

Важно понимать, что корреляционная зависимость отражает только взаимосвязь между переменными и не говорит о причинно-следственных связях. Например, если бы исследуемой выборке между ростом и весом человека существовала корреляционная зависимость то, это не значило бы, что вес является причиной роста человека, иначе сбрасывая лишние килограммы рост человека также уменьшался. Корреляционная связь лишь говорит о взаимосвязанности данных параметров, причем в данной конкретной выборке, в другой выборке мы можем не наблюдать полученные корреляции.

Показатель корреляции. Коэффициент корреляции (r) характеризует величину отражающую степень взаимосвязи двух переменных между собой. Он может варьировать в пределах от -1 (отрицательная корреляция) до +1 (положительная корреляция). Если коэффициент корреляции равен 0 то, это говорит об отсутствии корреляционных связей между переменными. Причем если коэффициент корреляции ближе к 1 (или -1) то говориться о сильной корреляции, а если ближе к 0, то о слабой.

При положительной корреляции увеличение (или уменьшение) значений одной переменной ведет к закономерному увеличению (или уменьшению) другой переменной т.е. взаимосвязи типа увеличение-увеличение (уменьшение-уменьшение).

При отрицательной корреляции увеличение (или уменьшение) значений одной переменной ведет к закономерному уменьшению (или увеличению) другой переменной т.е. взаимосвязи типа увеличение-уменьшение (уменьшение-увеличение).

Корреляция (синонимы): соотношение, соотнесение, взаимосвязь, взаимозависимость, взаимообусловленность, взаимосоответствие.

Коэффициент корреляции Пирсона Расчет коэффициента корреляции Пирсона
Коэффициент корреляции Спирмена Расчет коэффициента корреляции Спирмена
Коэффициент корреляции Кендалла Расчет коэффициента корреляции Кендалла

shpora

    1. Линейный коэффициент корреляции изменяется в пределах

    1. Множественный коэффициент линейной корреляции близок к единице. Это означает, что …

      1. рассматриваются факторы, значимо влияющие на результат

  1. Свойства оценок параметров эконометрической модели, получаемых при помощи МНК

      1. коэффициента эластичности

    1. Если предпосылки метода наименьших квадратов (МНК) не выполняются, то остатки могут характеризоваться … (несколько правильных ответов)

      1. нулевой средней величиной

    1. МНК используется для оценивания …

      1. параметров линейной регрессии

    1. Оценки параметров сверхидентифицируемой системы эконометрических уравнений могут быть найдены с помощью _________ метода наименьших квадратов

      1. двухшагового

    1. При увеличении объема выборки дисперсия эффективной оценки параметра становится бесконечно малой величиной. Такая оценка параметра называется

      1. состоятельной

    1. Самым распространенным методом оценки параметров регрессии является

МНК

    1. Систему МНК построенную для оценки параметров линейного управления множественной регрессии можно решить методом…

      1. определителей

    1. Параметры управления тренда определяются _____ методом наименьших кадров

      1. обычным

    1. МНК – оценки параметров обобщенной регрессионной модели

      1. несмещенные

    1. Обобщенный метод наименьших квадратов может использоваться для корректировки ________ остатков

      1. гетероскедастичности

    1. Обобщенный метод наименьших квадратов подразумевает … (несколько правильных ответов)

      1. Двухэтапное применение метода наименьших квадратов

      2. Преобразование переменных

    1. Проявление гетероскедастичности в остатках удается устранить при помощи метода обобщенного метода наименьших квадратов путем … (несколько правильных ответов)

      1. преобразования переменных

      2. введение в выражения для дисперсии остатков коэффициента пропорциональности

    1. Метод инструментальных переменных применяется в случае корреляции

      1. эндогенной переменной с регрессором

    1. Верификация модели заключается в…

      1. сопоставлении модельных и реальных данных

    1. Дано уравнение регрессии . Определите спецификацию модели.

      1. линейное уравнение множественной регрессии

    1. Дисперсия – это отношение

      1. среднего квадратичного отклонения к средней арифметической величине.

    1. Использование в эконометрическом моделировании парной регрессии вместо множественной является ошибкой…

      1. спецификации

    1. К ошибкам спецификации относится …

      1. неправильный выбор той или иной математической функции

    1. Корреляция подразумевает наличие связи между …

      1. переменными

    1. Найти среднее квадратичное отклонение, если дисперсия совокупности равна 12,25.

      1. 3,5

    1. Найти среднюю урожайность пшеницы с 1 га за три года: 60ц, 49ц, 41ц.

    1. Наличие возмущения зависимой переменной, вызванное неоднородностью данных в исходной статистической совокупности, является учетом.

      1. ошибки выборки

    1. Один из этапов построения экономической модели, на котором проверяются статистические свойства построенной модели, называется…

      1. верификацией модели

    1. Остаток регрессионной модели представляет собой оценку

      1. случайной ошибки

    1. При анализе взаимосвязи признаков в экономической модели используют корреляционное отношение, подсчитанное на основе

      1. аналитической группировки

    1. Расположите модели в возрастающем порядке по степени сложности оценки их параметров.

2Нелинейная модель, линейная относительно параметров

4Нелинейная модель внутренние нелинейные

1.Линейная модель

3Нелинейная модель нелинейная относительно параметров (внутренне линейная)

    1. Разность фактического и теоретического значений результирующей переменной регрессионной модели называется…

      1. остатком

    1. Среднее квадратичное отклонение

      1. показывает в среднем, на сколько отклоняются значения показателя от среднего значения..

    1. Средняя арифметическая величина – это отношение

      1. среднего квадратичного отклонения к средней арифметической величине

    1. Текущее значение экономического процесса yt предопределено его предысторией. Пусть εt ошибка модели в момент t. f-аналитическая функция. Тогда модель для указанного допущения имеет следующий вид…

      1. yt = f(yt)

    1. Укажите выводы, которые соответствуют графику зависимости остатков  от теоретических значений зависимости переменной у (несколько правильных ответов):

      1. имеет место автокорреляция остатков

      2. отсутствует закономерность в поведении остатков

      3. остатки носят случайный характер

1.Термин эконометрика был введен (Фришем)

2.Формулой определяется _________ показателя (средняя арифметическая величина)

3.Часть зависимой переменной в регрессионной модели, которая полностью объясняется значением регрессора (уравнение регрессии)

4.Остаток регрессионной модели представляет собой оценку (случайной ошибки)

5. Экономические модели относятся к классу ___________ экономико-математических моделей (стохастических)

6.Найти среднюю урожайность пшеницы с 1 га за три года: 60ц, 49ц, 41ц. (55)

7.Эконометрика — это … (наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.)

8.Стохастическая связь между признаками, выраженная в том, что средняя величина одного признака увеличивается с возрастанием другого, называется…( автокорреляцией)

9 Как изменяется средняя арифметическая, если все веса уменьшить в А раз?( Увеличивается)

10.Основные стадии экономико-статистического исследования включают: а) сбор первичных данных, б) статистическая сводка и группировка данных, в) контроль и управление объектами статистического изучения, г) анализ статистических данных (а, б, г)

11.Медиана в ряду распределения с четным числом членов ряда равна (полусумме двух срединных членов)

12.Изображение корреляционного поля для парной регрессионной модели относится к статическим графикам, характеризующим … (тесноту и форму зависимости между признаками)

13.К ошибкам спецификации относится …( неправильный выбор той или иной математической функции)

14.При использовании метода Монте-Карло результаты наблюдений генерируются с помощью (датчика случайных чисел)

15.По какой формуле производится вычисление средней величины в интервальном ряду? (Средняя арифметическая взвешенная)

16.Назовите основные виды ошибок регистрации: а) случайные; б) систематические; в) ошибки репрезентативности; г) расчетные (а,б,в)

17.Число степеней свободы определяется … (числом свободы независимого варьирования признака (переменной, фактора))

18.Формализация закономерностей общей эконометрической теории является одним из принципов … эконометрической модели (спецификации)

19.Часть зависимой переменной в регрессионной модели, которая не может быть объяснена значением регрессора (случайное возмущение)

20.Корреляция подразумевает наличие связи между … (переменными)

21.Принцип спецификации модели, лежащий в основании классификации: экономические модели; эконометрические модели (включение случайных возмущений)

22.Дисперсия — это отношение (среднего квадратичного отклонения к средней арифметической величине)

23.Для описания тесноты (силы) связи между зависимой переменной и фактором (факторами) проводят расчет… (коэффициент корреляции)

24.Среднее квадратичное отклонение (показывает в среднем, на сколько отклоняются значения показателя от среднего значения)

25.Значение признака, повторяющееся с наибольшей частотой, называется (модой)

26.Случайная составляющая характеризует ( отклонение модельного значения результирующей переменной от наблюдаемого)

27.Укажите правильные варианты ответов относительно числа переменных включаемых в уравнение регрессии(несколько зависимых и одна не зависимая переменных, одна зависимая и несколько независимых переменных)

28.Коэффициент парной линейной корреляции между признаками Y и X равен 0,9. Следовательно, доля дисперсии результативного признака Y, не объяснённая линейной парной регрессией Y по фактору X, будет равно …( 10%)

29.Верификация модели заключается в( сопоставлении модельных и реальных данных)

30.Этап параметризации модели включает в себя.. (оценку параметров модели)

31.определяется _________ показателей x и y.( Ковариация)

32.В линейной эконометрической модели наблюдаемое значение результирующей переменной, зависящей от факторов модели, и случайной составляющей равно … (сумме)

33.Один из этапов построения экономической модели, на котором проверяются статистические свойства построенной модели, называется… (верификацией модели.)

34.По отношению к выбранной спецификации модели, все экономические переменные объекта подразделяются на (эндогенные и экзогенные)

35.Коэффициент корреляции это: (относительная мера взаимосвязи переменных)

.Использование полинома третьего порядка в качестве регрессионной зависимости для однофакторной модели обусловлено … (неоднородностью выборки)

37. Использование в эконометрическом моделировании парной регрессии вместо множественной является ошибкой.. (спецификации)

38Средне квадратическое отклонение исчисляется как (корень квадратный из дисперсии)

39.Разность фактического и теоретического значений результирующей переменной регрессионной модели называется… (остатком)

40.Статистический показатель дает оценку свойства изучаемого явления: (количественную)

41.Под верификацией модели понимается (проверка адекватности модели)

42.Выбор списка переменных модели и типа взаимосвязи между ними выполняется на этапе (спецификация модели)

43.Найти среднее квадратичное отклонение, если дисперсия совокупности равна 12,25 (3,5)

44.Наличие возмущения зависимой переменной, вызванное неоднородностью данных в исходной статистической совокупности, является учетом (ошибки выборки)

45.Принцип спецификации модели, лежащий в основании классификации: статические модели; динамические модели (датирование переменных)

46.Средняя арифметическая величина — это отношение( суммы значений показателя к объему совокупности)

47.Экономические модели относятся к классу ___________ экономико-математических моделей (стохастических)

48.Средняя геометрическая — это: (корень из произведения индивидуальных показателей)

49.При анализе взаимосвязи признаков в экономической модели используют корреляционное отношение, подсчитанное на основе( аналитической группировки)

50.Требуется вычислить средний стаж деятельности работников фирмы: 6,5,4,6,3,1,4,5,4,5. Какую формулу Вы примените? (средняя арифметическая)

51.Причинами нарушения предпосылок МНК могут являться .. (наличие неучтенного в уравнении существенного фактора ,наличие в уравнении фиктивных переменных.)

52.Модель, содержащая фиктивную переменную, относится к ____ модели. (Регрессионной)

53.МНК позволяет получить состоятельные и несмещенные оценки параметров системы: (независимых уравнений)

При каком значении линейного коэффициента корреляции связь между признаками Y и X можно считать тесной (сильной)( 0,975)

54.С увеличением объема выборки длина доверительного интервала индивидуального значения эндогенной переменной (уменьшается)

55.Если все наблюдения лежат на линии регрессии, то коэффициент детерминации R<sup>2</sup> для модели парной регрессии равен: (единице)

56.Для уравнения зависимости предложения на некоторый товар от цены за единицу товара получено значение коэффициента детерминации, равное 0,64. Следовательно, отношение____ дисперсии предложения к его общей дисперсии равно____ (остаточной….0,36, факторной…0,64)

1.4. О ложной корреляции (влияние «третьего фактора»)

Часто корреляцию и причинную обусловленность считают синонимами. Этот тезис имеет определенные основания, поскольку если нечто является причиной чего-либо другого, то можно говорить о связи первого и второго и, следовательно, об их коррелированности (например, действие и результат, проверка и качество, капиталовложения и прибыль, окружающая среда и прибыль).

Однако корреляция может быть и без причинной обусловленности. Это можно представить так: корреляция — лишь число, которое указывает на то, что большим значениям одной переменной соответствуют большие (или же меньшие) значения другой переменной. Корреляция не может объяснить, почему эти две переменные связаны между собой. Так, корреляция не объясняет, почему капиталовложения порождают прибыль (или наоборот). Корреляция просто констатирует, что между этими величинами существует определенное соответствие. И не более того.

Одним из возможных оснований для существования «корреляции без причинной обусловленности» является наличие некоторого скрытого, ненаблюдаемого, третьего фактора, который «маскируется» под другую переменную. В результате фиксируется так называемая «ложная корреляция».

Допустим, нами выявлена высокая корреляция между приемом на работу новых менеджеров и созданием новых производственных мощностей. Возможно, именно менеджеры являются «причиной» капиталовложений в новые производственные мощности? Или же, наоборот, создание новых производственных мощностей послужило «причиной» приема на работу новых менеджеров? Скорее всего, однако, здесь проявляется действие третьего фактора — высокой потребности в продукции фирмы, что и послужило причиной и приема на работу новых менеджеров, и создания новых производственных мощностей.

В истории статистики известен один классический пример. Он касается курьезного исследования под условным названием «Аисты приносят детей». Так, в шведской столице в течение 73 лет регистрировалось число новорожденных в год (у) и число аистов (х), которых содержало население. Указанные данные были сведены в таблицу, и по ним был рассчитан коэффициент парной корреляции. Он оказался близок к единице, так что формально никакой статистики и не требовалось для проверки.

Все экспериментальные точки аккуратно улеглись на прямую, т.е. практически указанную связь следовало бы толковать как чисто функциональную.

Поскольку утверждение, содержащее в упомянутом тезисе, довольно сомнительное, было решено поискать другое разумное объяснение. Оказалось, что одновременные синхронные изменения числа аистов и числа детишек объясняются изменением среднего уровня жизни жителей Стокгольма. Эта переменная первоначально не являлась предметом рассмотрения, отчего и случился такой забавный курьез вследствие ложной корреляции.

В качестве статистического показателя может быть использован также коэффициент (индекс) детерминации (причинности) R , который равен квадрату коэффициента корреляции (г2). Он показывает, в какой мере изменчивость у (результативного признака) объясняется поведением х (факторного признака), или иначе: какая часть общей изменчивости у вызвана собственно влиянием х. Этот показатель вычисляется путём простого возведения в квадрат коэффициента корреляции. Тем самым доля изменчивости у, определяемая выражением 1 — R , оказывается необъясненной.

Допустим к примеру, что коэффициент корреляции совокупности данных, относящихся к производственным затратам, равняется 0,869193. Следовательно, значение R равно

R2 = 0,8691932 = 0,755 или 75,5 %.

Это значение R2 говорит о том, что 75,5 % вариации (изменчивости), скажем, недельных затрат объясняется количеством изделий, выпущенных за неделю. Остальная часть (24,5 %) вариации общих затрат объясняется какими-то другими причинами. Это значит, что более чем на 75 % мы знаем, что влияет на изменение изучаемого параметра, но почти на 25 % ничего путного сказать не можем о причинах наблюдаемой изменчивости.

Величина этого коэффициента меняется в пределах от 0 до 1. Чем ближе он к единице, тем, следовательно, меньше в нашей модели процесса влияние неучтенных факторов и тем больше оснований считать, что указанная зависимость отражает степень эффективности воздействия изучаемого фактора.

Ложная корреляция и коинтеграция

Предположим, что процессы yt = yt_x + ef, et ~ WN(0; а) и xt = xt_x + vt, vt~ (0; af), cov(^, 8,) = 0, стационарны в первых разностях. Тогда при оценивании модели у( = a + (Зх, + е,, е, ~ WN(0; а), может получиться, что коэффициент р значим, а это ведет к тому, что между г/, и х{ есть значимая корреляция, при этом никакой причинно-следственной (качественной) взаимосвязи нет. Этот эффект получил название ложной корреляции. Он возникает из-за того, что обе переменные являются нестационарными и в них обеих наблюдается так называемый стохастический тренд, поэтому при построении регрессии одной переменной на другую коэффициент наклона может быть значим.

Один из примеров ложной корреляции — значимая корреляция между потреблением курятины на человека и импортом США сырой нефти. Оба ряда имеют схожую динамику во времени, и из этого можно заключить, что повышение потребления курятины ведет к повышению импорта сырой нефти, но это, конечно, не так. Строго говоря, сам термин «ложная корреляция» не совсем удачен, так как корреляция как раз у таких рядов значима, а вот качественная причинно-следственная взаимосвязь отсутствует.

Если говорить менее формально, то корреляция обозначает совпадение в пространстве и времени некоторых событий, но это именно совпадение, а не причинно-следственная взаимосвязь. Часто ложная корреляция возникает из-за следующей взаимосвязи переменных. Мы наблюдаем некоторые переменные Y и X, которые имеют схожую динамику, и мы можем ошибочно заключить, что между ними есть причинно-следственная взаимосвязь, но на самом деле они могут зависеть от ненаблюдаемой переменной Z, которая влияет на их обеих. Для избавления от ложной корреляции необходимо перейти к модели, где все переменные являются стационарными (например, с помощью перехода к разностям).

Вторым важным свойством нестационарных временных рядов является коинтеграция. Зачастую многие нестационарные ряды, которые приводятся к стационарному виду взятием первой разности, могут иметь некоторую долгосрочную взаимосвязь (т.е. корреляция переходит в уже качественно новое состояние).

Говорят, что нестационарный ряд является интегрированным порядка d, если необходимо взять d разностей, чтобы привести его к стационарному виду. Такие ряды обозначаются как 1(d). Приведем формальное определение коинтегрированных рядов.

Определение 12.6. Рассмотрим два ряда, yt ~ 1(d) и xt ~ 1(d). Если существует такой вектор (а, Р): а ^ 0, р ^ 0, что ау( + fact ~ I(d — /;), Ъ > 0, то ряды называются коинтегрированными порядка Ь.

Например, два ряда типа 1(1) являются коинтегрированными, если их линейная комбинация (с ненулевыми коэффициентами) является стационарным рядом. На таких процессах, как наиболее распространенных, мы и остановим внимание в этом параграфе.

Стоит отметить, что коинтегрирующее соотношение задается с точностью до множителя, т.е. вы можете умножить (а, Р) на любое число и снова получите коинтегрирующее соотношение, поэтому часто коинтегрирующее соотношение определяют как (1, у). Однако ряды, обладающие исключительно ложной корреляцией, необходимо как-то отличать от рядов, обладающих свойством коинтеграции. Известные исследователи Энгл и Гренджер сделали соответствующий формальный тест (в этом тесте предполагается, что оба ряда — типа /(1)).

На содержательном уровне различия между рядами, которые обладают ложной корреляцией и коинтеграцией, таковы. Можно показать, что коин- тегрированные ряды имеют так называемые одинаковые стохастические тренды, т.е. в их состав входит одна и та же нестационарная переменная, в то время как просто ложно коррелированные ряды таким свойством не обладают. Поэтому часто понятие коинтеграции наделяют качественным смыслом, что, вообще говоря, не совсем корректно, так как общим стохастическим трендам еще необходимо дать корректное качественное описание.

Прежде чем перейти к тесту Энгла — Гренджера, докажем, что все коин- тегрированные процессы являются коррелированными, но не все коррелированные процессы являются коинтегрированными. Можно показать, что в случае двух рядов единственным с точностью до множителя коинтегриру- ющим вектором является вектор (1,рмнк) из уравнения г/, = а + fix{ + ег Если переменные yt и xt являются коинтегрированными, тормнк значим, а значит, регрессия адекватна и между переменными корреляция есть. Однако если корреляция есть, то (3 значим, но необязательно такая линейная комбинация переменных будет стационарной. Перейдем к рассмотрению теста Энгла — Гренджера.

На первом этапе исследуется стационарность временных рядов yr xt с помощью обычных тестов на единичные корни. Как можно заключить из определения, необходимым условием для коинтеграции является требование, чтобы оба процесса были 1(1). Затем с помощью МНК оценивается модель yt = а + $xt + 8Г На втором шаге ряд остатков et из оцененной модели проверяется на стационарность с помощью теста, аналогичного тесту Дики — Фуллера.

Вся разница между этими тестами заключается в том, что критические значения для теста Энгла — Гренджера находятся левее, чем критические значения для теста Дики — Фуллера, а процедура проведения теста и тестовая статистика остаются неизменными. Если для остатков гипотеза о наличии единичного корня не отвергается, то коинтеграции в данных нет, если же гипотеза отвергается, то коинтеграция есть. Действительно, но определению et = у(- а — $хг значит, если остатки нестационарны, то линейная комбинация оригинальных переменных также нестационарна, следовательно, коинтеграции нет.

Если между двумя рядами обнаружена коинтеграция, то эту информацию необходимо использовать, чтобы построить более полную и корректную модель. Для этих целей был разработан новый класс моделей, получивших название моделей коррекции ошибок (error correction models), которые в общем виде выглядят так:

Для этой модели выражение, стоящее в скобках, обозначает устойчивую долгосрочную взаимосвязь и коэффициенты перед yt {хг х соответствуют коинтеграционному вектору с точностью до множителя у, более того, эта линейная комбинация переменных стационарна. Коэффициенты перед переменными Дг/,_, и Ax,_i означают подстройку текущих значений переменной под долгосрочное равновесие (это и есть коррекция значения). Необходимо также пояснить мотивацию к появлению данных моделей в литературе. Если ряды стационарны, то мы можем строить регрессию в уровнях (оригинальных значениях) для обеих переменных. Если же ряды нестационарны, то может быть два варианта. Коинтеграции нет, следовательно, можно оценивать только модель в разностях. Это может мешать корректной интерпретации коэффициентов. Если же коинтеграция есть, то модель коррекции ошибками позволяет оценить зависимость в уровнях. Последнее утверждение остается в качестве упражнения читателю.

Отметим также важную особенность данного теста. Часто не уточняется, какую из двух переменных брать в качестве зависимой, а какую в качестве независимой. В большинстве случаев это не приводит к изменению результата, однако желательно рассматривать оба варианта, если стоит задача лишь в поиске коинтеграции. Если же из постановки задачи ясно, какая переменная является зависимой, то именно такую спецификацию и необходимо использовать для проведения теста.

  • На практике при подозрении на наличие двух единичных корней необходимо двигатьсяот разностей к уровням, используя знакомые вам тесты.
  • На практике при подозрении на наличие двух единичных корней необходимо двигатьсяот разностей к уровням, используя знакомые вам тесты.
  • На практике при подозрении на наличие двух единичных корней необходимо двигатьсяот разностей к уровням, используя знакомые вам тесты.
  • URL: http://www.tylervigen.com/spurious-correlations.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *