Главная Случайная страница


Категории:

ДомЗдоровьеЗоологияИнформатикаИскусствоИскусствоКомпьютерыКулинарияМаркетингМатематикаМедицинаМенеджментОбразованиеПедагогикаПитомцыПрограммированиеПроизводствоПромышленностьПсихологияРазноеРелигияСоциологияСпортСтатистикаТранспортФизикаФилософияФинансыХимияХоббиЭкологияЭкономикаЭлектроника






ЛИНЕЙНАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ

ЛИНЕЙНАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ

Регрессия и корреляция широко используется при анализе связей между явлениями. Прежде всего, в экономике – исследование зависимости объемов производства от целого ряда факторов: размера основных фондов, обеспеченности предприятия квалифицированным персоналом и других; зависимости спроса или потребления населения от уровня дохода, цен на товары и т.д. Экономические показатели являются многомерными случайными величинами.

В большинстве случаев между переменными, характеризующими экономические величины, существуют зависимости, отличающиеся от функциональных. Она возникает, когда один из факторов зависит не только от другого, но и от ряда случайных условий, оказывающих влияние на один или оба фактора. В этом случае ее называют стохастической (корреляционной) и говорят, что переменные коррелируют. Виды стохастических связей между факторами могут быть линейными и нелинейными, положительными или отрицательными. Возможна такая ситуация, когда между факторами невозможно установить какую–либо зависимость.

Однако при изучении влияния одного явления на другое удобно работать именно с функциями, связывающими эти явления. Задачи построения функциональной зависимости между факторами, анализа полученных результатов и прогнозирования решаются с помощью регрессионного анализа.

КОРРЕЛЯЦИОННАЯ ЗАВИСИМОСТЬ

Для изучения зависимости между двумя числовыми переменными (х и у) сначала строят графики рассеяния. В Excel данный вид графиков называется точечной диаграммой. Используя графическое представление, можно сделать вывод о корреляционной зависимости или независимости рассматриваемых данных. Если в массиве данных присутствуют «выбросы», то их следует исключить из рассмотрения, если это возможно сделать, или усреднить, используя соседние элементы. Теперь можно выдвинуть предположение о существовании линейной или нелинейной зависимости между переменными. Для этого найдите коэффициент корреляции и проверьте его значимость.

Тесноту линейной зависимости изучаемых явлений оценивает линейный коэффициент парной корреляции rxy:

, (1.1)

где cov(x, y) обозначают смешенный момент второго порядка (1.5), который называется ковариацией.

Ковариация является мерой взаимосвязи случайных величин и может служить для определения направления их изменения:

если cov(x, y) > 0, то случайные величины изменяются в одном направлении;

если cov(x, y) < 0, то случайные величины изменяются в разных направлениях.

Очевидными свойствами ковариации являются:

симметричность ковариации относительно случайных чисел: cov(x, y) = cov(у, х);

cov(x, х) = Dx;

если СВ Х и Y независимые, то cov(x, y) = 0.

Коэффициент корреляции (1.1) является величиной безразмерной. Случайные величины Х и Y называют некоррелированными, если rxy = 0 (отсутствует линейная зависимость между Х и Y), в противном случаем можно говорить о линейной зависимости между величинами Х и Y, а величины называю коррелированными. Свойства коэффициента корреляции:

r =1;

rxy = ryх;

–1 ≤ rxy ≤ 1.

В пакете Анализ данных есть инструменты Ковариация и Корреляция, позволяющие сделать вывод о линейной зависимости случайных величин.

Пример 1.1. Для анализа зависимости объема потребления y (у.е.) хозяйств от располагаемого ежемесячного дохода х (у.е.) отобрана выборка (n = 12), представленная таблицей.

i
x
y

Постройте график рассеяния и сделайте вывод о виде функциональной зависимости между объемом потребления и ежемесячным доходом в семье.

 

Внести данные и построить корреляционное поле.

 

Рассчитать коэффициент корреляции в В15: =КОРРЕЛ(B2:B13;C2:C13. Значение близко к 1, что свидетельствует о сильной линейной зависимости между объемом потребления и уровнем доходов в семье.

Проверим значимость коэффициента корреляции. Для этого сформулируем основную и альтернативную гипотезы:

Н0: rху = 0, коэффициент незначимый;

Н1: rху ≠ 0, коэффициент значимый.

Число степеней свободы n – 2.

.

Для проверки гипотезы воспользуемся t–критерием и уровнем значимости 5 %,

tкр = Стьюдраспобр(Вероятность; Степени_свободы) = 2,228;

На основании сравнения этих значений tрасч > tкр принимаем решение: основная гипотеза отклоняется в пользу альтернативной, т.е. коэффициент корреляции значим. По корреляционному полю можно предположить, что между х и у существует линейная зависимость у = b0 + b1x.

 

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ ДАННЫХ

При выполнении многомерного анализа данных изучают корреляцию между каждой парой переменных. Эти результаты представляют в виде корреляционной матрицы. Инструмент анализа Корреляция позволяет определить парные корреляции для многих переменных. После его запуска получится нижняя треугольная часть матрицы, на диагонали которой будут стоять единицы (rxx). Верхняя часть матрицы является зеркальным отражением нижней ее части, поскольку rху = rух.

Если надо изучить зависимость между переменными при условии управления одной или несколькими переменными, то находят коэффициенты частной корреляции. Частные коэффициенты корреляции могут оказаться полезными при определении ложных связей.

Например, изучается зависимость y = f (z, x). Коэффициенты парной корреляции между х и у высокие, однако зависимость будет считаться ложной, если х линейно зависит от z. Если исключить влияние переменной z, то корреляционная зависимость между у и х может исчезнуть,

Надо найти частные коэффициенты корреляции, т.е. элиминировать один из факторов (устранить его влияние). В случае трех факторов корреляцию между у и х при элиминированном факторе z можно найти по формуле:

.

Подобным образом находят и остальные коэффициенты частной корреляции.

Пример 1.2. Формируется три портфеля из десяти акций. Первый состоит из 10 акций вида А., второй содержит по 5 акций А и В; а третий включает 5 акций вида А, 3 вида В и 2 вида С. Данные о прибыли по каждому виду акций за десять месяцев представлены на рисунке.

Имеется ли зависимость между акциями А, В и С?

Отличаются ли данные портфели по доходности и риску?

1. Введите данные в ячейки А1:С11.

2. Используя инструменты Пакета анализа Корреляция и Ковариация, рассчитайте корреляционную и ковариационную матрицы.

Описание результатов

Коэффициенты корреляции не очень высокие: rАВ = 0,32, rАС = 0,36, rВС = – 0,06. Акции плохо коррелируют между собой, то есть между дивидендами по акциям существует слабая линейная зависимость.

Так как коэффициент ковариации для дивидендов по акциям В и С отрицательный, то прибыль по ним будет изменяться в разных направлениях (при увеличении дивидендов по акциям В дивиденды по акциям С будут уменьшаться). Правда, эти изменения не очень велики, около 10%.

Если рынок ценных бумаг устойчивый, то желательно исключить акции вида С из портфеля, так как соv(С, С)=5,07 наибольшая, а значит риск в их вложение высокий.

Акции А и В коррелируют слабо соv(А, В) = 0,28, поэтому есть основания считать, что вложение капитала в равных долях в эти акции будет наименее рискованным. Для более правильного вывода надо вычислить дисперсии для каждого портфеля и сравнить их.

Напоминаем, что

D(с Х) = с2 соv(Х, Х),

D(Х ± Y) = D(Х) + D(Y) ± 2 cov(X, Y).

Дисперсии для первого портфеля: D(10 A) = 100 соv(А, А) = 158,8.

Для второго: Z = 5 A + 5 B, D(Z) = 66,3.

Третий портфель имеет дисперсию: D(F) = D(5 A + 3 B +2 C) = 25 соv(А, А) + 9 соv(В, В) +4 соv(С, С) + 30 соv(А, В) + 20 соv(А, С) + 12 соv(В, С) = 92,5.

Вывод: наименьший риск получается при покупке акций А и В в равных долях.

Чтобы принять окончательное решение надо построить множество Парето, характеризующее зависимость доходности портфеля от его риска, т.е. математического ожидания и дисперсии.

Напоминаем, что

M(с Х) = с M(Х),

M(Х ± Y) = M(Х) ± M(Y).

Математическое ожидание прибыли акции равно среднему арифметическому прибыли. Математическое ожидание прибыли портфеля 1 вычисляем как сумму произведений В14:D14; $B$17:$D$17. Тиражируем формулу для Портфелей 2 и 3.

По дисперсии и математическому ожиданию построить точечную диаграмму. Здесь пересечение осей сдвинуто из начала координат.

Таким образом, оптимальным действительно является Портфель 2.

 

ИНСТРУМЕНТ АНАЛИЗА РЕГРЕССИЯ

Дает возможность провести более полный анализ, полученного уравнения линейного тренда с использованием методов математической статистики.

Коэффициенты уравнения линейной регрессии находятся по выборочным данным и являются величинами случайными, поэтому надо провести анализ их значимости. Надо определить значимость всего уравнения регрессии, построить прогноз, провести оценку его значимости.

При построении линейного тренда предполагается, что линейная модель наилучшим образом характеризует зависимость между х и у:

У = b0+ b1х + e, (1.1)

где b0 и b1 параметры модели; e – случайная величина (возмущение), характеризующая влияние неучтенных факторов.

Уравнение прямой, коэффициенты которого находят по выборочным данным, называют уравнением регрессии и обозначают ŷ:

ŷ = b0 + b1 х, (1.2)

Коэффициенты регрессии b0 и b1 находят по методу наименьших квадратов. Они являются только оценками параметров модели (соответственно b0 и b1). Для получения наилучших оценок необходимо, чтобы выполнялся ряд предпосылок относительно случайного отклонения

еi = yiŷi = yib0b1xi

индекс i означает значение факторов в одноименном испытании. Это условия Гаусса-Маркова, а так же предположения:

случайные отклонения имеют нормальный закон распределения;

отсутствуют ошибки спецификации;

число наблюдений достаточно большое: как минимум в шесть раз превышает число объясняющих факторов и другие.

Оценку b1 называют коэффициентом регрессии. Ее значение показывает среднее изменение результата у с изменением фактора х на одну единицу.

Можно установить зависимость между коэффициентом регрессии и коэффициентом корреляции:

. (1.3)

В качестве меры рассеивания фактическогозначения у относительно теоретическогозначения ŷ (находится по уравнению регрессии) используется стандартная ошибкауравнения регрессии, которая определяется по формуле:

. (1.4)

ОЦЕНКА КАЧЕСТВА ПОЛУЧЕННОГО УРАВНЕНИЯ РЕГРЕССИИ СОДЕРЖИТ СЛЕДУЮЩИЕ ПУНКТЫ:

- Оценка значимости коэффициентов регрессии;

- Построение доверительных интервалов для каждого коэффициента;

- Оценка значимости всего уравнения регрессии;

- Построение прогнозного значения и доверительного интервала к ним.

Для определения статистической значимостикоэффициентов регрессии и корреляции необходимо рассчитать t-статистикиСтьюдента лучше всего это сделать с помощью встроенной функции СТЬДРАСПОБР.

ОЦЕНКА ЗНАЧИМОСТИ КОЭФФИЦИЕНТОВ РЕГРЕССИИ И КОРРЕЛЯЦИИ

Устанавливает надежность полученных результатов. Случайные ошибки коэффициента корреляции и оценок параметров линейной модели вычисляются по формулам:

(1.4)

стандартное отклонение коэффициента b1.

. (1.4)

стандартное отклонение коэффициента b0.

. (1.5)

стандартное отклонение коэффициента корреляции

Любое стандартное отклонение иногда называют стандартной ошибкойсоответствующего коэффициента.

Рассматривается основная гипотеза о равенстве параметров регрессии нулю.

H0: bi= 0 – коэффициент незначим;

H1: bi ≠ 0 – коэффициент значимый

По выборке находят t-статистики (Тнабл.):

. (1.8)

Критическое значение Ткр для t-статистик находят с помощью распределения Стьюдента. Для этого надо знать объемвыборки и задать уровень значимости. Например, для a = 0,05 и n = 14, Ткр = ta/2,n-2= t0,025,12 = 2,179.

Выдвинутая гипотеза:

принимается, если выполняется неравенство |Тнабл| < Ткри делают вывод, что коэффициент незначим (равен нулю);

отвергается, если |Тнабл| > Ткри делают вывод, что коэффициент значим.

Часто при проверке качества коэффициентов используют «грубое правило»:

если |t| £ 1 (bj < Sj), то коэффициент статистически незначим;

если 1 < |t| £ 2 (bj < 2Sj), то коэффициент относительно слабо значим, рекомендуется воспользоваться таблицей критических точек распределения Стьюдента;

если 2 < |t| £ 3, то коэффициент значим (это утверждение считается гарантированным при n > 20 и a ³ 0,05);

если 3 < |t|, то коэффициент считается сильно значимым (вероятность ошибки при достаточном числе наблюдений не превосходит 0,001).

Каждая оценка дополняется доверительным интервалом. Для этого определяют предельную ошибку для каждого коэффициента:

Di = ta/2, n – 2 Si, (1.9)

откуда границы доверительных интервалов находятся по формуле:

bi ± Dbi. (1.10)

Коэффициент детерминации для парной регрессии совпадает с квадратом коэффициента корреляции R2 = r2xy и характеризует долю дисперсии результативного признака у, объясняемую регрессией в общей дисперсии результативного признака. Соответственно величина 1 – R2 характеризует долю дисперсии у, вызванную влиянием неучтенных факторов в общей дисперсии признака у.

. (1.11*)

Разделив обе части уравнения на общую сумму квадратов отклонений, получим:

,

. (1.11)

Таким образом, коэффициент детерминации R2 является мерой, позволяющей определить, в какой степени найденная прямая регрессии дает лучший результат для объяснения поведения зависимой переменной у, чем горизонтальная прямая у = . Очевидно, что 0 ≤ R2 ≤ 1. Откуда следует, что чем ближе он к единице, тем больше уравнение регрессии объясняет поведение фактических значений у. Поэтому следует строить регрессию с наибольшим значением R2.

Корень квадратный из коэффициента детерминации называется индексом корреляции и обозначают rxy.

Для проверки общего качества уравнения регрессии выдвигается предположение, что коэффициенты b0 и b1 одновременно равны нулю, тогда уравнение считают незначимым, в противном случае значимым. Данная гипотеза проверяется на основе дисперсионного анализа, при этом сравниваются объясненная и остаточная дисперсии:

– уравнение незначимо,

– уравнение значимо.

Строится F-статистика:

. (1.12)

При выполнении условий МНК статистика имеет распределение Фишера с числом степеней свободы n1 = 1, n2 = n – 1. При уровне значимости находят критическую точку Fa, 1, n – 1 = Fкр с помощью функции FРАСПОБР и сравнивают его с наблюдаемым значением F. Так как рассматриваемая гипотеза правосторонняя, то:

- если F > Fкр, то гипотеза H0 отклоняется в пользу H1, что означает объясненная дисперсия существенно больше остаточной, следовательно, уравнение регрессии достаточно качественно отражает динамику изменения зависимой переменной от объясняющей.

- если F < Fкр, то гипотеза H0 принимается, т.е. объясненная дисперсия соизмерима с остаточной дисперсией, вызванной случайными факторами. Это позволяет считать влияние объясняющих переменных модели несущественным, а, следовательно, общее качество уравнения регрессии невысоким.

В случае линейной регрессии проверка нулевой гипотезы для F-статистики равносильна проверке нулевой гипотезы для tr-статистики для коэффициента корреляции:

,

Можно доказать равенство:

. (1.13)

ПОИСК ПРОГНОЗНОГО ЗНАЧЕНИЯ И ЕГО ОЦЕНКА

Прогнозное значение ŷр определяется, если в уравнение регрессии подставить значение хр:

ŷр = b0 + b1 хр. (1.14)

Границы доверительного интервала для параметра ур будут равны:

ŷр ± ta/2, n – 2 Sp. (1.15)

Чтобы найти стандартную ошибку Sp прогнозного значения ŷр можно использовать два подхода: либо рассматривать параметр ур как отдельное значение переменной хр; или разброс ур найти как условное среднее значение при известном значении хр.

Доверительный интервал для отдельного значения ур учитывает источники рассеяния: для коэффициентов регрессии (1.5, 1.6) и всего уравнения регрессии (1.4). В этом случае стандартная ошибка прогноза Sр вычисляется по формуле:

, (1.16)

Доверительный интервал для условного среднего не учитывает дисперсию для всего уравнения регрессии (1.4), поэтому формула для вычисления ошибки прогноза имеет вид:

, (1.17)

Пример 1.3. Воспользуемся данными примера 1.1 для выполнения следующих заданий:

1. по данным выборок построить линейную модель у = b0+ b1x + e;

a. оценить параметры уравнения регрессии ŷх;

b. оценить статистическую значимость коэффициентов регрессии;

c. оценить силу линейной зависимости между х и у;

d. спрогнозировать потребление при доходе х = 160.

2. построить модель, не содержащую свободный член у = vx + u.

a. найти коэффициент регрессии а;

b. оценить статистическую значимость коэффициента а;

c. оценить силу общее качество уравнения регрессии;

3. значимо или нет различаются коэффициенты b1 и а?

4. какую модель вы выбираете?

Инструкции для выполнения примера с помощью инструмента Регрессия пакета анализа.

Для задания 1.

1. Скопировать данные примера 1.1 на новый лист.

2. С помощью инструмента Регрессия Пакета анализа данных выведите регрессионную статистику с остатками и уровнем надежности 98%.

 

Все оценки по умолчанию проводятся в Excel с уровнем значимости a =0,05 (g =1 – a =0,95)

Описание результатов по данным примера 1.1

Результат состоит из четырех блоков: Регрессионная статистика, Дисперсионный анализ данных для коэффициентов регрессии и их оценок, вывод остатков.

РЕГРЕССИОННАЯ СТАТИСТИКА содержит строки, характеризующие построенное уравнение регрессии:

Для парной регрессии Множественный R равен коэффициенту корреляции (rxe). По его значению 0,98 можно сказать, что между х и у существует сильная линейная зависимость.

Строка R–квадрат равна коэффициенту корреляции в квадрате.

Нормированный R–квадрат рассчитывается с учетом степеней свободы числителя (n – 2) и знаменателя (n – 1) по формуле 1.11.

Стандартная ошибка (S) регрессии вычисляется по формуле 1.4.

Последняя строка содержит количество выборочных данных (n).

ДИСПЕРСИОННЫЙ АНАЛИЗ позволяет исследовать общую дисперсию у (строка ИТОГО), дисперсию для теоретических данных (строка Регрессия) и остаточную дисперсию (строка Остаток).

Второй столбец (df) содержит число степеней свободы для каждой из сумм формулы (1.11*).

В третьем столбе (SS) находятся суммы квадратов (1.11*).

Четвертый столбец (MS) содержит средние значения SS/df для регрессии и остатков.

В пятом столбце вычисляется по выборочным данным значение статистики F (1.12).

Последний столбец, содержит F-значение равное Р(F > Fнабл) = FРАСП(Fнабл; 1; 10) с уровнем значимости 0,05. С его помощью можно оценить значимость всего уравнения регрессии. Это значение можно считать вероятностью выполнения гипотезы Н0.

В нашем случае она практически равна нулю, следовательно, построенное уравнение дает хорошее приближение к исходным данным.

Задание 2.

Рассмотрим модельное уравнение, не содержащее свободного члена: у = + e, тогда соответствующее ему уравнение регрессии: ŷ = аx + u.

Проведем исследование этого уравнения, так же как и в задании 1, инструментом Регрессия. При заполнения полей диалогового окна обязательно включите опцию Константа ноль (принять свободный член равным нулю) и измените параметры выходного интервала так, чтобы вывод итогов задания 1 и задания 2 не пересекались.

Вывод итогов в этом случае представлен на рисунке. Строка, соответствующая свободному члену уравнения, содержит запись #Н/Д, так как он отсутствует в уравнении (включали константу ноль).

По аналогии с заданием 1 выполните описание результатов самостоятельно для полученного уравнения регрессии ŷ = 0,964х.

Задание 3.

Проверим значимость различия коэффициентов b1 и а. Для этого сформулируем гипотезу о равенстве математических ожиданий:

Н0: М(b1)=М(а) – коэффициенты совпадают, значимого различия нет;

H1: М(b1)≠М(b) – коэффициенты различаются значимо.

Для проверки гипотезы построим статистику


= (B35 – B73) / ((B25 – 2) * C35^2 + (B25 – 1) * C73^2)^0,5 * (B25^2 * (2 * B25 – 3) / (2 * B25))^0,5 = –1,7716.

Сравним наблюдаемое значение с критическим при уровне значимости a = 0,05 и числом степеней свободы n = 2 × 12 – 2 – 1 = 21.

Найдем критическое значение с помощью встроенной функции Стьюдента t = СТЬЮДРАСПОБР(5%; 2*B25 – 2 – 1) = 2,080. Поскольку |Тнабл| < t, то нет оснований для отклонения нулевой гипотезы. Это дает основания утверждать, что различия в коэффициентах незначимо.

Задание 4.

Необходимо сравнить коэффициенты детерминации двух уравнений, значения которых возьмите из отчетов Вывод Итогов, рассмотренных в двух предыдущих заданиях:

для первого уравнения R2 = 0,9807,

для второго уравнения R2 = 0,9998.

Так как для второго уравнения это значение больше, чем для первого, то можно предположить, что второе уравнение ŷ = 0,9645х описывает поведение зависимой переменной лучше, чем первое ŷ = 2,6630 + 0,9435х, так как для него коэффициент детерминации больше. Сравнение двух уравнений регрессии с помощью F-статистики будет рассмотрено в разделе множественная линейная регрессия.

 

ЛИНЕЙНАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ

Регрессия и корреляция широко используется при анализе связей между явлениями. Прежде всего, в экономике – исследование зависимости объемов производства от целого ряда факторов: размера основных фондов, обеспеченности предприятия квалифицированным персоналом и других; зависимости спроса или потребления населения от уровня дохода, цен на товары и т.д. Экономические показатели являются многомерными случайными величинами.

В большинстве случаев между переменными, характеризующими экономические величины, существуют зависимости, отличающиеся от функциональных. Она возникает, когда один из факторов зависит не только от другого, но и от ряда случайных условий, оказывающих влияние на один или оба фактора. В этом случае ее называют стохастической (корреляционной) и говорят, что переменные коррелируют. Виды стохастических связей между факторами могут быть линейными и нелинейными, положительными или отрицательными. Возможна такая ситуация, когда между факторами невозможно установить какую–либо зависимость.

Однако при изучении влияния одного явления на другое удобно работать именно с функциями, связывающими эти явления. Задачи построения функциональной зависимости между факторами, анализа полученных результатов и прогнозирования решаются с помощью регрессионного анализа.

КОРРЕЛЯЦИОННАЯ ЗАВИСИМОСТЬ

Для изучения зависимости между двумя числовыми переменными (х и у) сначала строят графики рассеяния. В Excel данный вид графиков называется точечной диаграммой. Используя графическое представление, можно сделать вывод о корреляционной зависимости или независимости рассматриваемых данных. Если в массиве данных присутствуют «выбросы», то их следует исключить из рассмотрения, если это возможно сделать, или усреднить, используя соседние элементы. Теперь можно выдвинуть предположение о существовании линейной или нелинейной зависимости между переменными. Для этого найдите коэффициент корреляции и проверьте его значимость.

Тесноту линейной зависимости изучаемых явлений оценивает линейный коэффициент парной корреляции rxy:

, (1.1)

где cov(x, y) обозначают смешенный момент второго порядка (1.5), который называется ковариацией.

Ковариация является мерой взаимосвязи случайных величин и может служить для определения направления их изменения:

если cov(x, y) > 0, то случайные величины изменяются в одном направлении;

если cov(x, y) < 0, то случайные величины изменяются в разных направлениях.

Очевидными свойствами ковариации являются:

симметричность ковариации относительно случайных чисел: cov(x, y) = cov(у, х);

cov(x, х) = Dx;

если СВ Х и Y независимые, то cov(x, y) = 0.

Коэффициент корреляции (1.1) является величиной безразмерной. Случайные величины Х и Y называют некоррелированными, если rxy = 0 (отсутствует линейная зависимость между Х и Y), в противном случаем можно говорить о линейной зависимости между величинами Х и Y, а величины называю коррелированными. Свойства коэффициента корреляции:

r =1;

rxy = ryх;

–1 ≤ rxy ≤ 1.

В пакете Анализ данных есть инструменты Ковариация и Корреляция, позволяющие сделать вывод о линейной зависимости случайных величин.

Пример 1.1. Для анализа зависимости объема потребления y (у.е.) хозяйств от располагаемого ежемесячного дохода х (у.е.) отобрана выборка (n = 12), представленная таблицей.

i
x
y

Постройте график рассеяния и сделайте вывод о виде функциональной зависимости между объемом потребления и ежемесячным доходом в семье.

 

Внести данные и построить корреляционное поле.

 

Рассчитать коэффициент корреляции в В15: =КОРРЕЛ(B2:B13;C2:C13. Значение близко к 1, что свидетельствует о сильной линейной зависимости между объемом потребления и уровнем доходов в семье.

Проверим значимость коэффициента корреляции. Для этого сформулируем основную и альтернативную гипотезы:

Н0: rху = 0, коэффициент незначимый;

Н1: rху ≠ 0, коэффициент значимый.

Число степеней свободы n – 2.

.

Для проверки гипотезы воспользуемся t–критерием и уровнем значимости 5 %,

tкр = Стьюдраспобр(Вероятность; Степени_свободы) = 2,228;

На основании сравнения этих значений tрасч > tкр принимаем решение: основная гипотеза отклоняется в пользу альтернативной, т.е. коэффициент корреляции значим. По корреляционному полю можно предположить, что между х и у существует линейная зависимость у = b0 + b1x.

 

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ ДАННЫХ

При выполнении многомерного анализа данных изучают корреляцию между каждой парой переменных. Эти результаты представляют в виде корреляционной матрицы. Инструмент анализа Корреляция позволяет определить парные корреляции для многих переменных. После его запуска получится нижняя треугольная часть матрицы, на диагонали которой будут стоять единицы (rxx). Верхняя часть матрицы является зеркальным отражением нижней ее части, поскольку rху = rух.

Если надо изучить зависимость между переменными при условии управления одной или несколькими переменными, то находят коэффициенты частной корреляции. Частные коэффициенты корреляции могут оказаться полезными при определении ложных связей.

Например, изучается зависимость y = f (z, x). Коэффициенты парной корреляции между х и у высокие, однако зависимость будет считаться ложной, если х линейно зависит от z. Если исключить влияние переменной z, то корреляционная зависимость между у и х может исчезнуть,

Надо найти частные коэффициенты корреляции, т.е. элиминировать один из факторов (устранить его влияние). В случае трех факторов корреляцию между у и х при элиминированном факторе z можно найти по формуле:

.

Подобным образом находят и остальные коэффициенты частной корреляции.

Пример 1.2. Формируется три портфеля из десяти акций. Первый состоит из 10 акций вида А., второй содержит по 5 акций А и В; а третий включает 5 акций вида А, 3 вида В и 2 вида С. Данные о прибыли по каждому виду акций за десять месяцев представлены на рисунке.

Имеется ли зависимость между акциями А, В и С?

Отличаются ли данные портфели по доходности и риску?

1. Введите данные в ячейки А1:С11.

2. Используя инструменты Пакета анализа Корреляция и Ковариация, рассчитайте корреляционную и ковариационную матрицы.

Описание результатов

Коэффициенты корреляции не очень высокие: rАВ = 0,32, rАС = 0,36, rВС = – 0,06. Акции плохо коррелируют между собой, то есть между дивидендами по акциям существует слабая линейная зависимость.

Так как коэффициент ковариации для дивидендов по акциям В и С отрицательный, то прибыль по ним будет изменяться в разных направлениях (при увеличении дивидендов по акциям В дивиденды по акциям С будут уменьшаться). Правда, эти изменения не очень велики, около 10%.

Если рынок ценных бумаг устойчивый, то желательно исключить акции вида С из портфеля, так как соv(С, С)=5,07 наибольшая, а значит риск в их вложение высокий.

Акции А и В коррелируют слабо соv(А, В) = 0,28, поэтому есть основания считать, что вложение капитала в равных долях в эти акции будет наименее рискованным. Для более правильного вывода надо вычислить дисперсии для каждого портфеля и сравнить их.

Напоминаем, что

D(с Х) = с2 соv(Х, Х),

D(Х ± Y) = D(Х) + D(Y) ± 2 cov(X, Y).

Дисперсии для первого портфеля: D(10 A) = 100 соv(А, А) = 158,8.

Для второго: Z = 5 A + 5 B, D(Z) = 66,3.

Третий портфель имеет дисперсию: D(F) = D(5 A + 3 B +2 C) = 25 соv(А, А) + 9 соv(В, В) +4 соv(С, С) + 30 соv(А, В) + 20 соv(А, С) + 12 соv(В, С) = 92,5.

Вывод: наименьший риск получается при покупке акций А и В в равных долях.

Чтобы принять окончательное решение надо построить множество Парето, характеризующее зависимость доходности портфеля от его риска, т.е. математического ожидания и дисперсии.

Напоминаем, что

M(с Х) = с M(Х),

M(Х ± Y) = M(Х) ± M(Y).

Математическое ожидание прибыли акции равно среднему арифметическому прибыли. Математическое ожидание прибыли портфеля 1 вычисляем как сумму произведений В14:D14; $B$17:$D$17. Тиражируем формулу для Портфелей 2 и 3.

По дисперсии и математическому ожиданию построить точечную диаграмму. Здесь пересечение осей сдвинуто из начала координат.

Таким образом, оптимальным действительно является Портфель 2.

 

Последнее изменение этой страницы: 2016-06-10

lectmania.ru. Все права принадлежат авторам данных материалов. В случае нарушения авторского права напишите нам сюда...