Категории:

Дом Здоровье Зоология Информатика Искусство Искусство Компьютеры Кулинария Маркетинг Математика Медицина Менеджмент Образование Педагогика Питомцы Программирование Производство Промышленность Психология Разное Религия Социология Спорт Статистика Транспорт Физика Философия Финансы Химия Хобби Экология Экономика Электроника

МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

Как правило, на изучаемый фактор Y оказывает влияние не один, а несколько факторов X_i. Например, спрос зависит не только от цены товара, но и от доходов потребителей, а также от цены на замещающие его товары и других факторов.

Пусть зависимая переменная Y в n наблюдениях определяется m объясняющими факторами Х = (Х₁, Х₂ …, Х_m), а функциональная зависимость между ними имеет вид линейной модели:

Y = b₀+ b₁X₁+ b₂X₂+…..+ b_mX_m+ e (1.18)

или для индивидуальных наблюдений i, где i = 1, 2, …, n

у_i = b₀+ b₁xi₁+ b₂x_i₂+……+ b_mx_im+ e_i. (1.19)

Уравнение регрессии для индивидуальных наблюдений:

ŷ_i = b₀ + b₁x_i₁ + b₂x_i₂ + … +b_mx_im. (1.20)

Введем обозначения:

b = (b_j), j = 0, …, m – вектор неизвестных параметров,

B = (b_j) – вектор оценочных параметров,

Y = (y_i) – i = 1, …, n – вектор значений зависимой переменной,

X = (x_ij) – матрица значений независимых переменных, где x_ij – значение переменной Х_j в i-том наблюдении,

e = (ei) – случайные возмущения,

E = (e_i = у_i – ŷ_i) – случайный вектор отклонений теоретических значений ŷ_i от фактических у_i.

Тогда уравнение (1.18) можно записать в матричном виде:

Y = X×b + e, (1.21)

а так же уравнение (1.20):

Ŷ = XB. (1.22)

Чтобы найти коэффициенты линейной регрессии (1.20), надо решить уравнение (1.22) относительно матрицы В. Для этого умножают обе части матричного уравнения (1.22) на транспонированную матрицу Х^Т и из полученного уравнения:

X^T×Y = X^T×X находят: B = (X^T×X)^–1×XT×Y. (1.23)

Полученное решение справедливо для уравнений регрессии с произвольным количеством объясняющих факторов (m), где (X^T×X)^–1 – обратная матрица к матрице X^T×X.

Решение (1.23) уравнения регрессии (1.22) можно найти:

1. С использованием методов матричной алгебры;

2. С помощью встроенных функций Excel для работы с массивами: МОБР(), ТРАНСП(), МУМНОЖ();

3. Применить инструмент Пакета анализа Регрессия.

Первый способ изучается в курсе Линейной алгебры и для его реализации необходимо записать все матрицы, характеризующие уравнение (1.23).

Для реализации второго способа коэффициенты этих матриц надо занести на лист Excel, а затем применить правила работы с массивами данных.

Необходимо помнить, что матрицы для этих методов имеют вид:

. (1.24)

Матрица Х в первом столбце содержит единицы, которые являются коэффициентом при неизвестном b₀ линейной регрессии (1.20).

Наиболее простым является последний способ поиска коэффициентов регрессии. Рассмотрим его применение на примере.

Пример 1.4. Анализируется объем сбережений Y населения за 10 лет. Предполагается, что его размер y_i в текущем году зависит от величины х_i_–1 располагаемого дохода Х в предыдущем году и от величины c_i реальной процентной ставки C в рассматриваемом году. Статистические данные приведены в таблице:

Год
Х (тыс. руб.)
C, %
Y (тыс. руб.)

Задание:

1) найдите коэффициенты линейной регрессии Y = b₀ + b₁Х + b₂C;

2) оцените статистическую значимость найденных коэффициентов регрессии b₀, b₁, b₂;

3) оцените силу влияния факторов на объем сбережений населения;

4) постройте 95%-е доверительные интервалы для найденных коэффициентов;

5) вычислите коэффициент детерминации R² и оцените его статистическую значимость при a = 0,05;

6) рассчитайте коэффициенты частной корреляции;

7) определите, какой процент разброса зависимой переменной объясняется данной регрессией;

8) найдите скорректированным коэффициент детерминации R²и сравните его с коэффициент детерминации R².

9) оцените предельную склонность граждан к сбережению. Существенно ли отличается она от 0,5?

10) определите, увеличивается или уменьшается объем сбережений с ростом процентной ставки; будет ли ответ статистически обоснованным;

11) спрогнозируйте средний объем сбережений в 2011 году, если предполагаемый доход составит 270 тыс. руб., а процентная ставка будет равна 5,5%.

12) сделайте выводы по качеству построенной модели;

Все расчеты выполним с помощью ППП Excel.

Инструкции для выполнения

1. Наберите исходные данные на лист Excel, как и раньше по столбцам.

2. Запустите инструмент Регрессия в пакете Анализа данных.

3. Входной интервал Y: введите ссылки на значения переменной в столбце Y, включая метки диапазона.

4. Входной интервал Х: введите ссылки на значения переменной в столбцах Х и С, включая метки диапазона.

5. Включите опцию Метки.

6. Включите опцию Уровень надежности и введите в поле значение 99.

7. Установите параметр вывода результатов на текущий лист.

8. Включите опцию вывод остатков для получения теоретических значений у.

9. Включите график остатков.

10. Появятся итоговые результаты, в том числе случайных отклонений e_i и их графики, которые Excel строит для каждой независимой переменной.

КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ

Коэффициент детерминации находится по формуле (1.11):

R² = 1 – 24,2406/1087,636 = 0,9777.

Он характеризует долю разброса значений зависимой переменной Y, объясненной уравнением регрессии. В нашем примере, 98% разброса переменной Y объясняется построенным уравнением регрессии.

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Увеличение числа переменных в уравнении множественной регрессии повышает точность описания взаимосвязи, однако при этом должно выполняться условие, что Х_i – объясняющие переменные, линейно независимые величины.

Под мультиколлинеарностью понимают взаимосвязь объясняющих переменных регрессии. Если между переменными X_n и X_m существует функциональная за-висимость (X_n = a×X_m), то говорят о строгой мультиколлинеарности. Чаще всего между переменными существует довольно сильная корреляционная зависимость – в этом случае мультиколлинеарность называют нестрогой.

При строгой мультиколлинеарности решение матричного уравнения 1.22 становится невозможным, так как матрица X^TX вырожденная – ее определитель равен нулю.

Если же мультиколлинеарность нестрогая, то решение матричного уравнения формально можно найти, однако все оценки мало надежны.

Чтобы обнаружить мультиколлинеарность надо найти определитель матрицы X^TX. Вместо этого проверяется определитель матрицы межфакторной корреляции, которую получают с помощью инструмента КОРРЕЛ.

Устранение мультиколлинеарности заключается в исключении одной из двух, находящихся во взаимосвязи переменных, либо путем пересмотра структуры уравнения регрессии. Для оценки влияния факторов на результирующий фактор Y в случае используются показатели частной корреляции (1.26). Если число переменных больше трех, то для их определения удобно пользоваться формулой:

где с_kp коэффициенты матрицы обратной к матрице парных коэффициентов корреляции.

НЕЛИНЕЙНАЯ РЕГРЕССИЯ

Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих функций:

Графики некоторых нелинейных уравнений регрессии:

a) квадратичная функция (полином любой степени);

b) равносторонняя гипербола;

c) степенная;

d) показательная и др.

Кроме указанных функций для описания связи двух переменных можно использовать и другие типы кривых: у = а + b×lnx; lnу = а + b×x + с×х² и т.д.

Различают два класса нелинейных уравнений:

1) регрессии, нелинейные относительно включенных объясняющих переменных, но линейные по оцениваемым параметрам;

2) регрессии, нелинейные по оцениваемым параметрам.

К первому классу – нелинейные по переменным – относятся кривые а и b. Нелинейными по параметрам (второй класс) являются зависимости c и d.

ЛИНЕЙНЫЕ ПО ПАРАМЕТРУ МОДЕЛИ

Такие модели легко приводятся к линейному виду – линеаризуются. Для линейных по параметру моделей вводят новую переменную (таблица 2.1) и переходят к построению линейной регрессии по преобразованным данным. Применяя инструмент Регрессия, к преобразованным данным можно найти все оценки параметров преобразованных моделей и оценить их качество.

Качество исходной модели можно оценить, используя индекс корреляции (1.26). Оценка статистической значимости индекса корреляции проводится с помощью F-статистики, так же как и коэффициента детерминации (1.29). Довольно часто в экономических исследованиях для оценки качества построенного уравнения используют среднюю ошибку аппроксимации, которая вычисляется по формуле:

(2.10)

и оценивает по модулю величину отклонений расчетных значений от фактических. Допустимый предел значений средней ошибки аппроксимации не более 8–10%.

В таблице приведены примеры использования перечисленных нелинейных моделей.

Полиномиальная модель(1) может отражать зависимость между объемом выпуска (у) и издержками производства (х); или расходами на рекламу (х) и прибылью (у) и т.д. В экономике наиболее часто используют многочлен второй степени реже – третьей степени. Ограничения в применении многочленов более высоких степеней связано с требованием однородности исследуемой совокупности: чем выше степень многочлена, тем больше изгибов имеет кривая и соответственно меньше однородность по результативному признаку. Надо помнить, что графики многочленов имеют промежутки монотонности и точки экстремумов, поэтому параметры применения этих моделей не всегда могут быть логически истолкованы. Поэтому, если такая зависимость четко не определена графически (параболическая), то ее лучше заменить другой нелинейной функцией.

Гиперболическая модель(2) – классическим примером этой модели является кривая Филлипса (b₁ > 0), характеризующая соотношение между уровнем безработицы (х) и процентом прироста заработной платы (у). При х → ¥ кривая характеризуется нижней асимптотой у = b₀. Соответственно можно определить уровень безработицы, при котором заработная плата стабильна и темп ее прироста равен нулю. При b₁ < 0 гиперболическая функция будет медленно расти для х → ¥ и имеет горизонтальную асимптоту у = b₀. Такие кривые называют кривыми Энгеля, который сформулировал закономерность: с ростом доходов (х) доля доходов, расходуемых на продовольствие (у) уменьшается.

Полулогарифмические модели(3) используются, когда необходимо определить темп роста или прироста экономических показателей. Например, при анализе банковского вклада по процентной ставке, при исследовании зависимости прироста объема выпуска продукции от процентного увеличения затрат на расходы, бюджетного дефицита от темпа роста ВВП, темп роста инфляции от объема денежной массы и т.д.

Таблица линеаризации некоторых моделей, линейных по параметру

№	Модель	Уравнение модели	Замена	Модель
	Полиномиальная	Y = b₀ + b₁х + b₂х² +…+ b_nх_n + e	х = Х1, х² = Х2, …, хⁿ = ХN	1.18
	Гиперболическая			1.1
	Полулогарифмические	Y = а +b lnx + e lnу = а + b x + e	Х = lnx; Y = lny	1.1

НЕЛИНЕЙНЫЕ ПО ПАРАМЕТРУ МОДЕЛИ

Уравнения нелинейные по параметру можно разделить на:

1) внутренне линейные– можно привести к линейному виду путем преобразований;

2) внутренне нелинейные, которые не могут быть сведены к линейной модели.

Степенная модель:

. (2.2)

Если прологарифмировать обе части уравнения (2.2), получится модель, легко приводящаяся к линейному виду:

lny = lnb₀ + b₁ lnx +lne, (2.3)

Надо сделать замену: Y = lny, X = lnx, A = lnb₀. Получим линейную модель (1.1).

Коэффициент модели b₁ определяет эластичностьпеременной Y по переменной X, то есть процентное изменение Y при изменении Х на 1%. Степенная модель имеет постоянную эластичность, это легко увидеть, если продифференцировать обе части уравнения (2.3):

. (2.4)

Так как b₁ константа, то модель (2.3) называют моделью постоянной эластичности.

В случае парной регрессии обоснование использования степенной модели достаточно просто. Надо построить корреляционное поле для точек (lnx, lny), и если их расположение соответствует прямой линии, то произведенная замена хорошая и можно использовать степенную модель.

Данная модель легко обобщается на большее число переменных. Наиболее известная – производственная функция Кобба-Дугласа: Y= b₀X^a L^a, где Y – объем выпуска; Х – затраты капитала; L – затраты труда.

Лог-линейные моделишироко используются в банковском и финансовом анализе: Y_t = Y₀ (1 + r)^t,

где Y₀ – первоначальный банковский вклад, r – процентная ставка, Y_t – размер вклада на момент t.

Прологарифмируем обе части этой модели

lnY_t = lnY₀ + t ln(1 + r). (2.5)

Введя замену lnY₀ = b₀, ln(1 + r) = b₁, получим полулогарифмическую модель:

lnY_t = b₀ + b₁ t. (2.6)

Коэффициент b₁ в уравнении (2.6) имеет смысл темпа приростапеременной Y_t по переменной t, то есть характеризует относительное изменение Y_t к абсолютному изменению t. Продифференцируем (2.6) по t, получим:

. (2.7)

Умножив b₁ на 100%, получим темп прироста Y_t. Надо сказать, что коэффициент b₁ = ln(1 + r) определяет мгновенный темп прироста, а характеризует темп прироста сложного процента.

Показательные моделииспользуются, когда анализируется изменение переменной Y с постоянным темпом прироста во времени t:

. (2.8)

Если провести логарифмирование, то получится уравнение аналогичное (2.5).

В общем виде показательная модель имеет вид:

, (2.9)

но в силу равенства сводится к уравнению (2.8).

КОЭФФИЦИЕНТ ЭЛАСТИЧНОСТИ

Рассматривая степенную модель, мы ввели понятие эластичности функции: предел отношения относительных приращений независимой переменной и зависимой называется эластичностьюфункции

(2.10)

показывает на сколько процентов изменится в среднем результат, если фактор х изменится на 1%.

Для других форм связи Э зависит от значения фактора х и не является величиной постоянной, поэтому рассчитывается средний коэффициент эластичности, который показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины, если фактор х изменится на 1% от своего среднего значения. Формула для расчета:

(2.11)

Несмотря на широкое использование в экономике коэффициентов эластичности, возможны случаи, когда они не имеют экономического смысла. Составьте таблицу коэффициентов эластичности для всех рассмотренных нелинейных моделей самостоятельно.

МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

Y = b₀+ b₁X₁+ b₂X₂+…..+ b_mX_m+ e (1.18)

или для индивидуальных наблюдений i, где i = 1, 2, …, n

у_i = b₀+ b₁xi₁+ b₂x_i₂+……+ b_mx_im+ e_i. (1.19)

Уравнение регрессии для индивидуальных наблюдений:

ŷ_i = b₀ + b₁x_i₁ + b₂x_i₂ + … +b_mx_im. (1.20)

Введем обозначения:

b = (b_j), j = 0, …, m – вектор неизвестных параметров,

B = (b_j) – вектор оценочных параметров,

Y = (y_i) – i = 1, …, n – вектор значений зависимой переменной,

X = (x_ij) – матрица значений независимых переменных, где x_ij – значение переменной Х_j в i-том наблюдении,

e = (ei) – случайные возмущения,

E = (e_i = у_i – ŷ_i) – случайный вектор отклонений теоретических значений ŷ_i от фактических у_i.

Тогда уравнение (1.18) можно записать в матричном виде:

Y = X×b + e, (1.21)

а так же уравнение (1.20):

Ŷ = XB. (1.22)

X^T×Y = X^T×X находят: B = (X^T×X)^–1×XT×Y. (1.23)

Решение (1.23) уравнения регрессии (1.22) можно найти:

1. С использованием методов матричной алгебры;

2. С помощью встроенных функций Excel для работы с массивами: МОБР(), ТРАНСП(), МУМНОЖ();

3. Применить инструмент Пакета анализа Регрессия.

Необходимо помнить, что матрицы для этих методов имеют вид:

. (1.24)

Год
Х (тыс. руб.)
C, %
Y (тыс. руб.)

Задание:

1) найдите коэффициенты линейной регрессии Y = b₀ + b₁Х + b₂C;

2) оцените статистическую значимость найденных коэффициентов регрессии b₀, b₁, b₂;

3) оцените силу влияния факторов на объем сбережений населения;

4) постройте 95%-е доверительные интервалы для найденных коэффициентов;

5) вычислите коэффициент детерминации R² и оцените его статистическую значимость при a = 0,05;

6) рассчитайте коэффициенты частной корреляции;

7) определите, какой процент разброса зависимой переменной объясняется данной регрессией;

8) найдите скорректированным коэффициент детерминации R²и сравните его с коэффициент детерминации R².

9) оцените предельную склонность граждан к сбережению. Существенно ли отличается она от 0,5?

12) сделайте выводы по качеству построенной модели;

Все расчеты выполним с помощью ППП Excel.

Инструкции для выполнения

1. Наберите исходные данные на лист Excel, как и раньше по столбцам.

2. Запустите инструмент Регрессия в пакете Анализа данных.

3. Входной интервал Y: введите ссылки на значения переменной в столбце Y, включая метки диапазона.

4. Входной интервал Х: введите ссылки на значения переменной в столбцах Х и С, включая метки диапазона.

5. Включите опцию Метки.

6. Включите опцию Уровень надежности и введите в поле значение 99.

7. Установите параметр вывода результатов на текущий лист.

8. Включите опцию вывод остатков для получения теоретических значений у.

9. Включите график остатков.

12 3 4

Последнее изменение этой страницы: 2016-06-10

lectmania.ru. Все права принадлежат авторам данных материалов. В случае нарушения авторского права напишите нам сюда...