Главная Случайная страница


Категории:

ДомЗдоровьеЗоологияИнформатикаИскусствоИскусствоКомпьютерыКулинарияМаркетингМатематикаМедицинаМенеджментОбразованиеПедагогикаПитомцыПрограммированиеПроизводствоПромышленностьПсихологияРазноеРелигияСоциологияСпортСтатистикаТранспортФизикаФилософияФинансыХимияХоббиЭкологияЭкономикаЭлектроника






К задачам корреляционного анализа относятся следующие.

1. Измерение степени связности (тесноты, силы) двух и более явлений. Здесь речь идет в основном о подтверждении уже известных связей.

2. Отбор факторов, оказывающих наиболее существенное вли­яние на результативный признак, на основании измерения тесно­ты связи между явлениями.

3. Обнаружение неизвестных причинных связей. Корреляция непосредственно не выявляет причинных связей между явлениями, но устанавливает степень необходимости этих связей и достовер­ность суждений об их наличии. Причинный характер связей выясняется с помощью логически-профессиональных рассуждений, рас­крывающих механизм связей.

Перечислим задачи регрессионного анализа.

1. Установление формы зависимости (линейная или нелиней­ная; положительная или отрицательная и т. д.).

2. Определение функции регрессии и установление влияния факторов на зависимую переменную. Важно не только определить форму регрессии, указать общую тенденцию изменения зависимой переменной, но и выяснить, каково было бы действие на зависимую переменную главных факторов, если бы прочие не изменялись и если бы были исключены случайные элементы. Для этого определяют функцию регрессии в виде математического уравнения то­го или иного типа.

3. Оценка неизвестных значений зависимой переменной, т. е. решение задач экстраполяции и интерполяции. В ходе экстраполя­ции распространяются тенденции, установленные в прошлом, на будущий период. Экстраполяция широко используется в прогнози­ровании. В ходе интерполяции определяют недостающие значения, соответствующие моментам времени между известными момента­ми, т. е. определяют значения зависимой переменной внутри ин­тервала заданных значений факторов.

Рассмотрим подробнее регрессию.

Выборочные уравнения регрессии

Условное математическое ожидание случайной величины У: М( Y/X) есть функция от X, которая называется функцией регрессии и равна f(x), т.е. ; (4.2)

аналогично ; (4.3)

Графическое изображение f(x) или называется линией рег­рессии, а записанные уравнения (4.2) и (4.3) – уравнениями рег­рессии.

Поскольку условное математическое ожидание М случайной величины Y есть функция от (х), то его оценка , т. е. условная средняя, также является функцией от X. Обозначим эту функцию через

. (4.4)

Уравнение (4.4) определяет выборочное уравнение регрессии у на х. Сама функция называется выборочной регрессией У на X, а график – выборочной регрессией. Аналогично определя­ется для случайных величин X:

. (4.5)

Функция регрессии необратима, так как речь идет о средних величинах для некоторого конкретного значения фактора.

Функция регрессии формально устанавливает соответствие между переменными X и Y, хотя такой зависимости может и не быть в экономике (ложная регрессия).

Линейная регрессия

Пусть задана система случайных величин X н У и случайные ве­личины X и Y зависимы.

Представим одну из случайных величин как линейную функ­цию другой случайной величины X.

, (4.6)

где α, β – параметры, которые подлежат определению.

В общем случае эти параметры могут быть определены различ­ными способами, наиболее часто используется метод наименьших квадратов (МНК).

Функцию g(x) называют наилучшим приближением в смысле МНК, если математическое ожидание принимает на­именьшее возможное значение.

В этом случае функцию g(x) называют средней квадратической регрессией Y на X. Можно доказать, что линейная средняя квадратическая регрессия имеет вид:

, (4.7)

где тх, ту — математические ожидания случайных величин X, Y соответственно; σxy – средние квадратические отклонения случайных величин X, Y cсоответственно; r– коэффициент парной корреляции, который определяется по формуле:

, (4,8)

где Mxyковариация.

, (4.9)

тогда – коэффициент регрессии. Возникает проблема определения параметров α и β на основе выборки.

Рассмотрим определение параметров выбранного уравнения прямой линии средней квадратическои регрессии по несгруппированным данным. Пусть изучается система количественных призна­ков (X, Y), т. е. ведутся наблюдения за двухмерной случайной вели­чиной (X, У). Пусть в результате п наблюдений получено п пар чи­сел 1, у1), 2, у2), ..., n, уn).

Требуется по полученным данным найти выборочное уравне­ние прямой линии средней квадратическои регрессии:

.

Поскольку данные несгруппированные, т. е. каждая пара чисел встречается один раз, то можно перейти от условной средней к пе­ременной у. Угловой коэффициент k обозначим через и назовем его выборочной оценкой коэффициента регрессии .

Итак, требуется найти:

. (4.10)

Очевидно, параметры иb нужно подобрать так, чтобы точки 1, у1), 2, у2), ..., n, уn),построенные по исходным данным, ле­жали как можно ближе к прямой (4.10) (рис. 4.1).

Рис. 4.1. Динамика изменения признака Y

Уточним смысл этого требования. Для этого введем следующее понятие. Назовем отклонением разность вида:

,

где Yiвычисляется по уравнению (4.10) и соответствует наблюдаемому значению хi; уiнаблюдаемая ордината, соответствующая хi.

Подберем параметры р и b так, чтобы сумма квадратов указан­ных отклонений была наименьшей:

В этом состоит требование метода наименьших квадратов (МНК).

Эта сумма есть функция F отыскиваемых параметров р и b:

.

Для отыскания min найдем произвольные и приравняем их к нулю:

Далее запишем систему:

 

Для простоты вместо , , , будем писать , , , (индекс i опускаем), тогда:

Получили систему двух линейных уравнений относительно р и b. Решая эту систему, получим:

; (4.11)

. (4.12)

Метод наименьших квадратов применяется и для нахождения параметров множественной регрессии. В этом случае число линей­ных уравнений возрастает, и такие системы уравнений решаются с помощью ЭВМ.

 

Основные понятия корреляционно-регрессионного анализа

1. Среднее значение переменной определяется по следующей формуле:

, (4.13)

uде xiэмпирическое значение переменной x;

n – число наблюдений.

2. Дисперсия

, (4.14)

3. Ковариация

. (4.15)

4. Коэффициент корреляции

. (4.16)

Коэффициент корреляции характеризует тесноту или силу свя­зи между переменными у и х. Значения, принимаемые rxy, заключены в пределах от — 1 до + 1. При положительном значении rху имеет место положительная корреляция, т. е. с увеличением (уменьшением) значений одной переменной (х) значение другой (у) соответственно увеличивается (уменьшается). При отрицательном значении rxv имеет место отрицательная корреляция, т. е. с увеличением (уменьшением) значений х значения у соответствен­но уменьшаются (увеличиваются). При изучении экономического явления, зависящего от многих факторов, строится множествен­ная регрессионная зависимость. В этом случае для характеристи­ки тесноты связи используется коэффициент множественной корреляции:

. (4.17)

где – остаточная дисперсия зависимой переменной;

– общая дисперсия зависимой переменной.

5. Общая дисперсия определяется по формуле:

. (4.18)

Величина характеризует разброс наблюдений фактических значений .

6. Остаточная дисперсия определяется по следующей формуле:

, (4.19)

где – теоретические значения переменной у, полученные по уравне­нию регрессии (4.1) при подстановке в него наблюдаемых факти­ческих значений xi.

Остаточная дисперсия характеризует ту часть рассеяния пере­менной у, которая возникает из-за всякого рода случайностей и влияния неучтенных факторов.

7. Коэффициент детерминации служит для оценки точности регрессии, т. е. соответствия полученного уравнения регрессии имеющимся эмпирическим данным, и вычисляется по формуле

. (4.20)

Изменяется Д в пределах от 0 до 1, т.е. .

Модель считается тем точнее, чем ближе Д к 1, т.е. чем меньше .

Стандартная ошибка оценки равна .

 

Если Д = 0, это значит, что отношение =1, т.е. , и, следовательно, . В этом случае прямая регрессии будет параллельна оси X, корреляционно-регрессионная связь между X и Y отсутствует. Если Д = 1, это значит, что отношение = 0, т.е. , и, следовательно, , т.е все наблюдаемые точки лежат на построенной прямой, следовательно, зависимость функциональная.

8. Корреляционное отношение используется для оценки тесно­ты связи между двумя явлениями, в частности для определения тесноты связи исходного ряда щ с теоретическим рядом yh. Корре­ляционное отношение определяют по данным, сгруппированным по объясняющей переменной по следующей формуле:

. (4.21)

 

4.2. Исходные предпосылки регрессионного анализа
и свойства оценок

Применение метода наименьших квадратов для определения параметров регрессии предполагает выполнение некоторых пред­посылок(Ферстер Э., Ренц Б.Методы корреляционного и регрессионного ана­лиза. – М.: Финансы и статистика, 1983).

Отметим наиболее существенные из них.

Предпосылка 1.При нахождении оценок переменной у предпо­лагается существование зависимости переменной у только от тех объясняющих переменных, которые вошли в модель (регрессию). Влияние прочих факторов и случайностей учитывается случайной возмущающей переменной z При этом полагаем, что для фиксиро­ванных значений переменных среднее значение пере­менной z равно нулю.

Предпосылка 2.Предполагается, что влияние неучтенных фак­торов постоянно. Так, при рассмотрении временных рядов в раз­личные периоды эти неучтенные факторы оказывают одинаковое влияние.

Предпосылка 3.Отсутствует автокорреляция между возмущаю­щими переменными z.

Предпосылка 4.Число наблюдений должно превышать число параметров регрессии, иначе невозможна оценка этих параметров.

Предпосылка 5.Предполагается односторонняя зависимость пе­ременной у от факторов , отсутствие взаимосвязи.

Предпосылка 6.Зависимая переменная у и факторы распределены нормально.

С помощью регрессионного анализа при указанных выше пред­посылках находят оценки параметров, наиболее хорошо согласую­щиеся с опытными данными. Данные оценки должны обладать оп­ределенными свойствами. Рассмотрим некоторые из этих свойств (без доказательства).

1.Несмещенность оценок параметров регрессии. Оценка параме­тров регрессии называется несмещенной, если для любого фикси­рованного числа наблюдений выполняется равенство математичес­кого ожидания параметра и значения параметра регрессии. Надо отметить, что оценки, полученные методом наименьших квадра­тов, обладают свойством несмещенности.

2. Состоятельность оценок параметроврегрессии. Данное свой­ство состоит в том, что с ростом объема выборки оценка парамет­ра регрессии b сходится к теоретическому значению параметра β(вычисленного по всей генеральной совокупности), т. е. ошибка оценки стремится к нулю:

. (4.22)

3. Эффективность оценок параметров регрессии. Несмещенная оценка параметра регрессии называется несмещенной эффективной, если она среди всех прочих несмещенных оценок этого же па­раметра обладает наименьшей дисперсией.

4. Достаточность оценки. Если β представляет собой достаточ­ную оценку параметра b, то не существует другой оценки этого параметра, которую можно получить по выборке из некоторой гене­ральной совокупности и которая дала бы дополнительную информацию о нем. Р. Фишер показал, что количество измеримой ин­формации, содержащейся в некоторой оценке, равно обратной величине от ее дисперсии. Таким образом, понятие достаточности эквивалентно требованию минимальной дисперсии. Достаточная оценка с необходимостью должна быть эффективной и, следова­тельно, также состоятельной и несмещенной.

 

4.3. Этапы построения многофакторной корреляционной
регрессионной модели

Разработка модели и исследование экономических процессов должны выполняться по следующим этапам.

1. Априорное исследование экономической проблемы.

2. Формирование перечня факторов и их логический анализ.

3. Сбор исходных данных и их первичная обработка.

4. Спецификация функции регрессии.

5. Оценка функции регрессии.

6. Отбор главных факторов.

7. Проверка адекватности модели.

8. Экономическая интерпретация.

9. Прогнозирование неизвестных значений зависимой пере­
менной.

Рассмотрим подробнее содержание этапов.

1.Априорное исследование экономической проблемы.

В соответствии с целью работы на основе знаний макро- и ми­кроэкономики конкретизируются явления, процессы, зависимость между которыми подлежит оценке. При этом подразумевается прежде всего четкое определение экономических явлений, уста­новление объектов и периода исследования.

На этом этапе исследования должны быть сформулированы экономически осмысленные и приемлемые гипотезы о зависимос­ти экономических явлений.

2. Формирование перечня факторов и их логический анализ.

Для определения наиболее разумного числа переменных в рег­рессионной модели прежде всего ориентируются на соображения профессионально-теоретического характера. Исходя из физическо­го смысла явления, производят классификацию переменных на за­висимую и объясняющую.

3. Сбор исходных данных и их первичная обработка.

При построении модели исходная информация может быть со­брана в трех видах:

Ø динамические (временные) ряды;

Ø пространственная информация — информация о работе нескольких объектов в одном разрезе времени;

Ø сменная - табличная форма. Информация о работе нескольких объектов за разные периоды.

Объем выборки зависит от числа факторов, включаемых в мо­дель с учетом свободного члена. Для получения статистически зна­чимой модели требуется на один фактор объем выборки, равный наблюдений. Например, если в модель включаются три фактора, то минимальный объем выборки

,

где т – число факторов, включаемых в модель; п – число свободных членов в уравнении.

Если в квартальном разрезе собирать данные, то надо их соби­рать за 5 лет [20/4].

4. Спецификация функции регрессии.

На данном этапе исследования дается конкретная формулиров­ка гипотезы о форме связи (линейная или нелинейная, простая или множественная и т. д.). Для этого используются различные критерии для проверки состоятельности гипотетического вида за­висимости. На этом этапе проверяются предпосылки корреляцион­но-регрессионного анализа.

5. Оценка функции регрессии.

Здесь определяются числовые значения параметров регрессии и вычисление ряда показателей, характеризующих точность регрес­сионного анализа.

6. Отбор главных факторов.

Выбор факторов – основа для построения многофакторной кор­реляционно-регрессионной модели.

На этапе «Формирование перечня факторов и их логический анализ» собираются все возможные факторы, обычно более 20–30 факторов. Но это неудобно для анализа, и модель, включающая 20–30 факторов, будет неустойчива. Неустойчивость модели нахо­дит выражение в том, что в ней изменение некоторых факторов ве­дет к увеличению у вместо снижения у.

Мало факторов – тоже плохо. Это может привести к ошибкам при принятии решений в ходе анализа модели. Поэтому необходи­мо выбирать более рациональный перечень факторов. При этом проводят анализ факторов на мультиколлинеарность.

Последнее изменение этой страницы: 2017-07-22

lectmania.ru. Все права принадлежат авторам данных материалов. В случае нарушения авторского права напишите нам сюда...