Главная Случайная страница


Категории:

ДомЗдоровьеЗоологияИнформатикаИскусствоИскусствоКомпьютерыКулинарияМаркетингМатематикаМедицинаМенеджментОбразованиеПедагогикаПитомцыПрограммированиеПроизводствоПромышленностьПсихологияРазноеРелигияСоциологияСпортСтатистикаТранспортФизикаФилософияФинансыХимияХоббиЭкологияЭкономикаЭлектроника






Вводные замечания к теории оценивания

Вводные замечания

Знак суммы входит во многие статистические формулы. Поэтому нужно уметь с ним обращаться. Пусть известны доходы у 100 человек, причем X1 - доход 1-го человека, X17 - доход 17-го человека и Xi - доход i-го человека. В нашем случае индекс i может принимать любые значения от 1 до 100. Тогда общий доход всех 100 человек равен:

X = Х1 + Х2 + ... + X100.

Это же выражение можно представить существенно короче, если применить так называемый оператор суммирования. В качестве символа суммы воспользуемся буквой X:

Следовательно, общий доход равен сумме всех Xi, где i меняется от 1 до 100.

Вообще имеет место представление

 

Эта сумма, кроме того, допускает разбивку и может за­писываться в виде

Следовательно,

 

Правила вычисления

При вычислениях со знаком суммы справедливы следующие правила:

1. Суммирование константы "а":

2. Умножение на константу:

 

3. Прибавление константы:

4. Прибавление константы и умножение на константу:

5. Добавление второй суммируемой переменной:

 

6. Произведение двух переменных суммирования:

Стандартное отклонение и дисперсия

4.1.1. Описание

Важнейшей мерой рассеяния является дисперсия. При ее вычислении определяются отклонения значений призна­ка или, соответственно, середин классов от арифметического среднего и возводятся в квадрат. Последнее действие обусловлено двумя причинами:

• желанием исключить влияние знака;

• необходимостью сделать чрезмерно большие отклонения еще заметнее.

Итак, дисперсия определяется следующим образом.

I) Для негруппированных значений признака:

2) Для группированных значений признака:

Выражение характеризуется как сумма квадратов отклонений. Квадратный корень в дисперсии вытекает так называемое стандартное отклонение:

 

В то время как в теоретической статистике находит применение главным образом дисперсия как мера рассеяния, в практической статистике используется преимущественно стандартное отклонение.

Относительные числа и общие индексы

Относительные числа

Относительные числа получаются как частное от деления двух характеристических величин, каждая из которых по-своему описывает определенное положение вещей. Обычно относительные числа делятся на долевые показатели (доли), мерные числа и показатели связи (показатели насыщения).
5.1.1. Долевые показатели,

При вычислении долей числитель дроби является составной частью знаменателя. Так, типичные долевые пока­затели представляют собой относительные частоты поскольку здесь имеет место равенство Долевые показатели часто умножают на 100, чтобы получить процентную долю. Примером этого может служить отношение:

Число рождений мальчиков/Общее число рождений*100.

Долевой показатель, умноженный на 100, показывает, какой процент от общего числа рождений составляет число рождений мальчиков.

5.1.2. Мерные числа

Если соотнести две части какой-либо величины, то получится так называемое мерное число. Например, пусть из N единиц первой категории соответствует М единиц, а второй - (N - М). Тогда мерное число умноженное на 100, показывает, сколько случаев второй категории приходится на 100 случаев первой.

5.1.3. Показатели связи

Эти показатели применяются в тех случаях, когда соотносятся величины, выражающие число элементов (или, равным образом, суммарное значение признака совокупности) у двух существенно различных статистических сово­купностей, т.е. числитель и знаменатель принадлежат к разным генеральным совокупностям. Таким показателем связи (насыщения) является, например, соотношение:

Число выданных разрешений на радиоаппаратуру/ Число хозяйств*100.

Умноженный на 100 показатель связи характеризует радиоплотность для некоторой провинции в процентном выражении. Так как здесь мы соотносим совершенно различные массивы статистических данных, возможности построения подобных отношений почти не ограничены. Одна­ко именно из-за больших возможностей необходимо состав­лять только тщательно продуманные и проблемно увязанные соотношения.

Регрессионный анализ

Основные положения

Предположим, что наблюдаемыми оказались п пар значений: (X1Y1), (X2Y2)...., (XnYn). Нанесем длябольшей наглядности эти числовые пары на плоскость Y. Через это беспорядочное множество разбросанных точек мы можем провести прямую, согласующуюся с ними наилучшим образом. Такую прямую называют регрессионной. Она показывает, какое значение Y можно ожидать для заранее заданного значения X. Здесь имеет место простая линейная регрессия, которая ограничивается двумя переменными X и Y. Если же в рассмотрение включается более чем два признака, то речь о множественной регрессии. Наконец, нужно разли­ть еще линейную и нелинейную регрессию. Ограничимся рассмотрением простой линейной регрессии.

Регрессионная прямая

Зависимость переменной Y от X может выражаться формально следующим образом:

V = а1 + Ь1Х.

В том случае, когда Y является зависимой, а X - независимой переменной, говорят о регрессии У по X. Если же X представляет собой зависимую переменную, а У независимую, то речь идет о регрессии X по Y:

X = а2 + b2V.

Величины b1 и Ь2 называются коэффициентами регрессии.

Корреляция

6.3.1. Основные положения

В регрессионном анализе рассматривается зависимость одной переменной от какой-либо другой; так, выше, переменная Y была функцией переменной X или наоборот: V = f(X) или X = q(V).

При корреляционном анализе мы изучаем только тесноту (величину, силу) связи между двумя случайными переменными, не принимая одну из них за зависимую, а дру­гую за независимую. Например, требуется выяснить, в какой мере смертельный исход при автомобильной катастрофе связан с отсутствием ремней безопасности. Насколько сильна корреляция между этими событиями? При корреляционном анализе нужно следить за тем, чтобы подобная взаимосвязь была и не устанавливались так называемые вздорные корреляции.

6.3.2. Коэффициент корреляции Бравайса-Пирсона

Коэффициент корреляции Бравайса-Пирсона является мерой тесноты связи между случайными переменными. Исходным моментом при его построении служит ковариация:

 

COV(XiY) = SXY =

Эта ковариация показывает: можно ли считать, что случайные переменные X и Y меняются согласованно. В экстремальном случае, когда ковариация равна нулю, переменные не имеют друг с другом связи.

С учетом ковариации коэффициент корреляции Бравайса-Пирсона определяют как отношение:

 

 

Значение полученного по этой формуле коэффициента корреляции находится в пределах:

.

6.3.3. Мера обусловленности

Квадрат коэффициента корреляции Бравайса-Пирсона задает так называемую меру обусловленности:

,

которая может принимать значения в области:

0 г2 1.

Разлагая на сомножители выражение для меры обусловленности, получаем:

Следовательно, мера обусловленности равна произведению коэффициентов регрессии. Последние, в конечном счете, задают лишь углы наклона регрессионных прямых. При нулевом угле наклона r2 > О, т.е. с возрастанием X увеличивается также и У, и наоборот.

В случае же r2 = 0 корреляция отсутствует.

Если, например, r = 0,9 и соответственно r2 =0,81, то это означает, что 81% значений Xi, Yi коррелируют в одном и том же направлении.

6.3.4. Разложение дисперсии и мера обусловленности

Дисперсию удается разложить на рассеяние, объясненное регрессией (обусловленное усреднением по регрессии), и на рассеяние, ею не объясненное. Мы можем записать, что:

Общая дисперсия == Необъясненная дисперсия + Объясненная дисперсия.

Применительно к мере обусловленности это разложение дисперсии дает равенство:

Объясненная дисперсия/Общая дисперсия

илисоответственно:

Необъясненная дисперсия/Общая дисперсия

6.3.5. Коэффициент ранговой корреляции Спирмена-Пирсона

6.3.5.1. Основные положения

Этот коэффициент корреляции вычисляется по ранговым номерам значений. Его применение особенно рекомен­дуется в тех случаях, когда значения признаков задаются только порядковыми номерами (например, при качественных признаках).

Величины X и Y по мере их возрастания снабжаются ранговыми номерами и .Затем вычисляются разности ранговых номеров (Di) и возводятся в квадрат. Окончательная формула для коэффициента ранговой корреляции Спирмена-Пирсона имеет вид:

Его область значений

.

7. Анализ временных рядов

7.1. Введение

Временные ряды возникают, когда налицо ряд наблюдаемых значений, каждому из которых можно поставить в соответствие определенный момент времени. Временной ряд помогает установить типичное в развитии.

7.2. Компоненты временного ряда

Временной ряд подвержен влияниям эволюционного и осциллятивного характера, а также разовым воздействиям.

1. Влияния эволюционного характера. Под ними подразумевается тренд в развитии - долгопроявляющееся основное изменение.

2. Влияния осциллятивного характера. Сюда попадают конъюнктурные и сезонные колебания.

3. Разовые воздействия. К ним относятся спорадически наступающие изменения, вызванные, например, войной или экологической катастрофой.

Следовательно, временной ряд составляется из различных компонентов. Другими словами, его первоначальные значения подвергаются самым разнообразным воздействиям.

Можно назвать четыре основные компоненты временного ряда:

• трендовую (T);

• циклическую или конъюнктурную (К);

• сезонную (S);

• разовое воздействие (Е).

7.3. Модель временного ряда

Разбивка временного ряда на различные компоненты позволяет представить его в следующем виде:

V = f(T, К, S, E).

В зависимости от того, как связаны эти компоненты между собой, говорят об аддитивной или мультипликативной модели временного ряда.

1. Аддитивная модель временного ряда:

V = Т + К + S + E.

Аддитивная модель временного ряда характеризуется иным образом тем, что характер, циклических и сезонных флуктуаций остается постоянным.

2. Мультипликативная модель временного ряда:

V=T*K*S*E.

В этой модели характер циклических и сезонных флуктуаций остается постоянным только по отношению к тренду.

7.4. Определение трендовой компоненты

Тренд - это долговременная составляющая временного ряда.Здесь речь должна идти об основной тенденции его пития. При этом остальные компоненты рассматриваются только как мешающие процедуре его определения. И коль скоро у нас имеется ряд наблюдаемых значений для различных моментов времени, наша задача состоит в том, чтобы найти подходящую трендовую кривую, сглаживающую остальные колебания.

7.4.1. Метод "на глазок”

Метод на глазок - это простейший способ отыскания линии тренда для заданного множества точек временного ряда. Он заключается в том, чтобы через предварительно заданные передавала бы характер тренда.

7.4.2. Метод скользящих усреднений

Суть метода в том, чтобы путем построения средних значений смягчить колебания и сохранить тренд. Временной ряд делят на участки, содержащие, например, по три соседние точки для каждого момента времени, и отыскивают средние значения в каждый из этих моментов.

7.4.3. Метод усреднений по левой и правой половине
Разделяют временной ряд на две части, строят для каждой из них среднее арифметическое и проводят через полученные точки линию тренда.

7.4.4. Метод наименьших квадратов

Метод наименьших квадратов уже известен нам из регрессионного анализа. Линию тренда V подгоняют к наблюдаемым значениям таким образом, чтобы сумма квадратов отклонений была минимальной. Если считать тренд линейным, то в качестве модели для V полагают:

Vt =a + bt,

8. Теория оценивания

8.1. Выборка из генеральной совокупности

При извлечении элементов из некоторого основного множества (генеральной совокупности) с общим числом элементов мы говорим о выборке. С помощью последней обычно стремятся сделать какой-либо вывод о данной генеральной совокупности. Однако такой вывод возможен только в тех случаях, когда выборка представляет собой результат случайного выбора. Отсюда вытекают два существенных требования:

1) выборка должна выполняться так, чтобы каждый элемент генеральной совокупности имел определенную, принципиально заданную вероятность попасть в нее;

2) все эксперименты, посредством которых получают выборку, должны быть взаимно независимыми. При выборе элемента с его последующим возвращением второе требование всегда выполняется, так как здесь исходное состояние перед новым извлечением восстанавливается. При выборе без возвращения требуемая независимостьимеет место лишь в случае "бесконечной" генеральной совокупности. На практике приходится принимать компромиссное решение, т.е. считать эксперименты независимыми, если генеральная совокупность по сравнению с выборкой очень велика.

Как и для генеральной совокупности, для выборки могут быть построены числовые характеристики, которые позволяют сделать вывод о характеристических числах генеральной совокупности. Такой ход вывода от числовых характеристик выборки к числовым характеристикам гене­ральной совокупности называется оцениванием. Долевое соотношение в генеральной совокупности Р = , , ее среднее значение и дисперсия 2 должны, таким образом, оцениваться по значениям Р, и S2 выборки. Подобное оценивание может выполняться двумя способами:

1) Оценка дается для некоторой определенной точки (точечное оценивание), например:

X .

 

2) По данным выборки оценивается интервал, в котором лежит истинное значение (значение генеральной совокупности) с заданной вероятностью (интервальное оценивание).

Последнее изменение этой страницы: 2017-07-07

lectmania.ru. Все права принадлежат авторам данных материалов. В случае нарушения авторского права напишите нам сюда...