Категории:

Дом Здоровье Зоология Информатика Искусство Искусство Компьютеры Кулинария Маркетинг Математика Медицина Менеджмент Образование Педагогика Питомцы Программирование Производство Промышленность Психология Разное Религия Социология Спорт Статистика Транспорт Физика Философия Финансы Химия Хобби Экология Экономика Электроника

Взвешенный метод наименьших квадратов и статистический анализ

Каждый опыт несет некоторую информацию об объекте. Опыты, различающиеся условиями проведения, несут информацию об эффектах факторов, а параллельные опыты позволяют оценить дисперсию воспроизводимости. С ростом числа параллельных опытов растет точность эксперимента и оцениваемые эффекты можно определить с большей надежностью. На практике встречаются различные случаи дублирования опытов. Может оказаться, что к моменту начала эксперимента воспроизводимость опытов известна по предыдущим исследованиям. Так бывает иногда в задачах анализа вещества, когда используется методика с заранее известной ошибкой воспроизводимости. Если предполагать, что в намечаемой серии опытов ошибка не изменится и нет опасности появления грубых наблюдений, то параллельные опыты можно не ставить. Если же мы не располагаем такой информацией по предыдущим исследованиям или считаем наше предположение слишком жестким, тогда приходится дублировать опыты. Сделать это можно по-разному: в одной точке, в нескольких точках и во всех. В качестве одной точки выбирается центр плана или некоторая строка матрицы. В других случаях бывает равное число параллельных (равномерное дублирование) или различное (неравномерное дублирование). Последнее часто имеет место потому,
что часть опытов может оказаться потерянной: не удался анализ, сломалась установка и т. д. Различные варианты дублирования опытов приводят к различным вариантам обработки данных.

Начнем с наиболее распространенного случая — равномерное дублирование. Если при записи матрицы X не делать различия между параллельными и различными опытами, то число строк в матрице будет равно Nn, где N — число различных опытов; п — чпсло параллельных опытов. Это приведет к некоторым изменениям в системе нормальных уравнений.

Пример 1. Пусть реализован эксперимент 2² с двумя параллельными опытами в каждой точке, который дал следующие результаты:

-f + + + + + +

0,8 1,3 1,7 2,6 0,6 1,5 1,7 .2,7.

В =

Y =

h Ъ.

Выпишем матрицу системы нормальных уравнений и найдем оценки коэффициентов

Г+1	+1	+1 +1	+1	+1	+1	+1"
—1	-i	+1 +1	—1	-1		+1
_L—1	+1	-1 +1	-1	+1	-1	+1.

X ^ГХ =

Вычислим значения 6-коэффициентов

В = (Х^ТХГ¹Х^Г¥ =	"1/8	0 "		"12,9"		"1,6125"
	1/8		4,5	=	0,5625
		1/8		3,3		.0,4125.

Таким образом, £=1,6125+0,5625^+0,4125*.

~+1	+1	+1 +1	+1	+1	+1
-1	-1	+1 +1	—1	-1	+1	+1
_—1	+1	—1 +1	-1	+1	—1	+1.

X^TY =

	—1	__ 1—
+1	—1
+1	+1	—1
+1 +1	+1	+1
+1 +1	+1	+1
L+i	+1	+1-
-0,8-
1,3
1,7 2,6 0,6 1,5	=	"12,9" 4,5 3,3
1,7
—2,7_

'8 0 0 0 8 0 0 0 8

В этом варианте расчета различные и параллельные опыты не дифференцировались. Можно поступить иначе, рассматривая матрицу X как матрицу различных опытов. Тогда для учета информации о параллельных опытах будем использовать так называемую матрицу весов. Она представляет собой квадратную диагональную матрицу Р размера NxN. Элементы главной диагонали равны числу повторных опытов соответствующих строк матрицы X. Нумерация строк матрицы X должна совпадать с нумерацией строк матрицы Р.

В нашем примере реализовано четыре различных опыта с двумя параллельными. Поэтому матрица X и матрица Р имеют вид

	-2 0 0 0""
р.	0 2 0 0
; i =	0 0 2 0
	0 0 0 2

■+1 —1 —1" +1 —1 +1 +1 +1 —1 +1 +1 +1

X =

Тогда система нормальных уравнений МНК имеет вид (Х^ГРХ)В= =X^rPY, где Y — вектор-столбец средних значений по соответствующему числу параллельных опытов. Это усреднение необходимо, чтобы привести в соответствие размеры матриц, входящих в систему нормальных уравнений. Коэффициенты регрессии определяются по формуле

В = (Х^ГРХ)^-1 Х^ГР Y =

+1 +1 +1 +1 —1 —1 +1 +1 1 +1 —1 +¹.

~2		0 0"
		0 0
		2 0
		0 2

+1 —1	—1"
4-1 —1	+1
4-1 +1	—1
+1 +1	+1

+1 +1 +1 +1- —1 —1 +1 +1 —1 +i —1 +1

/	" 2
	—2	—2
V	—2	-2
Г5	0 01	-1
0 8 0	>
0 0 8

2 2" 2 2 -2 2

"2 0	0"	-0,70"
0 2		1,40
0 0		1,70
0 0		2,65

-1

"0,70" 1,40 1,70 2,65

2 2" 2 2 -2 2 2" 2 2

" 2 —2- —2

2 -2 2

" 0,70 • 2 +1,40 • 2 +1,70 . 2 +2,65 ■ —0,70 • 2 —1,40 • 2 +1,70 • 2 +2,65 —0,70 • 2 +1,40 • 2 —1,70 • 2 4-2,65

_1_ г 4-1 —1 +1 4-1 4-1 _1 +1 +1+1

- (0,70 + 1,40 4- 1,70 + 2,65) • 2 - _ -

(-0,70- 1,40+ 1,70 + 2,65) • 2 8

(—0.70 + 1,40- 1,70 + 2,65) • 2

Как и следовало ожидать, результаты совпадают.

Хотелось бы обратить ваше внимание на то, что при равномерном дублировании сохраняется ортогональность плана, и матрица нормальных уравнений остается диагональной. При отсутствии параллельных опытов матрица весов становится единичной.

А как теперь будет выглядеть статистический анализ результатов такого эксперимента? Рассмотрим проверку адекватности модели. При наличии числа повторных опытов п, равного для всех строк плана, дисперсия адекватности равна

"ад — /у - (к + 1) '

Числитель этого выражения в матричной форме имеет вид

п 2 (у_{ - $_tf= Y^TPY - B^TX^rPY.

i-i

Повторные опыты накладывают более жесткие условия на проверку адекватности, так как рассчитанный F-критерий увеличивается в п раз и для принятия гипотезы адекватности требуется большее соответствие экспериментальных и расчетных точек. В рассматриваемом примере sj^=0,0312. Дисперсия воспроизводимости для одинакового числа повторных опытов подсчитывалась, как уже говорилось в гл. 8, по формуле

n п

22 ц- у,)²

__ '-1 9-1 _______

вснир N (п — 1)

Эта формула справедлива для однородных дисперсий.

Составим таблицу для расчета дисперсии воспроизводимости (табл. 10.4). Проверка показывает, что выборочные дисперсии Таблица 10.4

1,6125 0,5625 0,4125

Расчет дисперсии воспроизводимости

Номер опыта	Матрица планирования	У'	у"	S
	(1)	0,8	0,6	0,70	0,10	0,0100	0,020
	Ъ	1,3	1,5	1,40	0,10	0,0100	0,020
	а	1,7	1,7	1,70	0,00
	аЬ	2,6	2,7	2,65	0,05	0,0025	0,005
-

однородны G_3KCP=0,44, G_ia6j,=0,91, a=0,05, s^, =0,0112. Для проверки адекватности линейной модели найдем F-критерий • /?=5®_д/^_оввр=0,0312/0,0112^2,8. Табличное значение критерия Фишера для числа степеней свободы 1; 4 и 5% уровня значимости (табл. 9.4) равно 7,7. Гипотеза адекватности линейной модели может быть принята.

Осталось проверить значимость ^-коэффициентов. Дисперсия оценки Ъ коэффициентов равна — s\_ocnvjNn = 0,0014. Дисперсия воспроизводимости Snocnp, деленная на число параллельных опытов п, называется дисперсией среднего и обозначается s'\g).

Отсюда имеем =s\_g}/N = 0,0056/4 = 0,0014. Это* же результат получается из матрицы дисперсий-ковариаций (X^TPXs{_y})^-1или в нашем примере

1/8 0 0 " 0 1/8 0 0 0 1/8

0,0112 =

"0,0014 0 0 " 0 0,0014 0 0 0 0,0014

Тогда S{_io} =S{i!> =S{i2> = 0,0014. Если при проверке адекватности используется s²^}, то числитель F-критерия не нужно умножать на п, поскольку на это число уже поделен знаменатель. Для варианта с равномерным дублированием опытов на практике можно использовать следующую эквивалентную схему обработки результатов, учитывающую усреднение непосредственно.

1. Определим коэффициенты регрессии

2 y<^xj>

Ь =

1 N

Матрица X в этом случае содержит только отличающиеся вектор- строки, а матрица Р=п Е.

2. Найдем дисперсию адекватности

2 - м²

о2

»Д N — (А-И) •

3. Оценим дисперсию среднего по строкам

2 (»ч-у*)^%

5? = • "¹

га (га — 1)

4. Проверим гипотезу об однородности дисперсий и после ее принятия найдем общую дисперсию среднего

S{'J>

5 Затем вычислим дисперсии оценок коэффициентов регрессии

»{»,>=*{«^/N-

6 Наконец, проверим гипотезу адекватности модели F = s*Js\,,_}.

Применим эту схему обработки результатов к нашему примеру. В табл. 10.5 повторены матрица планирования и средние значения откликов, а также приведены данные, необходимые при проверке адекватности модели. Коэффициенты регрессии Ь₀ = 1,6125;

Таблица 10.5

Матрица планирования и результаты опытов

Номер опыта

у— у

(9 - уY • Ю'

0,6375 1,4625 1,7625 2,5875

-1 —1 +1 +1

0,0625 -0,0625 -0,0625 0,0625

+1 +1 +1 +1

-1 +1 —1 +1

0,70 1,40 1,70 2,65

39 39 39 39

Ъ_х = 0,5625, Ь₂ = 0,4125. Дисперсия адекватности 4д = 156-Ю"⁴. Дисперсии среднего по строкам (табл. 10.4) з? = 0,01, sj = 0,01, 3з = 0, si — 0,0025. Критерий Кохрена £ = 0,44, гипотеза об однородности дисперсий принимается. Общая дисперсия среднего ч*гу_}=0,0225/4=0,0056. Дисперсия оценок коэффициентов регрессии sf_y =0,0056/4 = 0,0014. Проверка гипотезы адекватности модели F=0,0156/0,0056^2,8.

Пример 2. Пусть реализован план с неравномерным дублированием онитов [10], в котором первый опыт дублирован дважды. Матрица X имеет вид

+i -1 -Г

+1 +1 -1

+1 -1 +1

+¹ -И +1

12 Заказ Mi 588

Запишем решение системы нормальных уравнений с учетом весов

+1 +1 +1 +1 —1 +1 -1 +1 —1 -1 +1 +1 "+1 +1 +1 +1' —1 -и —1 +1 —1 —1 +1 +1

-1

"2 0 0 0"	"-И —1 -Г	\
0 10 0	+1 +1 -1
0 0 10	+1 -1 +1
0 0 0 1	_-И +1 -и_	J
"2 0 0 0"	0,5 (у_и + у₁₂)
0 10 0	Уг
0 0 10	Уг
0 0 0 1	У*

Выполним указанные действия

				Г			—1	—1
Х^ГР =	—2		—1		Х^ТРХ =	—1	, 5
	—2	—1				—1

1 1 6 —1 -1 6

Подчеркнем, что дублирование одного опыта нарушило ортогональность плана. Применение стандартных формул для подсчета коэффициентов регрессии, используемых в случае ортогональных планов, стало неправомерным. Найдем обратную матрицу (см. [1])

(Х^гРХ)^_1 = _г

Наконец,

2 (Уи+Уи)

f У г + ^з "I" У*

X^rPY =

У 2 ~ Уз У 4 ■Уа + Уз + У*

—2 (у и + у_lt) 2

—2 <г/11

Уи)

В результате имеем

6 1 1 1 6 —1 1 —1 6

^В=2-8

У и +У2 + Уз +У* —Уи —У\1 +У2. —Уз +У4 —Уи —Уи —Уъ +Уз +У*

Х^ГХ =

Заметим, что к тому же результату можно придти, используя обычные формулы для нахождения оценок коэффициентов регрессии. Для этого в рассматриваемом примере достаточно сравнить соответствующие матрицы

	-+1 —1 —1-
+1 +1 +1 +1 +г	4_1 _1 _i		- 5—1—1
_i _i 4-1 —14-i	4-i +i —1	-	—1 5 1
_i __i _i +14-i	4-i —1 +i _+i +1 +1-		—1 1 5

Уп У12 Уъ Уз —У<к —

У11 +У12 +Уъ +Уз ~\~У4 У11 —У 12 +У2 — Уя ~\~У4 —Уи У12 —

Положим, что в ходе экспериментирования производилось дублирование точек в соответствии с матрицей X и получены результаты, изображаемые вектором Y

+1 +1 +1 +1 _i —i +1 —i -i-i _i —1 _1 +14-i

X Y =

'У и Уа

-+1 —1 —1 4_1 —I _i

n_t раз

+1 +1 _1 +1 +1 —1 |ла раз

Ут, Уи У22 У 2И₂ Уи Уи

Y —

+1 +1 +1 +1 +1 +1 |п₄ раз

4я<

где п. — число параллельных (дублированных) опытов в i-x условиях i = 1, 2Общее число всех опытов будет равно

У.

»-1

Перейдем к более лаконичной форме записи условий и результатов эксперимента. Для этого введем матрицу весов Р. Это квадратная диагональная матрица с элементами p_ti=n_t

п. л

Эта матрица в совокупности с матрицей X, содержащей только неповторяющие строки, задает условия эксперимента. А--его ре-

12*
зультаты тогда можно представить в виде вектора _sY, состоящего из средних наблюдений по дублированным опытам. Для учета различных вариантов дублирования составим таблицу, в которой приведем формулы для различных случаев (табл. 10.6).

Таблица 10.6 Суммы квадратов и числа степеней свободы при разных вариантах дублирования опытов

Источник рассеяния	Характер дублирования опытов	Сумчы квадратов	Число степеней свободы
Ошибка эксперимента	Неравномерный Равномерней		N п, г=1 д=1 N п 2 2 (у*-у.)¹ г=1 з=1	N 2 к-¹) г=1 Л (п— 1)
	Дублирование в ной точке i — 1	од-	П1 2 iVi_t-yx)²4=1	п₁— 1
	Дублирование в отдельной серии из L опытов	2 (yi - у)^гi=i	L - 1
	Неравномерный		N 2 ^ге. (у<—у<)² г=1	Л — (к -j- 1)
Неадекватность модели	Равномерный Дублирование в одной точке i =1 Дублирование в отдельной серии из L опытов	N ^ге2 (у' — У')²i=i ⁿi(yi — yi)² + N + 2 - у>² г=2 2 (У.-УУ г=1*	Л -(Л-t-i) N -(к-j- 1) N — (к \ )

Для удобства обозначений условимся в случае равенства всех п_{ писать га,—const=n, а номер единственного опыта, который дублируется, не нарушая общности, будем считать первым. В табл. 10.6 также указаны формулы для случая, когда дисперсия, характеризующая ошибку опыта, находится из незавйсимой серии опытов, результаты которой не используются при вычислении коэффициентов регрессии.

Таким образом, неравномерность дублирования должна учитываться и при регрессионном и при дисперсионном анализе. На практике это делается не всегда.

Приведенная таблица нуждается в комментариях. Начнем с пояснения содержащихся в ней формул. Для рассмотрения частных случаев, возможных при различных стратегиях дублирования, выразим соответствующие суммы квадратов с помощью обычной формы записи. Прежде всего запишем выражение для остаточной суммы квадратов

n в, »=1 5=1

Разложим эту сумму на составляющие с помощью следующего преобразования:

n я,

=22 (y_tt У{уt Уtf,

«=1 5=1

где у_{ — среднее значение отклика по опытам i-й серии

и,

я-1

Раскрывая выражение для S_0CT, будем иметь

=22 (У<_д - Ю²+2 2 (у.- у<Г+

»-1 5=1 »=1 }=1

n я,

+ 2 2(?.-0.) 2 —

•=1 5=1

Яi

Сумма 2 (у,„ — У,), входящая в последнее слагаемое, равна нулю

5=1

«j «И

2 {y,q - У() = 2 Ущ - =

5=1 5=1

Поэтому

n я, n

=22 (y,q - у if+2 ⁿi (у. - y.f

»=1 5=1

дает разложение S_or._T на два слагаемых, первое из которых есть S_m , а второе — 5_ад.

С величиной S_0CT связано число степеней свободы, равное

/ост ⁼⁼ 2 --- Р>

*=1

где р — число коэффициентов регрессии, входящих в регрессионную зависимость (в линейном случае p=A:-fl). Величина

n щ

"^воепр = 22 (Уin Si)^{^[9]}

связана с числом степеней свободы

/вОспр ⁼ 2 kⁿi ' )•

Следовательно, дисперсия, характеризующая ошибку эксперимента, есть

N я,

_? 22 (f'j^—у'У

2 _______ воспр 1=1 os=l

^sW=f---------- =-------- л-------------- •

' ВОСПР

2k-^{^[10]})

Тот же результат будет, если использовать выражения для частных дисперсий в каждой серии дублированных опытов. Действительно, для i-й серии параллельных опытов можно записать

с 2(f<?—f)²

Она связана с числом степеней свободы /_ЯД=7У—(&+1) или в общем случае /_a,=-/V—р. Следовательно, дисперсия, связанная с неадекватностью уравнения регрессии, есть

„ 2 ^ге< (у* - s^²

г, _____ ад______ 1-1____________________

— /_ад — N-(k + 1) '

Ото позволяет проверить гипотезу о том, что экспериментальные данные не противоречат полученному описанию. Проверка гипотезы производится с помощью дисперсионного отношения Фишера

Таким образом, содержащиеся в таблице формулы являются частными случаями одного^ и того же разложения остаточной суммы квадратов S_0LI. Зная процедуру разложения остаточной суммы квадратов, можно всякий раз получить нужную формулу. Однако на практике более удобно иметь эти формулы в готовом виде.

Наиболее общий случай представляет собой неравномерное дублирование. Чтобы получить здесь значение F-критерия, нужно сумму квадратов, связанную с дисперсией воспроизводимости, разделить на соответствующее ей число степеней свободы и получить знаменатель F-критерия (если построчные дисперсии однородны по критерию Бартлета)

А п;

„2 ___ 1 = 1 9=1______

^S{'j} — ------ А--------------- •

i=i

Затем надо взять сумму квадратов, связанную с дисперсией адекватности, поделить на соответствующее ей число степеней свободы и получить числитель

2 ^Ui (^yi — У*)²

Аналогично поступают во всех других случаях. Вариант равномерного дублирования уже неоднократно обсуждался. При дублировании в одной строке матрицы (в нашей таблице эта строка имеет индекс 1, хотя ясно, что выбор строк произволен) симметрия нарушается, это находит отражение в формулах. Если дела экспериментатора так плохи, что из-за экономии времени приходится ставить параллельные опыты только в одной точке, то часто лучше всего выбирать центр плана, ибо при этом не нарушается ортогональность.

Последний из приведенных в таблице вариантов — дублирование в отдельной серии из L опытов, не входящих в план. Это означает, что параллельные опыты не ставятся, а информация об ошибке опыта черпается из какого-то независимого источника, например, из публикаций предшественников.

Перейдем теперь к рассмотрению требований, которые обычно предъявляются к планам и называются критериями оптимальности.

10.6, Критерии оптимальности планов

Построение плана эксперимента можно интерпретировать как выбор строк матрицы X, их числа и последовательности проведения. Этот выбор осуществляется разными способами и соответственно приводит к разным результатам. Это значит, что 6-коэф- фициенты могут быть оценены с разной точностью, что они будут иметь разные ковариации, что предсказанное значение отклика получится с разными дисперсиями и т. д. В зависимости от того, какие требования экспериментатор предъявляет к модели, он может придти к той или иной формулировке требований к матрице X. Формализация этих требований связана с критериями оптимальности. Критерии оптимальности удобно формулировать в терминах свойств матрицы М=Х^ГХ или матрицы М^-1. Именно эти матрицы непосредственно связаны с оценками модели и функционально зависят от матрицы X. Так, например, при диагональной матрице М план оказывается ортогональным, т. е. все столбцы матрицы X взаимноортогональны и коэффициенты модели независимы: cov {b_v 0.

Таким образом, мы пришли к критерию, который уже был рассмотрен в шестой главе и который является одним из самых существенных для планов, обсуждаемых в нашей книге. Он относится к группе критериев, связанных с оценками свойств коэффициентов. Кроме этой группы критериев будем различать критерии, определяющие предсказательные свойства модели, и критерии, сформулированные без использования матрицы М, такие, как композиционность, возможность разбиения плана на ортогональные блоки, насыщенность и т. д. [11,12].

Начнем рассмотрение с критериев первой группы. В их основе лежит концепция совместных эффективных оценок, которая берет свое начало с работ Р. Фишера, рассматривавшего проблему получения наилучших оценок при обработке экспериментальных данных.

Американский математик Дж. Кифер распространил такое требование на задачи построения планов. Различные критерии зтой группы приведены в табл. 10.7. В таблице каждый критерий определяется тремя различными, но эквивалентными способами. Таблица начинается с критерия D-оптимальности,

Я I 1

О л а

в<4 ; н о о ф VO Я S

Ц*

S s S

и й «

И о S ф о

я_н л

2 в о „

Я з я я

j) Ч к а Я ф о 5 tr ее

я 2

- aj

я я и ф tr о в Я о Л ф a 2 ^яЯ о ее Н и о м К Я в я S ® If: s§

л ф о ^ Я f! СС и М ® к jsj |я о га

я в -о

a о Я « « о и и ф Ш voо voо я S Я Я й м я S о

н я о о Я о я о 3 ф s я 5,3 я ³я ° й М Я т Я 3

я о Си н ф S я си я а

я я Я ■— £■ S > Д Я о О о о

ык

О а

р я § я S

S о ° Я м

к Й И 1 а

Я 3 I ч

Й" ^ ⁴ Ч

^я 2 s В Ц о И га 5 о о S О Я _ Я

о з « Я

я я

m ^w О

^я о о

s 2 ~ "

S я ее S Я Sh S 2 я g g s Ч я I Ч

а » й ■j н в ^ а «Э Н S а Ч «Э Й «в в ой га S

^>>2 я g, S о Ч а я S ° я

я £L° S В о

№ 23

к ч И

я я S Я Л

я I о к н Ф <° 8 Is

Я § я Я « & СО га Я л Я 2 <= S И ф g ■fi а « * £ ¹⁸ш S ё Я Ф Я g S л

М дч S

о « о ® о- я § я

Я Я

в Ч§ Я о £ я о* я Я S ►S ч К га

«а*

в ^ ее ф я а

5 в s

я И в

ч s Q,

Ч ее в

«ля

м О

я о л

н Я £ ® г- S вз ей cd «Я ft

я О СО

я я

S _ >>о

Я Я в в

mS.e

Я Я к о,

Я я Н

=я

я Я °§ о * - Я S а я я я я к м ф я „ л ф

S в ее В cl,О в о я Я н о I® Я §7 В о £ о 5 о* Э я A3 Я ® § §

Фио

со о Я я со I 'Я о Я

ф о ч я >я о « fe О 2 к Ф >0 Я Ч о со S Я ее о Я Я ее Я Л

о а а я я о* н со ы s s Н 2 Оч о я М i «т Л⁸Й'Я 2 я в ° ^н

Сц Ф Я о Я С£ а я я о, tees'* я я и И" « § а я я " я л 9 S ® я ь¹ я a

а а H-II

I Я

о н

•я я я „ со Е ⁶¹ Я о, 2 са я

я .. Я в я я и; S s

Я Я о о

ф я

я £

о Я Я я ее к

>в< га о о Я я л

а я я я ш я

я я Е- О О Я |v§ 1| >>я О О И s а S J) я ч

л н о о я л 4 со 5 Я н Я о

Л I* о о я л ч со я я я Я ? ад

л н о о я л 4 со 5 Я н Я о

« s р. р. К

Н я g, Я о о ИО

н ф М Я S о

с названием которого часто связывается вся концепция оптимального построения планов. Смысл его — минимизация дисперсии всех коэффициентов регрессии, рассматриваемых как нечто единое, как вектор. Дисперсию вектора коэффициентов принято называть обобщенной дисперсией, которая задается известной нам функцией от матрицы дисперсий-ковариаций — определителем. Чем меньше определитель, тем меньше обобщенная дисперсия. Как всегда в математике наряду с алгебраическим представлением можно использовать и геометрическое. Однако в этом случае вместо уже знакомого нам факторного пространства приходится вводить пространство параметров, в котором координатные оси задаются значениями коэффициентов регрессии

Между размерностями факторного пространства и пространства параметров не существует однозначной связи. В случае одного фактора и линейного уравнения регрессии пространство параметров будет двумерным (так как в уравнение входит два коэффициента Ъ₀ и bj). Но можно представить себе вариант перехода в одномерное пространство, если, например, незначим один ил коэффициентов, или в трехмерное пространство, когда от уравнения прямой приходится переходить к параболе. Аналогичное рассуждение имеет место и для большего числа факторов.

Если число факторов и вид уравнения заданы, тогда размер ность пространства параметров определяется однозначно. Так, для линейного уравнения с к факторами пространство параметров имеет размерность к-\-1. Каждой точке в таком пространстве соответствует вектор оценок коэффициентов, а определитель матрицы дисперсий-ковариаций пропорционален объему эллипсоида рассеяния оценок параметров. Причем центр эллипсоида совмещен с МНК оценкой. Эллипсоид является многомерным аналогом обычного доверительного интервала. Для одномерного пространства параметров он вырождается в отрезок, который и есть доверительный интервал. На плоскости (когда имеется два параметра) получится эллипс. Эллиптическая форма доверительного интервала связана с предпосылкой регрессионного анализа о нормальном распределении.

Геометрическая интерпретация в пространстве параметров характерна для критериев этой группы.

Для критерия ^-оптимальности матрица X выбирается так, чтобы достигнуть минимума суммы квадратов длин главных осей эллипсоида рассеяния. Алгебраически это соответствует минимуму еще одной функции матрицы дисперсии-ковариации. которая называется следом и обозначается tr М^-1 (от trace фр.) или spM^-1 (от Spur нем.). Следом квадратной матрицы называется сумма ее диагональных элементов. Вспомним, что на диагонали матрицы М^-1 находятся дисперсии Ь-коэффициентов. Значит ^4-оптимальность обеспечивает минимум суммы дисперсий Ъ-коэффициентов без учета их ковариаций и, следовательно, минимум средней дисперсии.

Кроме таких функций от матрицы М^-1 как определитель и след для критериев оптимальности можно использовать и другие ее функции. Примером может служить критерий ^-оптимальности, минимизирующий максимальное собственное значение этой матрицы. Собственное значение принадлежит к характеристикам структуры матрицы. Этому вопросу посвящена обширная литература, к которой мы и отсылаем читателя [13, 14]. Всегда существует опасность, что эллипсоид рассеяния может получить слишком вытянутую, бананоподобную форму. При этом некоторые Ь-коэф- фициенты попадут в неблагоприятные условия. Критерий ^-оптимальность позволяет уменьшить эту опасность, поскольку он минимизирует самую длинную ось эллипсоида рассеяния.

Подобным образом можно интерпретировать и остальные критерии, приведенные в табл. 10.7, что предоставляется читателю в качестве самостоятельного упражнения.

Перейдем к рассмотрению критериев второй группы. Описание этих критериев проводится не на языке пространства параметров, а в более привычных терминах факторного пространства и функции отклика (см. табл. 10.8). G- и (^-критерии связаны

Таблица 10.8

статистическая

Критерии оптимальности планов для предсказательных свойств модели

Интерпретация

Критерий

алгебраическая

(^-оптимальность Р отатабельность

Униформность

min ^ XfM-iX, i=l

XfM-iX, = /(p)

G-оптимальность min max X_J^rM~'X_j

XjM-iX, % const при 0 < p < 1

Минимум максимального значения дисперсии оценки поверхности отклика

Минимум средней дисперсии оценки поверхности отклика

Постоянство дисперсии предсказания на равных расстояниях от центра эксперимента

Дисперсия предсказания постоянна в некоторой области вокруг центра эксперимента (например, с единичным радиусом)

с дисперсией предсказания значений отклика. (^-критерий минимизирует максимальную дисперсию предсказания, (^-критерий — среднюю дисперсию. Если план G-оптимален, то экспериментатор имеет гарантию, что в области планирования не окажется точек, в которых точность оценки поверхности отклика будет слишком низкая.

Критерии ротатабеяьности и униформности связаны с требо-. ванием постоянства дисперсии предсказания на некоторых фиксированных расстояниях от центра эксперимента. Ротатабель- ность плана означает, что оценки дисперсии предсказания инвариантны (независимы) относительно вращения координатных осей факторного пространства. Иными словами, дисперсия предсказания не будет зависеть от того, в каком направлении осуществляется движение из начала координат, а зависит только от расстояния между интересующей нас точкой и началом. Уни- формность в дополнение к этому требует, чтобы в некоторой окрестности начала координат, обычно внутри сферы единичного радиуса,, дисперсия предсказания оставалась приблизительно постоянной.

Кроме этих двух групп критериев, при упоминании которых мы не претендовали на полноту перечисления, существует еще большое число требований, принимаемых во внимание. Укажем некоторые из них.

Наиболее естественное желание экспериментатора — уменьшение числа опытов. Минимальное число опытов задается числом коэффициентов модели, а приближение к нему служит мерой насыщенности плана. Таким образов, насыщенность плана оказывается одним из возможных критериев оптимальности. Именно стремление удовлетворить этому критерию привело к созданию дробных реплик. Заметим, что дробные реплики одновременно удовлетворяют по крайней мере двум критериям: они ортогональны и насыщены.

Большое значение имеет требование композиционности, позволяющее разделить эксперимент на части и в случае необходимости последовательно реализовывать одну часть за другой без потери информации. Примером может служить переход от ^х/₄-реплики к полуреплике, а затем к полному факторному эксперименту, если система смешивания оказалась сложной и не позволила выделить интересующие эффекты. Это соответствует последовательному переходу от простой линейной модели к модели с взаимодействиями. То же самое возможно и при переходе от линейных моделей к модели второго порядка и т. д.

Близким к требованию композиционности является требование разбиения плана на ортогональные &локи. Композиционность требуется из-за того, что мы не знаем заранее, какой окажется адекватная модель, а разбивать на блоки приходится из-за того, что возможно изменение внешних условий и важно защититься от их влияния. С примерами разбиения на блоки вы могли ознакомиться в гл. 8.

Список возможных критериев отнюдь не исчерпывается описанным [11]. Но даже если ограничиться перечисленным, то естественно может возникнуть вопрос, зачем нужны простому экспериментатору D-, G- япрочие оптимальности?

Мы уже говорили выше о таких свойствах полного факторного эксперимента и дробных реплик, как ортогональность и рота- табельноеть. Ортогональность обеспечивает независимость оценок ^-коэффициентов, что очень существенно при интерпретации силы влияния факторов и их взаимодействий, а также, как мы увидим далее, для оценки направления градиента при движении к оптимуму. Поскольку заранее трудно предполагать, в какую сторону будет направлен градиент, то полезно стремиться и к ро- татабельности, обеспечивающей одинаковую точность предсказания в разных направлениях.

Рассмотрим 2)-оНтимальность. Этот критерий связан с оценкой уравнения регрессии в целом и смысл его становится более понятным, когда речь идет об интерполяционных (описательных) задачах. Здесь уже экспериментатор не стремится изучать влияние каждого фактора в отдельности. Для него важно получить минимальную обобщенную дисперсию коэффициентов, что обеспечивает достаточные предсказательные свойства модели внутри области эксперимента. Такие же свойства обеспечиваются и G-критерием. Это происходит не случайно, так как D- и G-критерии во многих случаях эквивалентны [12].

Критерии первой группы отличаются от /^-критерия тем, что используют иные свойства вектора оценок коэффициентов регрессии, отличные от обобщенной дисперсии. Могут встретиться постановки задач, требующие <

Предыдущая 1 2 3 456 7 8 Следующая

Последнее изменение этой страницы: 2016-07-23

lectmania.ru. Все права принадлежат авторам данных материалов. В случае нарушения авторского права напишите нам сюда...