WWW.BOOK.LIB-I.RU
БЕСПЛАТНАЯ  ИНТЕРНЕТ  БИБЛИОТЕКА - Электронные ресурсы
 

«6.2.6. Разработка рациональных процедур программы линейного регрессионного анализа. В давние времена, когда президент Рейган был еще простым народным артистом ...»

6.2.6. Разработка рациональных процедур программы линейного регрессионного анализа.

В давние времена, когда президент Рейган был еще простым "народным артистом" США,

нами был произведен на свет программный продукт под названием РЕГАН (РЕГрессионный

АНализ) [1]. Наверняка после рассекречивания агентурных данных ЦРУ истории станет

известно, какую роль этот продукт сыграл в избирательной кампании будущего президента

США. Однако, по нашему мнению, как в то время, так и до сих пор это – лучшая из известных нам программ регрессионного анализа! Почему? Очень просто! РЕГАН изготавливается аналитическим статистиком (АСом) самостоятельно для личного пользования. Рецепт – проще кулинарного. Берется лучшая на сегодняшний день программа регрессионного анализа и дополняется сервисными процедурами пользователя! Например, в нашей версии программы РЕГАН всего за один подход к ЭВМ комплексно решались многие часто встречаемые проблемы регрессионного анализа.

В настоящее время пользователю статистических программ не составит большого труда дополнить стандартные процедуры пакета программ по регрессионному анализу дополнительными рациональными процедурами, описанными, например, в одноименной статье (Рудай А. Н., Цейтлин Н. А., Рудай В. И., Ицков Ф. Э. - В кн.: Технология и автоматизация содового и смежных производств: Труды, т. 61/НИОХИМ. Харьков, 1985, с.72-84).

Практика построения математических моделей химико-технологических систем вообще и в содовой промышленности [1-9], в частности, свидетельствует о том, что наиболее мощным методом статистической обработки данных является регрессионный анализ (РА). Программы РА непрерывно рационализируются [10-17] в зависимости от особенностей решаемых задач в предметной области, достижений статистической теории и интересов авторов программ.



Для обработки данных методом РА авторы использовали вначале стандартные процедуры МО ЭВМ по статистике [12]. Однако, при решении каждой задачи возникали трудности, для преодоления которых приходилось разрабатывать новые рациональные процедуры. Собранные воедино (с помощью головной программы), эти процедуры составили пакет программ РА (названный "РЕГАН").

В настоящей работе изложены основные идеи и приемы, использованные при составлении упомянутых процедур.

Функциональное преобразование признаков (ФПП).

Обычно ФПП в программах РА осуществляется с помощью небольшого количества встроенных функций [11]; для более сложных ФПП пользователю рекомендуется писать собственную процедуру на алгоритмическом языке.

Процедура ФПП успешно используется для построения регрессионных моделей в основной химической технологии (табл. 1).

Таблица 1 Некоторые функциональные преобразования признака, использованные для построения регрессионных моделей в основной химической технологии (примеры) Источ

–  –  –

Редукция корреляционной матрицы (РКМ) позволяет компактно представить большую КМ так, чтобы значения каждого коэффициента корреляции были представлены одним символом R {0, 1, 2 …, A, B, …} в верхней треугольной матрице, а знаки – в нижней. Каждый символ R соответствует центру своего интервала статистической незначимости.

Отбор существенных факторов (ОСФ) Высокую оценку специалистов [13] получил метод ОСФ Эфроимсона [14]. В этом методе используется пошаговая процедура включения факторов. Составляется множество "подозреваемых" (в том, что они могут быть значимыми) факторов (точнее – базисных функций).





На каждом шаге в регрессию включается фактор, который имеет максимальный частный коэффициент корреляции с откликом и проверяется значимость всех коэффициентов регрессии.

Если на некотором шаге какой-либо коэффициент оказался незначимым, соответствующий ему фактор на следующем шаге исключается из регрессии; если же фактор при незначимом коэффициенте был включен на данном шаге, процедура выходит на конец расчета.

В предлагаемой процедуре ОСФ используется метод серий, несколько отличающийся от метода Эфроимсона. В методе серий используется возврат поиска не на 1, а на п 1 шагов назад в сочетании с варьированием уровня значимости.

ОСФ начинается также пошаговым включением факторов. Если на некотором шаге какойлибо коэффициент, например, bj оказался незначимым, то возврат процедуры поиска осуществляется на п шагов назад (п 1) к тому шагу, на котором соответствующий коэффициенту bj фактор Хj впервые попал в регрессию. Начинается новая серия включений факторов. В этой серии фактор Хj исключается из поиска п раз; на шаге п + 1 фактор Хj включается в число "подозреваемых" вновь. Если окажется, что п = 1 (то есть незначимым оказался последний из включенных в регрессию факторов), процедура выходит на конец расчета. Метод серий позволяет получить несколько большее, чем в методе Эфроимсона, число полезных [17, с. 361] (со всеми значимыми коэффициентами и приблизительно равными минимальной остаточными дисперсиями) функций регрессии, предъявляемых исследователю как множество решений задачи.

Варьирование уровня значимости Согласно -методу проверки гипотез [1] значимость коэффициента регрессии bj характеризуется уровнем значимости j ; чем меньше j, тем значимее отличие абсолютной величины коэффициента регрессии от нуля. Если j меньше некоторого критического уровня к1 (например, к1 = 0,01), то соответствующий коэффициент bj считается значимым.

При ОСФ рекомендуется [13, с. 182] "временно" использовать высокое значение кв критического уровня значимости к (например, кв = 0,9 [1]). Наш опыт показал, что в этом случае программа на двух-трех шагах включения может включить не очень значимые коэффициенты bj (с уровнем значимости k1 i 0,9 ), зато на следующих шагах значимость всех коэффициентов может резко возрасти ( i k 1 ).

Таким образом, дополнительное число полезных эмпирических функций регрессии (ЭФР) можно получить "краткосрочным" установлением повышенного уровня значимости кв. После завершения расчетов программа выводит на печать полезные ЭФР с коэффициентами, значимыми на "обычном" уровне значимости ( i к1).

Экономия памяти ЭВМ Для реализации метода Эфроимсона обычно используется расширенная матрица дисперсийковариации А [13, с. 18] размерностью (2к + 1)(2к + 1), где к – общее число факторов.

Экономии памяти ЭВМ удается достичь путем использования всего двух матриц дисперсийковариаций – основной, Д, размерностью (к + 1)(к + 1) и вспомогательной альтернативной матрицы Е, изменяющей свою размерность от шага к шагу при ОСФ от 22 до (к + 1)(к + 1). Над матрицей Е производятся преобразования по методу сокращения Дулиттла [12, с. 244].

Обработка массивов с пропущенными данными (ПД) В процедуре ПД используется метод попарного вычеркивания [15, с. 192; 11, с. 37], основанный на расчете ковариационной матрицы переменных (Д) и вектора средних значений.

Если пропущенные данные имеются среди значений отклика, то из массива данных исключаются все строки, соответствующие пропускам в отклике. Можно показать, что в противном случае оценка вектора коэффициентов окажется смещенной.

Элемент массива считается пропущенным данным, если он не является числом. В процессе вычислений формируется (и распечатывается) матрица К, элементами которой являются количества полностью заполненных строк для каждой пары столбцов (исходных и преобразованных данных).

Для вычисления числа степеней свободы статистических характеристик функции регрессии, полученных с помощью матрицы Е, используется среднее гармоническое подмножество элементов матрицы К, соответствующих вошедшим в ЭФР переменным.

Когда проводится анализ остатков лучшей ЭФР, остатки и другие статистические характеристики вычисляются по тем строкам, которые полностью заполнены для вошедших в ЭФР переменных.

Лучшая функция регрессии (ЛФР) Процедура ЛФР выбирает из множества полезных ЭФР одну с минимальной остаточной дисперсией. Для ЛФР на АЦПУ распечатывается корреляционная матрица коэффициентов регрессии [9], приводятся остатки и диаграмма их рассеивания [17], критерии согласия распределения остатков с нормальным распределением [1], интервальные оценки функции регрессии [13], критерий мультиколлиарности факторов, включенных в регрессию [18, с. 326].

Исправление ошибочных значений отклика (ОЗО) Обычно ОЗО обнаруживают с помощью критерия Смирнова-Груббса [19, с. 101] и исключают из расчетов всю строку данных (опыт). Потеря целой строки невыгодна для анализа.

Поэтому рекомендуется использовать процедуру "исправления" ОЗО (аналогично винсоризации средних значений [20, с. 177]). Для этого в первом цикле расчетов с помощью процедуры ОСФ получают ЛФР. адают критический уровень значимости к0 [1] в предположении о наличии одного (q = 1) ОЗО. ОЗО выявляют по N остаткам ЛФР с помощью критерия Смирнова-Груббса.

Если одно ОЗО выявлено, принимают q = 2 и корректируют критический уровень значимости k( q ) = 1 (1 k 0 )1/ q, q 1. (1) После обнаружения вторичного ОЗО принимают q = 3 и т. д., пока не будут найдены все Т ОЗО (0 Т N – f, где f – число параметров РМ.). Затем все Т выявленных ОЗО Yi (i = 1,T ) заменяют значениями отклика Yi, вычисленными по ЛФР, и переходят к следующему циклу расчетов. В следующем цикле с помощью процедуры ОСФ вновь получают ЛФР, выявляют ОЗО и т. д. Расчеты продолжаются до тех пор, пока ОЗО не перестанут появляться. Полученные во всех циклах расчетов "полезные" ЭФР выводятся на печать. Опыт показывает, что один-два ОЗО появляются, в среднем, в каждом третьем расчете.

–  –  –

Dijr - максимум частной производной ЛФР по xr, взятый на отрезке прямой с концами в точках xi, x j ; величина L выбирается из условия принятия гипотезы о равенстве значений ЛФР в точках xi, x j : L = 2,8SN-0,5, где S – среднеквадратическое отклонение (СО) остатков; N – объем выборки.

–  –  –

Процедура округления коэффициентов регрессии (ОКР) [26] позволяет распечатывать значения округленных коэффициентов регрессии в соответствии со следующими ограничениями погрешностей: систематическая ошибка остатков e0 0, 7 SN 0,5 ; СО остаточной ошибки S0 S[1 + (N – q)-1/2)0,5, где q – число КР.

Процедуры РКМ, ООМ, ОПЭ, ДВО и ОКР – оригинальные. Процедура "область определения модели" (ООМ) определяет ООМ для ЛФР как гиперпараллелепипед, если мультиколлинеарность незначима, или как окаймленный плоскостями гиперэллипсоид, если – значима [1, 24].

Процедура "ортогонализации плана эксперимента" (ОПЭ) используется, когда необходимо получить интерпретируемую ЛФР, а мультиколлинеарность значима. ОПЭ достигается путем исключения некоторых опытов (и соответствующего снижения ООМ) до тех пор, пока оставшиеся опыты ни образуют почти ортогональный план эксперимента.

Кроме описанных выше, в программе РЕГАН объединены еще несколько процедур:

определение и исключение из расчетов факторов, принимающих во всех опытах постоянные значения; вычисление критерия Дурбина-Ватсона [25] для проверки гипотезы о независимости значений остатков, ранжированных по порядковому номеру наблюдений, или по любой другой заданной переменной.

–  –  –

Метод серий ОСФ позволил получить три полезных функции регрессии (на 3-м, 7-м и 10-м шагах табл.

3):

Х5 = 18,9 – 0,20Х1 - 4110-4 X 4 - 41510-3Х1Х3;

Х5 = 14,67 - 2210-4 X 12 - 4110-4 X 4 - 40410-3Х1Х3;

Х5 = -1,27 – 26,2 X 2 + 31,0Х2.

Наилучшей по остаточной ошибке (и выбранной в программе) является первая из приведенных ЭФР, однако последняя проще других.

Литература

1. Цейтлин Н. А. Применение методов математической теории эксперимента в содовой промышленности. Обзорная информация. Серия: Содовая промышленность. – М.: НИИТЭХИМ, 1984. – 36 с.

2. Зайцев И. Д., Цейтлин Н. А., Чайка В. П. Обобщение данных для расчета параметров в газопарожидкостных системах производства кальцинированной соды аммиачным способом //Хим.

технология. – 1983. - №6. – С. 25 - 27.

3. Цейтлин Н. А., Новик Ф. С., Авраменко Э. Н. Некоторые способы кусочно-гладкой аппроксимации функций // Заводская лаборатория. – 1982. - №1. – Т. 47. - С. 48 - 55.

4. Едвабник И. Ю., Новик Ф. С., Цейтлин Н. А. Использование двухстадийных сплайнов для аппроксимации сложных физико-химических кривых // Зав. лаб. – 1985. – Т. 51. – С. 54 – 57.

5. Едвабник И. Ю., Новик Ф. С., Цейтлин Н. А. Аппроксимация сложных физико-химических функций с помощью двухсторонних сплайнов (Рукопись деп. в ОНИИТЭХИМ г. Черкассы 11 мая 1984г. №912XIIД84). – Библ. указатель ВИНИТИ Деп. рукописи. – 1985. - №1. – С. 147.

6. Цейтлин Н. А., Зайцев И. Д. Методы расчетов параметров физико-химических свойств смешанных растворов электролитов. // В кн.: Технология соды и содопродуктов. Труды НИОХИМа. – Т. 52. – Харьков, 1980. – С. 21 – 35.

7. Цейтлин Н. А., Золотарев Е. Н., Зинченко М. Г., Заир-Бек Я. С., Рудай А. Н., Михайлов В. П.

Математическая модель процесса каталитического окисления окиси углерода в отходящих газах содового производства // Хим. технология. – 1981. - № 2. – С. 54 – 56.

8. Ткач Г. А., Цейтлин Н. А., Райко В. Ф., Толстокорова И. С. Использование методов математической статистики в исследовании результатов несчастных случаев на химических заводах. - Харьков: НИОХИМ, 1982. – 43 с. (ОНИИТЭХИМ г. Черкассы 28 апреля 1982 г. №519XII-Д82) – Библ. Указатель ВИНИТИ, Деп.

Рукопись. - 1982. - №8.

9. Цейтлин Н. А., Райко В. Ф., Островский М. Г. и др. Обработка на ЭВМ информации о производственном травматизме с применением методов математической и описательной статистик. (Деп. рук. № 584XIIД82, г. Черкассы, 1984, 43с.) – Реф. в Библ. Указ. ВИНИТИ Деп. рукописи. – 1984. - №10. – С. 132.

10. Айвазян С. А. и др. Прикладная статистика: Исследование зависимостей: Справ. изд./ С. А. Айвазян, И. С. Енюков, Л. Д. Мешалкин; Под. ред. С. А. Айвазяна. – М.: Финансы и статистика, 1985. – 487 с.

11. Адамов С. Ю., Айвазян с. А., Бритиков Е. Е. и др. Материалы по МО ЭВМ. Пакет программ по прикладному статистическому анализу. Руководство пользователя. – М.: Изд. ЦЭМИ, 1983. – 188с.

12. Василенко А. Н., Герасимович Т. А., Горячева Т. В. и др. Математическое обеспечение ЕС ЭВМ. – Вып. 14. – Минск: Ин-т математики АН БССР, 1978. – 330 с.

13. Дрейпер Н., Смит Г. Прикладной регрессионный анализ / Пер. с англ. – М.: Статистика, 1973. – 392 с.

14. Efroimson M. A. Multiple regressoon analisis. – Sn:Mathematical Methods for Digital Computers / Ed. By Ralson A. and Wilf H. S. – N.Y., 1960. – P. 191 – 203.

15. Афифи А., Эйзен С. Статистический анализ. Подход с использованием ЭВМ. – М.: Мир, 1982.– 488 с.

16. Thompson M. Z. Selection of variables in multiple regression: Part 1. A review and evaluation. – International Statistical Review. – 46(1978). – P. 1 – 19.

17. Себер Дж. Линейный регрессионный анализ. – М.: Мир, 1980. – 456 с.

18. Андерсон Т. Введение в многомерный статистический анализ. – М.: Физматгиз, 1963. – 500 с.

19. Смоляк С. А., Титаренко Б. П. Устойчивые методы оценивания. – М.: Статистика, 1980. – 208 с.

20. Идье В., Драйорд Д., Джеймс Ф. и др. Статистические методы в экспериментальной физике. – М.:

Атомиздат, 1976. – 336 с.

21. Адлер Ю. П., Маркова Е. В., Грановский Ю. В. Планирование эксперимента при поиске оптимальных условий. – М.: Наука, 1976. – 280 с.

22. Цейтлин Н. А., Гордеев Л. С., Ицков Ф. Э., Петренко С. А. Адекватность эмпирической функции регрессии данным пассивного эксперимента на промышленном объекте // В кн.: Тез. докладов всесоюзной научной конф. "Повышение эффективности, совершенствование процессов и аппаратов химических производств". – Ч. 7. – С. 37, 38. – Харьков, 1985. – 120 с.

23. Цейтлин Н. А., Гордеев Л. С., Ицков Ф. Э., Петренко С. А. Адекватность эмпирической функции регрессии данным пассивного эксперимента на промышленном объекте: Тезисы доклада всесоюзной научной конференции ХПИ "ПАХТ-85". – 1985.

24. Цейтлин Н. А., Дидович М. Я., Едвабник И. Ю. и др. Исследование механических свойств, шлама дистилляции содового производства с применением методов математической статистики // Хим. технология.

– 1983. - №6. – С. 34 – 36.

25. Джонстон Дж. Эконометрические методы. – М.:Статистика, 1980. – 446 с.

26. Цейтлин Н. А. Методы статистической обработки результатов наблюдений при пылегазовых замерах.

– Х., 1981. – Рукоп. предст. НИОХИМом, Деп. в ОНИИТЭХИМ г. Черкассы 7 авг. 1981 г., № 725ХII-Д81.

27. Гольдштейн Я. Р. Механизм роста кристаллов бикарбоната натрия // Журн. прикл. химия. – 1951. – Т.




Похожие работы:

«company s.r.o. about us о компании Много на планете фирм, предприятий, организаций. Больших и маленьких. Наверное, миллионы. Заходишь на любой интернет-ресурс и читаешь об эксклюзивности и креативности фирмы, о необычности предлагаемых товар...»

«ООО "АКЦЕПТ" (Телевизионный канал РЕН ТВ) в Симоновский районный суд города Москвы 115280, г. Москва, ул. Восточная, д.2, стр.6. Истец: Международная общественная организация "Международное историко-нросветительское, благотворительное и правозащитное общество "Мемориал" 125051, г. Москва, пер. Малый Каретный, д. 12. Ответчик:...»

«А.М. МАЛИКОВ старший научный сотрудник, кандидат исторических наук Институт социальной антропологии общества Макс Планка, Хале, Германия, ТУРКМЕНЫ РОДОВ ХИЗР-ЭЛИ И ЧАНДИР ДОЛИНЫ ЗЕРАФШАНА: ИСТОРИЯ И ОБЫЧАИ Аннотаци...»

«Владимир Кучин Всемирная волновая история от 1928 г. по 1942 г. http://www.litres.ru/pages/biblio_book/?art=11643989 ISBN 978-5-4474-2176-2 Аннотация Книга содержит хронологически изложенное описание исторических событий, основанное на оригинальной авторской исторической концепции и опирающееся на...»

«Лукина Анна Евгеньевна ДИАСИСТЕМНЫЕ ОСОБЕННОСТИ УПОТРЕБЛЕНИЯ ГЛАГОЛЬНЫХ ФОРМ ВРЕМЕНИ И НАКЛОНЕНИЯ В ПИКАРДСКИХ СКРИПТАХ В статье рассматриваются различные теории в истории французского языка, посвященные изучению и объяснению случаев употребления глагольных форм времени и накло...»

«ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ СМК РГУТиС УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ "РОССИЙСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТУРИЗМА И СЕРВИСА" Лист 1 из 36 ОЦЕНОЧНЫЕ СРЕДСТВА ПО ДИСЦИПЛИНЕ Б3.В.ОД.1 "История костюма" основной образовательной програ...»

«ОБЩЕСТВЕННЫЕ НАУКИ И СОВРЕМЕННОСТЬ 2000 • № 3 НАЦИОНАЛЬНЫЕ ОТНОШЕНИЯ А.Г.ВИШНЕВСКИЙ Распад СССР: этнические миграции и проблема диаспор Несмотря на то что история России XIX-XX веков тесно переплелась с историей двух древнейших и известнейших диаспор еврейской и армянской, понятие диаспора было не слишком по...»

«ПЕРЕЛОМ ИСТОРИИ Александр Островский Расстрел "Белого дома" Москва "ЯУЗА" "ЭКСМО" ББК 63.3(0) О-78 Оформление серии художника П. Волкова Фото на обложке: Савельев Виталий / РИА "Новости" Островский А. В. О-78 1993. Расстрел "Белого дома". — М.:...»

«Работа с бумагой Объемные игрушки 1 класс Кораблик в стиле Оригами Раздел курса: "Работа с бумагой. Объемные игрушки" 1 класс. Тема урока: "Работа с бумагой. Игрушки в стиле Оригами". "Кораблик в стиле Оригами"Ц...»









 
2017 www.book.lib-i.ru - «Бесплатная электронная библиотека - электронные ресурсы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.