пїњ

–ј«–јЅќ“ ј ћј“≈ћј“»„≈— ќ… ћќƒ≈Ћ» ‘»«»„≈— ќ√ќ «ƒќ–ќ¬№я „≈Ћќ¬≈ ј Ќј ќ—Ќќ¬≈ ћ≈“ќƒј ћЌќ∆≈—“¬≈ЌЌќ√ќ –≈√–≈——»ќЌЌќ√ќ јЌјЋ»«ј

Ќј”„Ќќ≈ »«ƒјЌ»≈ ћ√“” »ћ. Ќ. Ё. Ѕј”ћјЌј
Ќј” ј и ќЅ–ј«ќ¬јЌ»≈
Ёл є ‘—77 - 48211. √осударственна€ регистраци€ є0421200025. ISSN 1994-0408
электронный научно-технический журнал
–азработка математической модели физического здоровь€ человека
на основе метода множественного регрессионного анализа
# 01, €нварь 2014
Ѕ01: 10.7463/0114.0696028
 уи “. —.
”ƒ  519.2
–осси€, ћ√“” им. Ќ.Ё. Ѕаумана кук№аг82@цтаѕ. сот
¬ведение
¬ насто€щее врем€ все чаще специалисты по информационным технологи€м станов€тс€ активными участниками решени€ проблем здоровь€ людей. ќднако это предполагает, что специалисты по информационным технологи€м имеют достаточный объЄм соответствующих медицинских знаний, чтобы вести разработки информационных систем, предметной областью которых €вл€етс€ медицина. ¬есьма привлекательными подобные информационные системы €вл€ютс€ в тех случа€х, когда они способствуют сохранению здоровь€ у практически здоровых людей. ѕодобные системы получили название "Ќавигаторы здоровь€". ¬ таких системах, например, заинтересованы медицинские страховые компании и поликлиники дл€ проведени€ экспресс - обследовани€ клиентов и пациентов.
ќдной из ключевых задач при создании информационных систем типа "Ќавигатор здоровь€" €вл€етс€ выбор измер€емых параметров человека при его обследовании и разработка алгоритмов обработки результатов измерении. ¬о всем многообразии возможных вариантов решени€ этой задачи хотелось бы выбрать в некотором смысле наилучший вариант и его использовать.  ритери€ми отбора измер€емых параметров, процедур измерени€ и расчетов отдельных показателей могут быть, например, простота выполнени€ измерени€, надежность измерени€, чувствительность, воспроизводимость.
1. ћетод анализа
ѕриведенный анализ 480 мальчиков в возрасте от 14 до 17 лет в медицинской компании ЂЌародный —порт ѕаркї [11] применен в данной работе. ¬ыборка по каждой группе составл€ла 120 человек. Ќа основе полученных результатов анализа прогнозируем физическую работоспособность человека (PWC170/кг), который €вл€етс€ одним из важнейших компонентов
физического здоровь€ человека, характеризующим способность организма эффективно выполн€ть большую мышечную работу и противосто€ть утомлению. ”ровень общей выносливости определ€етс€ возможност€ми мышечной, дыхательной, сердечнососудистой, нервной, эндокринной систем, слаженность их работы при физических нагрузках и, в конечном счете, может служить обобщенной оценкой физического состо€ни€ организма.
ѕосле измерени€ морфологических и функциональных показателей физического здоровь€ человека проведем анализ полученных результатов. »менно, предполагаетс€ построить прогноз значений параметра PWC с помощью множественной регрессии. ¬ этом случае необходимо вы€снить математическую зависимость физической работоспособности человека от измер€емых морфологических и функциональных показателей.
¬ математическом смысле это можно свести к типичной задаче многофакторного регрессионного анализа. »де€ многофакторного анализа проста. ≈сть морфологические измер€емые показатели человека. Ёто - факторы или независимые переменные (их может быть достаточно много, в нашем случае 12), и есть, завис€ща€ от них, зависима€ переменна€ или отклик ”, т.е PWC. ” каждого человека имеетс€ свой набор значений морфологических показателей и сво€, соответствующа€ этому набору, физическа€ работоспособность PWC.
Ќапомним, что классический многофакторный регрессионный анализ опираетс€ на некоторую систему постулатов в основном статистического характера.  роме того, предполагаетс€, что это - нормально распределенные случайные величины, поскольку отклонени€ от среднего равноверо€тны и в ту и другую сторону. “ака€ основа позвол€ет благополучно довести до числа процесс получени€ оценок регрессионных коэффициентов и осуществить проверки основных статистических гипотез об уравнении регрессии, его коэффициентах и прогнозируемых значени€х отклика. ¬ рамках этой гипотезы можно предположить, что отклик (PWC) св€зан с морфологическими и функциональными показател€ми (факторами) соотношением
”=Ѕ0 +Ѕ1’1+¬2’2 +. ..+Ѕп’п +е, (1)
где ” - отклик (зависима€ переменна€), ¬о - оценка посто€нной составл€ющей, ¬; - /-ый
коэффициент множественной регрессии (/ = п), X/ - /-а€ независима€ переменна€, е -ошибка.
¬ данном случае, дл€ анализа используютс€ двенадцать морфологических и функциональных показателей дл€ группы девочек и мальчиков в возрасте от 14 до 17 лет, представленных в таблице 1.
“аблица 1. ѕараметры дл€ регрессионного анализа
—имвол ќпределение символа —окращение ќпределени€ символов
Y отклик (PWC170- физическа€ работоспособность) кгм/кг в мин PWC170/кг
X! жизненна€ емкость легких , мл ∆≈Ћ
’2 пульс в покое (частота сердечных сокращений, уд/мин) „——
’з систолическое артериальное давление, мм.рт.ст. јƒ-—
’4 диастолическое артериальное давление, мм.рт.ст. јƒ-ƒ
’5 задержка дыхани€, сек √ипокс.
’6 весоростовой коэффициент ( етле), гр/см  етле
’7 гибкость позвоночника, см √ибк.
’8 координаци€ движени€ (бросание в стену теннисных м€чей, количество пойманных м€чей из 6)  оорд
’9 зрительно-двигательна€ реакци€ (тест с падающей линейкой, см) «–ƒ
’10 мышцы плечевого по€са (отжимание) ќтжим
’Д мышцы брюшного пресса (пресс) ѕресс
’12 тест –уфье (приседание) –уфье
ѕо существу, это означает, что одному и тому же набору независимых переменных с полным правом могут соответствовать разные значени€ отклика. ƒействительно, трудно представить двух человек, имеющих одинаковый набор морфологических показателей и одинаковую же физическую работоспособность. “ака€ вариаци€ может иметь место из-за ошибок измерени€, но, прежде всего это, конечно, €вл€етс€ следствием разброса индивидуальных показателей физического состо€ни€ человека. ѕоэтому не приходитьс€ ожидать никакого единственно однозначного уравнени€ св€зи между независимыми переменными и откликом. ќднако можно обнаружить, что средний наблюдаемый отклик при заданных значени€х независимых переменных будет достаточно устойчив.
ѕоскольку точность определени€ среднего значени€ выборки растет с ростом объема выборки, то точность определени€ коэффициентов регрессионной модели растет с увеличением числа экспериментов, которое не может быть меньше, чем число коэффициентов требующих
определени€.
“еперь уравнение (1) можно записать дл€ произвольного отклика в виде
” = Џ0 + №1’1 + Џ2 ’2 + ... + Џп’п + в (2)
из которого следует, что дл€ любого набора значений X соответствующее значение ” состоит из величины Џ0 + Џ1х1 +Џ2х2 +...+№пхп + в, с учетом которой любой индивидуальный ” получает возможность не попасть на поверхность регрессии, олицетвор€ющей собой набор средних значений ”.
«адачу по построению первого приближени€ многофакторной регрессионной модели можно считать законченной, если по результатам экспериментов получены оценки коэффициентов уравнени€ (2) Џ0,...,Џп.
¬ литературе по регрессионному анализу [1-7] достаточно подробно описан матричный подход и нахождению оценок коэффициентов регрессионной модели. ¬ведем следующие обозначени€:
у- вектор столбец наблюдений, размерность ш*1;
х - матрица независимых переменных, размерность ш*п;
Џ - вектор столбец параметров, подлежащих оцениванию, размерность п*1;
е - вектор столбец ошибок, размерность ш*1;
ш - число экспериментов;
п - число коэффициентов, подлежащих оцениванию;
“огда линейную модель [1-7], подлежащую оцениванию на основе экспериментальных данных, можно записать в форме
” = ’¬ + ≈. (3)
»спользу€ метод наименьших квадратов [1-6], получаем
¬ = (’“’)-1 ’“”, (4)
где ’“ - транспонированна€ матрица независимых переменных, (’“ X)-1- обратна€ матрица, ” -вектор наблюдений.
“аким образом, име€ результаты многократного эксперимента (ш >п), можно определить коэффициенты №∞, №1з ... , №п. ¬еличина коэффициентов указывает степень вли€ни€ того или иного фактора на отклик, иными словами на зависимость PWC от морфологических и функциональных показателей человека.
—огласно процедуре множественного регрессионного анализа, в первую очередь, необходимо знать как каждый из независимых параметров х; коррелирует с зависимым параметром PWC [1-7]. ќценивать эту коррел€цию предлагаетс€ с помощью линейной регрессии, описывающей зависимость между параметром х; и параметром PWC. ѕосле оценки зависимости в виде линейной регрессии между каждым параметром х; и параметром PWC можно высказать качественные суждени€ о характере этих зависимостей.
2. –егрессионный анализ дл€ шестнадцати летних мальчиков
–ассмотрим приведенные результаты анализа дл€ 120-ти шестнадцатилетних мальчиков. Ќа рис 1 в качестве примера приведен результат расчета линейной регрессии между независимым параметром теста –уфье (приседание) и зависимым параметром PWC (PWC170/кг).
фиседание)
–ис. 1. “очечна€ диаграмма дл€ физической работоспособности и теста –уфье (30
приседаний за 45 сек)
Ќа рис 1 приведены точечна€ диаграмма, в которых можно рассмотреть линейную регрессию между независимым параметром приседани€ и зависимым параметром PWC (PWC170/кг). ќчевидно, что имеет отрицательна€ линейна€ зависимость между этими параметрами. —тепень вли€ни€ конкретного независимого параметра х; оцениваетс€ значением коэффициента детерминации я . ќказываетс€, что дл€ параметра х12 (приседание) значение коэффициента детерминации я составл€ет всего 23%. ƒругими словами, вли€ние независимого параметра теста –уфье (х12) на зависимый параметр PWC €вл€етс€ слабым. јналогично были получены зависимости между остальными 11 морфологическими и функциональными параметрами и параметром PWC.
—лаба€ св€зь коррел€ции между PWC и независимыми параметрами (таб.2) не €вл€етс€ существенными параметрами. Ѕыла вычислена коррел€ционна€ зависимость между перечисленными выше морфологическими и функциональными параметрами. ѕриведены результаты коррел€ционной матрицы и оценки коррел€ционных зависимостей между рассматриваемыми параметрами в таблице 2.
“аблица. 2. “аблица коррел€ционной матрицы дл€ всех показателей 16 летних мальчиков
∆≈ Ћ „— — јƒ-— јƒ-ƒ √ипо кс.  ет ле √иб к.  оо рд «–ƒ ќтж им ѕре сс –уф ье PWC170 /кг
∆≈Ћ 1,00 0
„—— 0,01 3 1,00 0
јƒ-— 0,32 8 0,12 3 1,00 0
јƒ-ƒ 0,26 0 0,12 2 0,40 2 1,00 0
√ипокс. 0,27 5 0,09 4 0,01 3 0,08 3 1,000
 етле 0,34 6 0,21 1 0,33 1 0,17 1 -0,101 1,00 0
√ибк. 0,03 9 0,07 9 0,12 7 0,17 8 0,036 0,01 7 1,00 0
 оорд 0,02 3 0,02 6 0,07 0 0,05 9 0,131 0,02 3 0,01 7 1,00 0
«–ƒ 0,16 0 0,18 0 0,08 8 0,07 7 0,151 0,07 2 0,17 1 0,21 2 1,00 0
ќтжим 0,00 9 0,01 7 0,07 1 0,23 9 -0,023 0,08 3 0,19 5 0,06 3 0,18 7 1,000
ѕресс 0,05 4 0,04 6 0,08 7 0,18 9 0,020 0,05 6 0,11 1 0,19 2 0,00 7 0,521 1,00 0
–уфье 0,13 6 0,08 0 0,00 6 0,08 5 0,098 0,08 6 0,01 2 0,14 6 0,00 9 0,066 0,07 3 1,00 0
PWC170 /кг 0,08 3 0,25 1 0,12 6 0,04 7 -0,003 0,12 6 0,00 1 0,12 2 0,07 8 0,073 0,02 8 0,48 4 1,000
ѕосле рассмотрени€ таблицы коррел€ции запускаем регрессионный анализ (использовано программное обеспечение MS Excel и SPSS). ¬ этом случае после вычислени€ результатов регрессионного анализа, в первую очередь нужно проверить, что полученна€ модель €вл€етс€ статистически значимой. ƒл€ этого можно использовать метод дисперсионного анализа. Ќапомним, что дисперсионный анализ позвол€ет вы€вить зависимости в экспериментальных данных путЄм исследовани€ значимости различий в средних значени€х. ¬ случае линейной регрессии используютс€ пон€ти€ общей дисперсией, объ€сненной дисперсии и необъ€сненной дисперсии (рис 2). ≈сли она существенно уменьшает значение необъ€сненной дисперсии, можем сказать, что полученна€ в эксперименте лини€ регрессии €вл€етс€ полезным.
–ис.2. ƒиаграмма дл€ объ€снени€ о дисперсии регрессионной модели
¬ы€снить полезность линии регрессии можно с помощью величины F - статистики. F -статистика €вл€етс€ отношением объ€сненной дисперсии (среднеквадратическа€ регресси€) и необъ€сненной дисперсии (среднеквадратическа€ ошибка). ¬ этом случае объ€сненную дисперсию или среднеквадратическую регрессию (MSR - Mean Squared Regression) можно вычислить по формуле [2-7]
I (y - y )2
MSR = -i=1
к
(5)
Ќеобъ€сненна€ дисперси€ или среднеквадратическа€ ошибка (MSE- Mean Squared Error) вычисл€ет по формуле [2-7]
≈ (у - у )2
MSE = -. (6)
n - к -1
«десь MSR - среднеквадратическа€ регресси€ (объ€сненна€ дисперси€), MSE -
среднеквадратическа€ ошибка (необъ€сненна€ дисперси€), yi - i-а€ зависима€ переменна€ PWC (
i = 0,....,n), у, - г-ое предсказанное значение параметра (* = n), ” - среднее значение зависимой переменной, к - количество регрессоров, n - количество наблюдени€.
¬еличину F- статистику можно вычислить по формуле [2-7]
n /
≈(у* - у )2/к MSR
F =-i=l- /- (или) F = MSR. (7)
≈≈ (у - у )2/(n - к -1) MSE
i=1 /
ƒл€ проверки значимости модели будем использовать F таблицы распределени€. ¬ нашем случае, использование F - критери€ сводитс€ к сравнению величины F - статистики со значением F - критерий в F - таблице. ¬ случае если вычисленна€ величина F - статистики больше или равна критической величине F - критерий в F - таблице, то можно сделать вывод, что регрессионна€ модель €вл€етс€ статистически значимой [2-7, 9]. ¬ таблице 3 приведены результаты дисперсионного анализа.
“аблица. 3. ƒисперсионный анализ (ANOVA) дл€ 16 - летних мальчиков
—тепень свободы —умма квадратов ƒисперси€ на степень свободы (среднее квадратов) F «начимость F
‘акторна€ (–егрессии) 12 404,6196 33,7183 5,7168 0,0000
ќстаточна€ 107 631,0991 5,8981
ќбща€ 119 1035,7187
“аким образом, дл€ множественной регрессионной модели шестнадцатилетних мальчиков вычисленна€ Ѕ- статистика равна 5,7168, и из Ѕ-таблицы распределени€ Ѕ - критери€ равна 1,8337 [9]. ќтсюда следует, что величина Ѕ - статистики больше чем, величина Ѕ - критери€ в Ѕ - таблице распределени€, и что регрессионна€ модель €вл€етс€ статистической значимой и полезной.
ѕопробуем количественно оценить, насколько полезна полученна€ множественна€ регрессионна€ модель дл€ прогнозировани€ параметра PWC. ƒругими словами, какую часть в величине прогноза параметра PWC обосновывает множественна€ регрессионна€ модель.
ƒл€ указанного количественного оценивани€ полезности полученной множественной
регрессионной модели была сделана попытка воспользоватьс€ коэффициентом детерминации я [2-7]. ƒл€ того чтобы была возможность сравнивать модели с разным числом факторов, так чтобы число факторов (регрессоров) не вли€ло на значение я2, обычно используетс€ скорректированный
коэффициент детерминации.  оэффициент детерминации я и скорректированный коэффициент
2
детерминации я а можно вычислить по формулам
I є - ”)2
я2 = -, (8)
I (”, - ”)2
'=1
я2в = 1 - ((ЧгЧ-)(1 - я2)), (9)
п - к -1
где ”' - 7-ое значение зависимой переменной PWC (' = 0,....,п), ”' - 7-ое предсказанное
значение параметра PWC (' = 0,...., п), ”' - среднее значение зависимой переменной PWC, к -количество регрессоров, п - количество наблюдений.
ƒл€ шестнадцатилетних мальчиков, вычисленное значение коэффициента детерминации я равно 0,39 (или 39%), а скорректированного коэффициента детерминации я а равно 0,32 (или 32%). “аким образом, в величине прогноза параметра PWC, многофакторна€ модель обосновывает 32% дисперсии.
ќценим качество модели с помощью стандартной ошибки оценки Ѕ , вычисл€емой по формуле [2-7]:
& =
I (”, - ”, )2
(10)
п - к -1
ƒл€ шестнадцатилетних мальчиков, вычисленный результат значени€ стандартной ошибки оценки Ѕ равен 2,428. ¬ таблице 4 приведены выводы регрессионного анализа.
“аблица. 4. –егрессионный вывод дл€ 16 - летних мальчиков
ћодель я я2 я2а —тандартна€ ошибка оценки
16 мальчиков 0,625 0,390 0,322 2,428
¬ таблице 5 иллюстрированы вычисленные результаты коэффициентов регрессии, величины т-статистики и т.д. ѕо таблице можем создать регрессионную модель, использу€ соотношение (2). ¬ этом случае провер€ютс€ вычисленные величины коэффициентов регрессии, которые €вл€ютс€ статистическими значимыми. ƒл€ ответа на поставленный вопрос
использовались следующие показатели: стандартна€ ошибка каждого из коэффициентов регрессии, т - статистика и – - значение (–-уа1ие), которые очень важны дл€ проверки гипотез значимости каждого из коэффициентов. ƒл€ проверки гипотез на самом деле нужно знать значение т -статистики каждого коэффициента, поскольку т - статистика позвол€ет проверить значимости каждого из коэффициентов регрессии [1-7]. ¬ частности, т - статистику дл€ каждого коэффициентов можно вычислить с помощью стандартной ошибки каждого из коэффициента регрессии. —ледовательно, в первую очередь нужно вычислить стандартные ошибки коэффициентов регрессии. ƒл€ вычислени€ стандартной ошибки коэффициентов №о, Џх, ... , №ц используетс€ формула [1-7]
^ (ь) = у/ .()Ч1, (11)
X ∆
где = -ЧЧ, (12)
п Ч к Ч 1
8(№) - стандартна€ ошибка регрессионных коэффициентов, (’т X)Чобратна€ матрица, у ^
- измер€емые значени€ PWC (зависима€ переменна€), у - г-ое предсказанное значение параметра PWC, (/=1,...,п), к - степень свободы регрессии или число регрессоров, п - количество наблюдений.
«атем можно вычислить т-статистику дл€ каждого коэффициента по формуле [1-6]
/7 „ №
*(№ ) = V' (13)
где *(№) - т-статистика одного коэффициента, № - коэффициент регрессии, 8№ - стандартна€ ошибка
коэффициента регрессии.
ƒл€ проверки гипотез значимости коэффициента будем использовать критерий —тьюдента. ¬ нашем случае использование критери€ —тьюдента (“-критери€) сводитс€ к сравнению значении т-статистики со значение “-критерий в “-таблице [2-8]. ¬ случае если вычисленное т-значение больше или равно критическому значению “ в “-таблице, можно сделать вывод, что регрессионный коэффициент €вл€етс€ статистическим значимым.
¬ таблице 5 значени€ т-статистики (1;Џ1,Џ2,Џ3,Џ6,Џ12) по сравнению со значением “-критери€ (1табл = 1,645 (п=120, а=0,05%)) получаютс€ большими. —оответственно коэффициенты т-статистики €вл€ютс€ статистическими значимыми. » коэффициенты т-статистики соответствуют следующим физиологическим параметрам: жизненна€ емкость легких, частота сердечных сокращений, систолическое артериальное давление, весоростовой коэффициент и тест –уфье (приседание). “акже рассмотрена проверка мультиколлинеарности в таблице 5. ¬ этом случае
мультиколлинеарность представл€ет собой статистический феномен, в котором два или более регрессоров сильно коррелируют в модели множественной регрессии. ƒл€ этого провер€етс€ мультиколлинеарность с использованием VIF (Variance Inflation Factor). ≈сли VIF больше п€ти, то мультиколлинеарность существует в модели, котора€ €вл€етс€ не правильной. ¬се величины VIF меньше п€ти. ѕоэтому мультиколлинеарность отсутствует в модели. ƒл€ вычислени€ VIF можно использовать формулу [7]
^ S2Xj (п -1)Sb2
VIF =-XS2-' (14)
ост
где VIF - отклонение коэффициента инфл€ции (Variance Inflation Factor), Sx - стандартное отклонение xj , Sb - стандартна€ ошибка коэффициента регрессии, S2ocm - средне-квадратическа€ остаточна€.
ƒл€ группы из 120 мальчиков шестнадцать лет были вычислены коэффициенты bo .. b12 с использованием формулой (4). ¬ таблице 5 приведены вычисленные результаты стандартных ошибок коэффициентов регрессии, т-статистики , P-value и коллинеарность дл€ 16 - летних мальчиков.
“аблица. 5.  оэффициенты регрессионного анализа, стандартные ошибки коэффициентов регрессии, т - статистики , P-value и коллинеарность дл€ 16 - летних мальчиков
коэффициенты стандартные ошибки т-статистики P-value  оллинеарность статистика
толерантность VIF
 онстант bo= 19,7322 3,3330 5,9203 0,0000
∆≈Ћ bi= 0,0007 0,0004 1,8409 0,0684 0,691 1,448
„—— b2= -0,0634 0,0179 -3,5453 0,0006 0,896 1,116
јƒ-— b3= 0,0388 0,0206 1,8862 0,0620 0,727 1,375
јƒ-ƒ b4= -0,0070 0,0305 -0,2296 0,8188 0,739 1,352
гипокс. b5= -0,0054 0,0104 -0,5245 0,6010 0,857 1,167
 етле b6= -0,0089 0,0053 -1,6870 0,0945 0,747 1,338
гибк. b7= -0,0066 0,0297 -0,2234 0,8237 0,911 1,098
коорд b8= 0,0507 0,0585 0,8681 0,3873 0,936 1,068
«–ƒ b9= 0,0050 0,0312 0,1598 0,8733 0,844 1,185
отжим bi0= 0,0379 0,0291 1,3024 0,1956 0,662 1,510
пресс b11= 0,0077 0,0443 0,1744 0,8619 0,700 1,429
–уфье bi2= -0,6635 0,1015 -6,5345 0,0000 0,940 1,064
”равнение дл€ предсказани€ значени€ параметра PWC согласно таблице 5 и формуле (2) имеет вид
y = 19.7322 + 0.0007( ∆≈Ћ ) - 0.0634(„——) + 0.0388( јƒ— ) - 0.0070( јƒƒ ) Ч0.0054(√ипокс) - 0.0089( етле) - 0.0066(√ибк) + 0.0507( оорд) (15)
+0.0050(«–ƒ) + 0.0379(ќтжим) + 0.0077(ѕресс) - 0.6635(–уфье),
где y - предсказанное значение параметра PWC, xi - независимые переменные (таблица 1).
¬ этом случае без использовани€ незначимых параметров перезапускаем регрессию. ѕредлагаетс€, что модель со всеми предикторами называетс€ полной моделью. ј модель, котора€ содержит лишь некоторые из этих предсказателей, называетс€ уменьшенной моделью. ѕосле перезапуска регрессии рассматриваетс€ значимость модели.
¬ таблице 6 видно, что F - статистика равна 20,4478 и нужно сравнить с F критерий в F таблице распределени€. «начение F-статистики (20,4478) больше чем, значение F-ибл. (2,682). —оответственно, будем считать, что можно отвергнуть нулевую гипотезу и уменьшенна€ регрессионна€ модель €вл€етс€ статистической значимой.
 роме того, дл€ изменчивости модели рассмотрим вычисленное значение скорректированного коэффициента детерминации R2a. ¬ таблице 7 показано, что значение R2a равно 0,328 (32,8%), уравнение регрессии составл€ет 32,8% дисперсии результативного признака.
¬ таблице 8 представлены вычисленные регрессионные коэффициенты дл€ модели, с помощью которых получаетс€ регрессионна€ модель (16), использу€ соотношение (4). ѕосле этого выполн€етс€ проверка гипотезы дл€ коэффициента регрессии. ¬ таблице 8 т - статистики всех коэффициентов b больше 1табл = 1,645 (n=120, а=0,05%). —ледовательно, все коэффициенты €вл€ютс€ статистическими значимыми. ѕровер€ютс€ мультиколлинеарности дл€ уменьшенной модели (таб.8), все величины VIF меньше чем п€ть. —оответственно, мультиколлинеарность отсутствует в модели. ¬ таблицах 6, 7 и 8 приведены результаты дл€ уменьшенной регрессионной модели.
“аблица. 6. –езультаты дисперсионного анализа (ANOVA) дл€ 16 -летних мальчиков
—тепень свободы —умма квадратов ƒисперси€ на степень свободы (среднее квадратов) F «начимость F
‘акторна€ (–егрессии) 3 358,2573 119,4191 20,4478 0,0000
ќстаточна€ 116 677,4613 5,8402
ќбща€ 119 1035,7187
“аблица. 7. –езультаты регрессионной оценки дл€ 16 - летних мальчиков
ћодель я я2 я2а —тандартна€ ошибка оценки
16 мальчиков 0,588 0,345 0,328 2,416
“аблица. 8.  оэффициенты регрессионного анализа, стандартные ошибки коэффициентов регрессии, т-статистики , –-уа1ие и коллинеарность дл€ 16 - летних мальчиков
коэффициен ты стандартные ошибки т-статистики –- уа1ие  оллинеарность статистика
“олерантность ”Ў
 онстант №0= 19,7489 2,6759 7,3801 0,0000
„—— №1= -0,0699 0,0170 -4,1060 0,0001 0,979 1.022
јƒ-— №2= 0,0389 0,0176 2,2118 0,0289 0,985 1.016
–уфье №3= -0,6590 0,0974 -6,7667 0,0000 0,993 1.007
”равнение дл€ предсказани€ значени€ параметра PWC согласно таблице 8 и формуле (2) имеет вид
у = 19.7489 - 0.0699(„——) + 0.0389( јƒ—) - 0.6590(–уфье). (16)
ѕо результатам сравнени€ полной модели с уменьшенной моделью (17) оказываетс€, что уменьшенна€ модель €вл€етс€ лучше полной модели.
(∆ - )/а
т-г _ V полна€ уменьшенна€' 1
* = є® (17)
полна€
«десь ЅЅя - сумма квадратов регрессии, ћЅЅ - среднеквадратическа€ остаточна€, д - разница между количествами регрессоров из двух модели.
«.јнализ остатков
ѕроанализированы остатки уменьшенной модели. ƒл€ проверки анализа остаток рассматриваетс€ стандартизированна€ остаточна€ гистограмма, в которой показаны остатки нормального распределени€ и обща€ форма €вл€етс€ приемлемой. ѕримен€€ результаты тестов по математическому подходу  олмогорова-—мирнова и 8№ар1го^11к (таб.9) то есть величины значимости больше чем 0,05, почин€ютс€ остатки по нормальному распределению. Ќа рис. 3 приведены результаты проверки нормальности остатков.
–ис 3. √истограмма стандартизированных остатков “аблица. 9. –езультаты тестов  олмогорова —мирнова и 8№ар1го^ѕк
 олмогоров-—мирнов «№арго^ѕк
—татистика «начимость. —татистика «начимость
—тьюдентизированные остаточные 0,056 120 * 0,200 0,991 120 0,651
—тандартизированные остаточные 0,055 120 * 0,200 0,991 120 0,665
–ассмотрим привертку гетероскедастичность модели. ѕод гетероскедастичностью понимают неравные дисперсии остаток модели (проблема в дисперсии остатков). ¬ противном случае гетероскедастичность отсутствует гомоскедастичность, т.е равные дисперсии остаток. ћожно проверить гетероскедастичность с использованием теста Ѕройша ѕагана, теста √олдфелда, ”айта,  оэнкера и.т.д. –ассматрива€ точечную диаграмму по диаграмме 4 дл€ проверки гетероскедастичности остатков, в этой остаточной точечной диаграммы отсутствует шаблон. ≈сли проверить гетероскедастичность с помощью теста Ѕройша ѕагана, т.е по математическому подходу, остаточный квадрат от регрессионной модели становитс€ зависимой переменной. » запускаем регрессионный анализ с остаточным квадратом и регрессорами уменьшенной модели. ѕолучена величина Ѕройша ѕагана по умножению количества наблюдений на полученный коэффициент детерминации. ѕосле вычислени€, сравнива€ величину Ѕройша ѕагана с критерием хи-квадрат в таблице распределени€ хи-квадрата, получим величину Ѕройша ѕагана = 3,442 и критерий хи-квадрат в таблице = 7,815. ќчевидно, что величина Ѕройша ѕагана меньше критери€ хи-квадрат, что означает, отсутствует гетероскедастичность в уменьшенной регрессионной модели. Ќа рис 4 приведена точечна€ диаграмма стандартизированных остатков дл€ проверки гетероскедастичности.
“очечна€ диаграмма стандартизированных остатков
¬ведем автокоррел€цию, т.е статистическа€ взаимосв€зь между последовательност€ми величин одного р€да, вз€тых со сдвигом, например, дл€ случайного процесса со сдвигом по времени. ¬ этом случае, используем тест ƒарбина ”отсона дл€ обнаружени€ автокоррел€ции. ≈сли остаточный et св€зан с наблюдением в момент времени T, можно записать тест статистики вида
d = (18) ≈ e2t
Lut-1 t
где “-число наблюдений, et - остатки регрессионной модели.
ƒл€ проверки положительной автокоррел€ции на значении а тестова€ статистика d по сравнению с нижним и верхним критическим значением из таблицы ƒарбина ”отсона (dL,a and du,a) должна удовлетвор€ть услови€м:
Х если d <dL, при а=0,05, имеетс€ статистические доказательства, что ошибки терминов положительно автокоррелированы;
Х если d >du, при а=0,05, отсутствуют статистические доказательства того, что ошибки терминов положительно автокоррелированы;
Х если dL, а < d < du, при а=0,05, тест €вл€етс€ не решенным.
“аким образом, по тесту ƒарбина ”отсона d = 2,057 и в таблице указываетс€ d нижн€€ =1,584 , d верхн€€ = 1,665 дл€ трех степеней свободы. ѕоэтому величина ƒарбина ”отсона d > d верхн€€ и можно считать, что положительна€ автокоррел€ци€ отсутствует в модели.
¬ результате можно сделать вывод, что по проверке гипотеза данной статьи (F-тест, t-тест, и.т.д) модель множественной регрессии физической работоспособности шестнадцатилетних мальчиков €вл€етс€ полезной и найдено применение дл€ оценки состо€ни€ здоровь€ подростков.
ƒаже независимые и зависимые переменные имеют слабую коррел€цию. ƒругие регрессионные модели дл€ 14 -, 15 - и 17 - летних мальчиков также позвол€ют получить аналогичные результаты.
3. «аключение
ƒл€ прогнозировани€ физического здоровь€ мальчиков выбран метод множественного регрессионного анализа статистики, который позвол€ет проводить анализ многофакторных статистических моделей. –азработаны математические и статистические модели дл€ прогнозировани€ физического здоровь€ мальчиков в возрасте от четырнадцати до семнадцати лет. ќпределены значимые параметры дл€ математических моделей прогнозировани€, с помощью которых можно быстро и эффективно оценить физическое здоровье мальчиков в возрасте от четырнадцати до семнадцати лет. ѕо результатам регрессионного анализа регрессионные модели мальчиков в возрасте от четырнадцати до семнадцати лет €вл€ютс€ статистически значимыми и могут быть использованы при оценке состо€ни€ здоровь€. Ќайдены значимые параметры дл€ оценки физической работоспособности прогнозировани€ физического здоровь€ мальчиков в возрасте от четырнадцати до семнадцати лет.
—писок литературы
1. ¬апник ¬.Ќ. ¬осстановление зависимостей по эмпирическим данным. ћ.: Ќаука, 1979.448с.
2. Edelmann-Nusser J., Hohmann A., Bugner J., Witte K. Modeling performance upon neural networks // In: Current trends in performance analysis: World Congress of Performance Analysis of Sport. Aachen: Shaker, 2009. P.349-357.
3.  орнеева ».“., ѕол€ков —.ƒ., √оготова ¬.Ћ., ѕетричук —.¬., ƒвор€ковска€ √.ћ., ƒвор€ковский ».»., »зотова ».Ќ. ћатематические подходы оценки адаптации кардиогемодинамики в зависимости от активности клеточных дегидрогеназ лимфоцитов крови у юных спортсменов // Ћечебна€ физкультура и спортивна€ медицина. 2009. є 9. —. 28-32.
4. √ор€инов ¬.Ѕ., ѕавлов ».¬., ÷веткова √.ћ., “ескин ќ.». ћатематическа€ статистика: учеб. дл€ вузов. 2-е изд., стер. ћ.: »зд-во ћ√“” им. Ќ.Ё. Ѕаумана, 2002. 424 с. (—ер. ћатематика в техническом университете; вып. XVII).
5. Rawlings J.O., Pentula S.G., Dickey D.A. Applied regression analysis. A research tool. 2nd ed. Springer-Verlag, 1998. 659 p. (Ser. Springer texts in statistics).
6. Freedman D.A. Statistical Models: Theory and Practice. Cambridge University Press, 2005. 414 p.
7. Kam C.D., Franzitsi Jr. R.J. Modeling and interpreting interactive hypotheses in regression analysis. University of Michigan Press, 2009. 168 p.
8. Chatterjee S., Hadi A.S. Regression analysis by example. 4th ed. Wiley, 2006. 366 p. (Wiley series in probability and statistics).
rd
9. Pedhazur E.J. Multiple regression in behavioral research: Explanation and prediction. 3 ed. Thomson Learning, 1997. 1072 p.
10. Hoffmann J.P. Linear Regression Analysis: Assumptions and Applications. Department of Sociology Brigham Young University, 2005. 259 p.
11. Six sigma online. –ежим доступа: http://sixsigmaonline.ru/load/24-1 -0-210 (дата обращени€ 20.11.2013).
12. Google document “-таблица. –ежим доступа:
https://docs.google.com/viewer?a=v&q=cache:1boQad1pHCQJ:www.sj su.edu/faculty/gerstman/StatPrim er/t-table.pdf (дата обращени€ 20.11.2013).
13. Statistics Online Computational Resource (SOCR). –ежим доступа: http://socr.ucla.edu/Applets.dir/F_Table.html (дата обращени€ 20.11.2013)
Ќародный —портѕарк. –ежим доступа: http://sportpark.ru/ (дата обращени€ 20.11.2013).
SCIENTIFIC PERIODICAL OF THE BAUMAN MS TU
SCIENCE and EDUCATION
EL є FS77 - 48211. є0421200025. ISSN 1994-0408
electronic scientific and technical journal
Research and analyze of physical health using multiple regression analysis
# 01, Januare 2014
DOI: 10.7463/0114.0696028
T.S. Kyi.
Bauman Moscow State Technical University, 105005, Moscow, Russian Federation
kyithar82@gmail .com
This paper represents the research which is trying to create a mathematical model of the "healthy people" using the method of regression analysis. The factors are the physical parameters of the person (such as heart rate, lung capacity, blood pressure, breath holding, weight height coefficient, flexibility of the spine, muscles of the shoulder belt, abdominal muscles, squatting, etc..), and the response variable is an indicator of physical working capacity. After performing multiple regression analysis, obtained useful multiple regression models that can predict the physical performance of boys the aged of fourteen to seventeen years. This paper represents the development of regression model for the sixteen year old boys and analyzed results.
Publications with keywords: correlation, dispersion analysis, regression model, t - statistic, F-statistic, coefficient of determination
Publications with words: correlation, dispersion analysis, regression model, t - statistic, F-statistic, coefficient of determination
References
1. Vapnik V.N. Vosstanovlenie zavisimostey po empiricheskim dannym [Restore dependency on empirical data]. Moscow, Nauka, 1979. 448 p. (in Russ.)
2. Edelmann-Nusser J., Hohmann A., Bugner J., Witte K. Modeling performance upon neural networks. In: Current trends in performance analysis: World Congress of Performance Analysis of Sport. Aachen, Shaker, 2009, pp.349-357.
3. Korneeva I.T., Polyakov S.D., Gogotova V.L., Petrichuk S.V., Dvoryakovskaya G.M., Dvoryakovskiy I.I., Izotova I.N. [Mathematical approaches of estimation adaptations of cardiohemodynamics in dependence on enzymatic activity of lymphocytes of blood of young sportsmen]. Lechebnaya fizkul'tura i sportivnaya meditsina, 2009, no. 9, pp. 28-32. (in Russ.)
4. Goryainov V.B., Pavlov I.V., Tsvetkova G.M., Teskin O.I. Matematicheskaya statistika [Mathematical statistics]. Moscow, Bauman MSTU Publ., 2002. 424 p. (Ser. Matematika v tekhnicheskom universitete [Mathematics at the technical University]; iss. 17). (in Russ.)
5. Rawlings J.O., Pentula S.G., Dickey D.A. Applied regression analysis. A research tool. 2nd ed. Springer-Verlag, 1998. 659 p. (Ser. Springer texts in statistics).
6. Freedman D.A. Statistical Models: Theory and Practice. Cambridge University Press, 2005. 414 p.
7. Kam C.D., Franzitsi Jr. R.J. Modeling and interpreting interactive hypotheses in regression analysis. University of Michigan Press, 2009. 168 p.
8. Chatterjee S., Hadi A.S. Regression analysis by example. 4th ed. Wiley, 2006. 366 p. (Wiley series in probability and statistics).
rd
9. Pedhazur E.J. Multiple regression in behavioral research: Explanation and prediction. 3 ed. Thomson Learning, 1997. 1072 p.
10. Hoffmann J.P. Linear Regression Analysis: Assumptions and Applications. Department of Sociology Brigham Young University, 2005. 259 p.
11. Six Sigma online. Available at: http://sixsigmaonline.ru/load/24-1-0-210 , accessed 20.11.2013. (in Russ.)
12. Google document T-tablitsa [Google document T-table]. Available at:
https://docs.google.com/viewer?a=v&q=cache:1boQad1pHCQJ:www.sjsu.edu/faculty/gerstman/StatPrim er/t-table.pdf , accessed 20.11.2013.
13. Statistics Online Computational Resource (SOCR). Available at: http://socr.ucla.edu/Applets.dir/F_Table.html (дата обращени€ 20.11.2013)
14. Narodnyy SportPark [Halyk Sportpark]. Available at: http://sportpark.ru/ , accessed 20.11.2013. (in Russ.)

пїњ