Итог: 50 100
X = (5 6 + 6 3 + 7 13 + 8 11 + 9 8 + 10 9) / 50 = 7,78 (ч/сут)
NMe = (n+1) / 2 Me = 8 (ч/сут)
Мо = 7 (ч/сут)
D = (xi – x)2 i / I
D = 2,4 ((ч/сут)2)
bx = 1,55 (ч/сут)
V = (1,55 / 7,78) 100% = 19,9%
R = 10 – 5 = 5 (ч/сут)
Вывод: среднее значение часов сна 7,78 ч/сутки. Т. к. коэффициент вариации является величиной незначительной (19,9%), то такое среднее значение часов сна является типичным для данной совокупности. Наиболее распространённым является количество часов сна 7 ч/сутки. Количество студентов, которые спят больше 8 ч/сутки равно количеству студентов, спящих меньше 8 ч/сут.
Группировка 6
Таблица 7
пол Число студентов, чел % к итогу Fi
Ж 33 66 30
М 17 34 50
Итог: 50 100
Вывод: из таблицы видно, что большинство опрошенных студентов женского пола.
Группировка 7
Таблица 8
Нравятся ли занятия на 1 курсе Число студентов, чел % к итогу Fi
Да 30 60 30
Нет 20 40 50
Итог: 50 100
Вывод: из таблицы видно, что большинству студентов данной совокупности нравились занятия на 1 курсе в академии.
Комбинационные группировки.
Таблица 9
сон Средний балл зачётки Всего
3 3,2 3,5 4 4,2 4,3 4,5 4,6 4,7 4,8
5 0 1 0 2 0 0 0 1 1 1 6
6 0 0 0 0 1 0 0 0 2 0 3
7 1 0 2 1 1 2 2 0 3 1 13
8 0 1 1 1 3 0 2 0 0 1 11
9 1 1 0 2 1 0 2 0 0 1 8
10 2 2 0 0 1 0 2 0 1 1 9
Итог: 4 5 3 6 7 2 8 3 7 5 50
Вывод: из таблицы видно, что наиболее крупные элементы расположены близко к побочной диагонали. Следовательно, зависимость между признаками близка к обратной.
Таблица 10
Посещаемость Средний балл зачётки Всего
3 3,2 3,5 4 4,2 4,3 4,5 4,6 4,7 4,8
[6-10] 2 3 0 0 1 0 0 2 1 0 9
[10-14] 0 0 2 3 1 0 0 0 1 0 7
[14-18] 2 2 1 1 2 1 3 1 1 1 15
[18-22] 0 0 0 2 3 1 5 0 4 4 19
Итог: 4 5 3 6 7 2 8 3 7 5 50
Вывод: из таблицы видно, что наибольшие элементы расположены близко к главной диагонали. Следовательно, зависимость между признаками близка к прямой.
Аналитические группировки.
Группировка 1
Таблица 11
Введём обозначения:
1. неудовлетворительная подготовка к занятиям [0-3]
2. удовлетворительная [3-6]
3. хорошая [6-9]
4. отличная [9-12]
Подготовка к занятиям Число студентов, чел Средний балл зачётки за 1 курс
Неудовлетворительная 21 3,7
Удовлетворительная 18 4,3
Хорошая 8 4,4
Отличная 3 4,5
Всего: 50
Вывод: из таблицы видно, что зависимость между фактором и признаком существует.
Группировка 2
Таблица 12
Введём обозначения:
1. 1/3 всех занятий [6-12] ч/нед
2. половина [12-18] ч/нед
3. все занятия [18-22] ч/нед
Посещаемость занятий Число студентов, чел Средний балл зачётки за 1 курс
1/3 всех занятий 13 3,3
половина 19 4,0
все занятия 18 4,5
Всего: 50
Вывод: из таблицы видно, что зависимости между признаком-фактором и признаком-результатом явной нет.
Группировка 3
Таблица 13
Самообразование Число студентов, чел Средний балл зачётки за 1 курс
Посещали доп. курсы 25 4,2
Не посещали доп. курсы 25 4,0
Вывод: не наблюдается явной зависимости между признаком-фактором и признаком результатом.
Лабораторная работа № 2
Тема: Корреляционный анализ, множественная линейная регрессия.
Цель: выбор оптимальной модели многофакторной регрессии на основе анализа различных моделей и расчитан для них коэффициентов множественной детерминации и среднеквадратических ошибок уравнения многофакторной регрессии.
Корреляционная матрица
Таблица 1
0 1 2 3 4
0 1 0,572 0,115 0,486 0,200
1 0,572 1 0,218 0,471 -0,112
2 0,115 0,218 1 0,452 -0,048
3 0,438 0,471 0,452 1 -0,073
4 -0,2 -0,112 -0,048 -0,073 1
Где х0 – средний балл зачётки (результат), х1 – посещаемость занятий, х2 – самообразование (доп. курсы), х3 – подготовка к семинарским занятиям, х4 – сон.
Введём обозначения признаков-факторов: 1 – посещаемость занятий на 1 курсе (ч/нед); 2 – самообразование (ч/нед); 3 – подготовка к семинарским и практическим занятиям (ч/нед); 4 – сон (ч/сут); 0 – средний балл зачётки по итогам экзаменов за 1 курс.
Расчётная таблица для моделей многофакторной регрессии.
Таблица 2
Модель многофакторной регрессии R2 E2
1-2-3-4 0,39 0,45
1-2-3 0,37 0,46
2-3-4 0,23 0,51
1-3-4 0,38 0,45
1-2 0,33 0,47
1-3 0,36 0,46
1-4 0,35 0,47
2-3 0,20 0,52
2-4 0,05 0,56
3-4 0,22 0,51
По трём критериям выбираем оптимальную модель.
1. число факторов минимально (2)
2. max R, R = 0,36
3. min E, E = 0,46
Следовательно, оптимальной моделью является модель 1-3. Значит, признаки-факторы «посещаемость занятий на 1 курсе» и «подготовка к семинарским занятиям» влияют значительнее других факторов на признак-результат.
Среднеквадратическая ошибка уравнения многофакторной регрессии небольшая по сравнению с ошибками, рассчитанными для других моделей многофакторной регрессии.
Составляю для этой модели уравнение регрессии в естественных масштабах.
Х0/1,3 = a + b1x1 + b3x3
Корреляционная матрица.
Таблица 3
0 1 3
0 1,00 0,57 0,48
1 0,57 1,00 0,47
3 0,43 0,47 1,00
t0/1,3 = 1t1 + 3t3
0,57 = 1 + 0,473 0,57 = 1 + 0,47(0,44 – 0,471) 1 = 0,4
0,44 = 0,471 + 3 3 = 0,44 – 0,471 3 = 0,25
t0/1,3 = 0,4t1 + 0,25t3
b1 = (0 / x1) 1 = (0,47 / 4,4) 0,4 = 0,071
b3 = (0 / x3) 3 = (0,79 / 2,68) 0,25 = 0,073
a = x0 – b1x1 – b3x3 = 4,27 – 0,071 16,13 – 0,073 4,08 = 2,8
имеем: х0/1,3 =2,8 + 0,071х1 + 0,073х3 – уравнение линейной множественной регрессии.
R0/1,3 = 1r01 + 3r03
R0/1,3 = 0,4 0,58 + 0,25 0,48 = 0,6
Вывод: коэффициент 1 говорит о том, что признак-результат—средний балл зачётки за 1 курс на 0,4 долю от своего среднеквадратического отклонения (0,4 0,79 = 0,316 балла) при изменении признака-фактора—посещаемости на 1 курсе на одно своё СКО (4,4 ч/нед).
3 – средний балл зачётки изменится на 0,25 долю от своего СКО (0,25 0,79 = 0,179 балла) при увеличении признака-фактора—подготовки к семинарским занятиям на одно своё СКО (2,68 ч/сут).
Т. к. 1 < 3, следовательно фактор 1—посещаемость занятий влияет на средний балл зачётки больше, чем фактор 3—подготовка к занятиям.
R2 говорит о том, что 36% общей вариации значений среднего балла зачётки на 1 курсе вызвано влиянием посещаемости и подготовки к занятиям. Остальные 60% вызваны прочими факторами.
R = 0,58 свидетельствует о том, что между посещаемостью занятий и подготовкой к ним и средним баллом зачётки существует заметная линейная зависимость.
Коэффициент b1 говорит о том, что если посещаемость занятий увеличится на 1 ч/нед, то средний балл зачётки увеличится в среднем на 0,071 балла, при условии неизменности всех остальных факторов. b2 говорит о том, что если подготовка к занятиям увеличится на 1 ч/нед, то средний балл зачётки в среднем увеличится на 0,073 балла.
1 = 0,4 3 = 0,25
r01 = 0,52
r03 = 0,44
r13 = 0,47
Граф связи признаков-факторов: х2 – подготовки к семинарским занятиям, ч/нед; х1 - посещаемости занятий, ч/нед с признаком-результатом х0 – средним баллом зачётки по итогам экзаменов за 1 курс.
1 – мера непосредственного влияния на признак-результат посещаемости занятий.
3 – мера непосредственного влияния подготовки к занятиям на средний балл зачётки.
r01 = 1 + r133, где r01
|
|