The тест хі-квадрат Незалежність оцінює, чи існує зв'язок між категоріями двох змінних. В основному існує два типи випадкових величин, і вони дають два типи даних: числові та категоричні. в Мова програмування R Статистика хі-квадрат використовується для дослідження того, чи відрізняються розподіли категоріальних змінних один від одного. Тест хі-квадрат також корисний під час порівняння підрахунків або кількості категоричних відповідей між двома (чи більше) незалежними групами.
У мові програмування R функція, яка використовується для виконання тесту хі-квадрат chisq.test()> .
Синтаксис:
chisq.test(дані)
константи JavaПараметри:
даних : дані — це таблиця, що містить лічильні значення змінних у таблиці.
Ми візьмемо дані опитування в MASS> бібліотека, яка представляє дані опитування, проведеного серед студентів.
Р
# load the MASS package> library>(MASS)> print>(>str>(survey))> |
>
>
Вихід:
'data.frame': 237 obs. of 12 variables: $ Sex : Factor w/ 2 levels 'Female','Male': 1 2 2 2 2 1 2 1 2 2 ... $ Wr.Hnd: num 18.5 19.5 18 18.8 20 18 17.7 17 20 18.5 ... $ NW.Hnd: num 18 20.5 13.3 18.9 20 17.7 17.7 17.3 19.5 18.5 ... $ W.Hnd : Factor w/ 2 levels 'Left','Right': 2 1 2 2 2 2 2 2 2 2 ... $ Fold : Factor w/ 3 levels 'L on R','Neither',..: 3 3 1 3 2 1 1 3 3 3 ... $ Pulse : int 92 104 87 NA 35 64 83 74 72 90 ... $ Clap : Factor w/ 3 levels 'Left','Neither',..: 1 1 2 2 3 3 3 3 3 3 ... $ Exer : Factor w/ 3 levels 'Freq','None',..: 3 2 2 2 3 3 1 1 3 3 ... $ Smoke : Factor w/ 4 levels 'Heavy','Never',..: 2 4 3 2 2 2 2 2 2 2 ... $ Height: num 173 178 NA 160 165 ... $ M.I : Factor w/ 2 levels 'Imperial','Metric': 2 1 NA 2 2 1 1 2 2 2 ... $ Age : num 18.2 17.6 16.9 20.3 23.7 ... NULL>
Наведений вище результат показує, що набір даних має багато факторних змінних, які можна вважати категоріальними змінними. Для нашої моделі ми розглянемо змінні Exer і дим .У стовпці «Дим» відображаються звички куріння студентів, тоді як у стовпчику «Ексер» вказується рівень фізичних вправ. Наша мета полягає в тому, щоб перевірити гіпотезу про те, чи звичка куріння студентів не залежить від рівня їхньої фізичної активності на рівні значущості 0,05.
Р
підручник pyspark
# Create a data frame from the main data set.> stu_data =>data.frame>(survey$Smoke,survey$Exer)> # Create a contingency table with the needed variables.> stu_data =>table>(survey$Smoke,survey$Exer)> > print>(stu_data)> |
>
>
Вихід:
Freq None Some Heavy 7 1 3 Never 87 18 84 Occas 12 3 4 Regul 9 1 7>
І нарешті ми застосовуємо chisq.test()> функцію до таблиці непередбачених обставин stu_data.
Р
реверсування рядка java
# applying chisq.test() function> print>(>chisq.test>(stu_data))> |
>
>
Вихід:
Pearson's Chi-squared test data: stu_data X-squared = 5.4885, df = 6, p-value = 0.4828>
Оскільки p-значення 0,4828 більше, ніж 0,05, ми робимо висновок, що звичка палити не залежить від рівня фізичних навантажень учня, і, отже, між двома змінними існує слабка або відсутня кореляція. Повний код R наведено нижче.
Отже, підводячи підсумок, можна сказати, що дуже легко виконати тест хі-квадрат за допомогою R. Це завдання можна виконати за допомогою chisq.test()> функція в R.
перетворити strin на int
Візуалізуйте дані тесту хі-квадрат
Р
# Load required library> library>(MASS)> # Print structure of the survey dataset> print>(>str>(survey))> # Create a data frame for smoking and exercise columns> stu_data <->data.frame>(survey$Smoke, survey$Exer)> stu_data <->table>(survey$Smoke, survey$Exer)> # Print the table> print>(stu_data)> # Perform the Chi-Square Test> chi_result <->chisq.test>(stu_data)> print>(chi_result)> # Visualize the data with a bar plot> barplot>(stu_data, beside =>TRUE>, col =>c>(>'lightblue'>,>'lightgreen'>),> >main =>'Smoking Habits vs Exercise Levels'>,> >xlab =>'Exercise Level'>, ylab =>'Number of Students'>)> # Add legend separately> legend>(>'center'>, legend =>rownames>(stu_data), fill =>c>(>'lightblue'>,>'lightgreen'>))> |
>
>
Вихід:

Тест хі-квадрат у R
У цьому коді ми використовуємоMASS>бібліотеці для проведення тесту хі-квадрат на наборі даних «опитування», зосереджуючись на зв’язку між звичками куріння та рівнем фізичних вправ.
Він створює таблицю непередбачених обставин, виконує статистичний тест і візуалізує дані за допомогою стовпчастої діаграми. Легенда додається окремо у верхньому лівому куті, розрізняючи різні звички куріння різними кольорами.
Код має на меті дослідити та повідомити про зв’язки між поведінкою куріння та фізичними вправами в наборі даних.