logo

Тест хі-квадрат у R

The тест хі-квадрат Незалежність оцінює, чи існує зв'язок між категоріями двох змінних. В основному існує два типи випадкових величин, і вони дають два типи даних: числові та категоричні. в Мова програмування R Статистика хі-квадрат використовується для дослідження того, чи відрізняються розподіли категоріальних змінних один від одного. Тест хі-квадрат також корисний під час порівняння підрахунків або кількості категоричних відповідей між двома (чи більше) незалежними групами.

У мові програмування R функція, яка використовується для виконання тесту хі-квадрат chisq.test()> .



Синтаксис:

chisq.test(дані)

константи Java

Параметри:



даних : дані — це таблиця, що містить лічильні значення змінних у таблиці.

Ми візьмемо дані опитування в MASS> бібліотека, яка представляє дані опитування, проведеного серед студентів.

Р






# load the MASS package> library>(MASS)> print>(>str>(survey))>

>

>

Вихід:

'data.frame': 237 obs. of 12 variables:  $ Sex : Factor w/ 2 levels 'Female','Male': 1 2 2 2 2 1 2 1 2 2 ...  $ Wr.Hnd: num 18.5 19.5 18 18.8 20 18 17.7 17 20 18.5 ...  $ NW.Hnd: num 18 20.5 13.3 18.9 20 17.7 17.7 17.3 19.5 18.5 ...  $ W.Hnd : Factor w/ 2 levels 'Left','Right': 2 1 2 2 2 2 2 2 2 2 ...  $ Fold : Factor w/ 3 levels 'L on R','Neither',..: 3 3 1 3 2 1 1 3 3 3 ...  $ Pulse : int 92 104 87 NA 35 64 83 74 72 90 ...  $ Clap : Factor w/ 3 levels 'Left','Neither',..: 1 1 2 2 3 3 3 3 3 3 ...  $ Exer : Factor w/ 3 levels 'Freq','None',..: 3 2 2 2 3 3 1 1 3 3 ...  $ Smoke : Factor w/ 4 levels 'Heavy','Never',..: 2 4 3 2 2 2 2 2 2 2 ...  $ Height: num 173 178 NA 160 165 ...  $ M.I : Factor w/ 2 levels 'Imperial','Metric': 2 1 NA 2 2 1 1 2 2 2 ...  $ Age : num 18.2 17.6 16.9 20.3 23.7 ... NULL>

Наведений вище результат показує, що набір даних має багато факторних змінних, які можна вважати категоріальними змінними. Для нашої моделі ми розглянемо змінні Exer і дим .У стовпці «Дим» відображаються звички куріння студентів, тоді як у стовпчику «Ексер» вказується рівень фізичних вправ. Наша мета полягає в тому, щоб перевірити гіпотезу про те, чи звичка куріння студентів не залежить від рівня їхньої фізичної активності на рівні значущості 0,05.

Р


підручник pyspark



# Create a data frame from the main data set.> stu_data =>data.frame>(survey$Smoke,survey$Exer)> # Create a contingency table with the needed variables.> stu_data =>table>(survey$Smoke,survey$Exer)> > print>(stu_data)>

>

>

Вихід:

 Freq None Some  Heavy 7 1 3  Never 87 18 84  Occas 12 3 4  Regul 9 1 7>

І нарешті ми застосовуємо chisq.test()> функцію до таблиці непередбачених обставин stu_data.

Р




реверсування рядка java
# applying chisq.test() function> print>(>chisq.test>(stu_data))>

>

>

Вихід:

 Pearson's Chi-squared test  data: stu_data X-squared = 5.4885, df = 6, p-value = 0.4828>

Оскільки p-значення 0,4828 більше, ніж 0,05, ми робимо висновок, що звичка палити не залежить від рівня фізичних навантажень учня, і, отже, між двома змінними існує слабка або відсутня кореляція. Повний код R наведено нижче.

Отже, підводячи підсумок, можна сказати, що дуже легко виконати тест хі-квадрат за допомогою R. Це завдання можна виконати за допомогою chisq.test()> функція в R.

перетворити strin на int

Візуалізуйте дані тесту хі-квадрат

Р




# Load required library> library>(MASS)> # Print structure of the survey dataset> print>(>str>(survey))> # Create a data frame for smoking and exercise columns> stu_data <->data.frame>(survey$Smoke, survey$Exer)> stu_data <->table>(survey$Smoke, survey$Exer)> # Print the table> print>(stu_data)> # Perform the Chi-Square Test> chi_result <->chisq.test>(stu_data)> print>(chi_result)> # Visualize the data with a bar plot> barplot>(stu_data, beside =>TRUE>, col =>c>(>'lightblue'>,>'lightgreen'>),> >main =>'Smoking Habits vs Exercise Levels'>,> >xlab =>'Exercise Level'>, ylab =>'Number of Students'>)> # Add legend separately> legend>(>'center'>, legend =>rownames>(stu_data), fill =>c>(>'lightblue'>,>'lightgreen'>))>

>

>

Вихід:

gh

Тест хі-квадрат у R

У цьому коді ми використовуємоMASS>бібліотеці для проведення тесту хі-квадрат на наборі даних «опитування», зосереджуючись на зв’язку між звичками куріння та рівнем фізичних вправ.

Він створює таблицю непередбачених обставин, виконує статистичний тест і візуалізує дані за допомогою стовпчастої діаграми. Легенда додається окремо у верхньому лівому куті, розрізняючи різні звички куріння різними кольорами.

Код має на меті дослідити та повідомити про зв’язки між поведінкою куріння та фізичними вправами в наборі даних.