Saltar al contenido

Comprobación de las relaciones entre las variables categóricas mediante la prueba de chi-cuadrado

En la presente guía se utilizarán datos ficticios de solicitantes de préstamos que contienen 200 observaciones y diez variables, como se describe a continuación:

  1. Estado_marital – Si el solicitante está casado («Sí»), no casado («No»), o divorciado («Divorciado»)
  2. Es_graduado – Si el solicitante es un graduado («Sí») o no («No»)
  3. Ingresos – Ingresos anuales del solicitante (en USD)
  4. Loan_amount – Cantidad del préstamo (en USD) para el que se presentó la solicitud
  5. Puntuación_de_crédito – Si la puntuación de crédito del solicitante era buena («Buena») o no («Mala»).
  6. approval_status – Si la solicitud de préstamo fue aprobada («Sí») o no («No»).
  7. Inversión – Inversiones en acciones y fondos de inversión (en USD), según lo declarado por el solicitante
  8. Género – Si el solicitante es «Femenino» o «Masculino»

9. Edad – La edad del solicitante en años

Comprobación de las relaciones entre las variables categóricas mediante la prueba de chi-cuadrado
Comprobación de las relaciones entre las variables categóricas mediante la prueba de chi-cuadrado

10. Work_exp – La experiencia laboral del solicitante en años

Empecemos por cargar las bibliotecas necesarias y los datos.

12345678910library(plyr)library(readr)library(ggplot2)library(GGally)library(dplyr)library(mlbench)dat <- read_csv("data_test.csv")glimpse(dat)

Salida:

123456789101112Observaciones: 200Variables: 10$ Marital_status <chr ]; "Sí", "Sí", "Sí", "Sí", "Sí", "Sí", "Sí", "Sí"... ...$ Ingreso $; 72000, 64000, 80000, 76000, 72000, 56000, 48000, 72000...$ Cantidad_de_préstamo $; 70500, 70000, 275000, 100500, 51500, 69000, 147000, 61...$ Puntuación_de_crédito $; "Mal", "Mal", "Mal", "Mal", "Mal", "Mal", "Mal", "Mal", "Mal", "Mal". ..$ approval_status <chr> "Sí", "Sí", "Sí", "Sí", "Sí", "Sí", "Sí", "Sí"...$ Investment <int> 117340, 85340, 147100, 65440, 48000, 136640, 160000, 9... ...$ de género...; 34, 34, 33, 34, 33, 34, 33, 33, 33, 33, 33... ..$ work_exp <dbl> 8.10, 7.20, 9.00, 8.55, 8.10, 6.30, 5.40, 8.10, 8.10, ...

El resultado muestra que los datos tienen cinco variables numéricas (etiquetadas como $0027int$0027, $0027dbl$0027) y cinco variables de caracteres (etiquetadas como $0027chr$0027). Las convertiremos en variables factoriales utilizando la línea de código que aparece a continuación.

123nombres <- c(1,2,5,6,8)dat[,nombres] <- lapply(dat[,nombres] , factor)glimpse(dat)

Salida:

123456789101112Observaciones: 200Variables: 10$ Marital_status <fct.; Sí, Sí, Sí, Sí, Sí, Sí, Sí, Sí,... $ Ingreso $; 72000, 64000, 80000, 76000, 72000, 56000, 48000, 72000...$ Monto_de_préstamo $; 70500, 70000, 275000, 100500, 51500, 69000, 147000, 61...$ Puntaje_de_crédito $; Malo, malo, malo, malo, malo, malo, malo, malo, malo, malo, malo, malo, malo, malo, malo,. ..$ approval_status <fct.; Sí, sí, sí, sí, sí, sí, sí, sí, sí,...$ Inversión <int.; 117340, 85340, 147100, 65440, 48000, 136640, 160000, 9... ...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género...$ de género... ..$ work_exp <dbl ]; 8.10, 7.20, 9.00, 8.55, 8.10, 6.30, 5.40, 8.10, 8.10, ...

Tabla de frecuencias

Antes de sumergirse en la prueba de chi cuadrado, es importante entender la tabla o matriz de frecuencias que se utiliza como entrada para la función de chi cuadrado en R. Las tablas de frecuencias son una forma eficaz de encontrar la dependencia o la falta de ella entre las dos variables categóricas. También ofrecen una visión de primer nivel de la relación entre las variables.

La función table() puede utilizarse para crear la tabla de dos direcciones entre las variables. En la primera línea de código de abajo, creamos una tabla de dos vías entre las variables, Marital_status y approval_status. La segunda línea imprime la tabla de frecuencias, mientras que la tercera línea imprime la tabla de proporciones. La cuarta línea imprime la tabla de proporciones de la fila, mientras que la quinta línea imprime la tabla de proporciones de la columna.

1234567# 2 - way tabletwo_way = table(dat$Estado_marital, dat$estado_de_aprobación)two_wayprop.table(two_way) # celda porcentajesprop.table(two_way, 1) # fila porcentajesprop.table(two_way, 2) # columna porcentajes

Salida:

1234567891011121314151617181920 No Sí Divorciado 31 29 No 66 10 Sí 52 12 No Sí Divorciado 0.155 0.145 No 0.330 0.050 Sí 0.260 0.060 No Sí Divorciado 0. 5166667 0.4833333 No 0.8684211 0.1315789 Sí 0.8125000 0.1875000 No Sí Divorciado 0.2080537 0.5686275 No 0.4429530 0.1960784 Sí 0.3489933 0.2352941

El resultado del total de los porcentajes de la columna muestra que los solicitantes divorciados tienen una mayor probabilidad (del 56,8%) de obtener aprobaciones de préstamo en comparación con los solicitantes casados. Para comprobar si esta información es estadísticamente significativa o no, realizamos la prueba de chi-cuadrado de la independencia.