Saltar al contenido

Resumir los datos y deducir las probabilidades

En la sección anterior, se utilizaron estadísticas descriptivas para resumir las variables univariantes. Sin embargo, a menudo querrá resumir múltiples variables juntas. Por ejemplo, tal vez desee calcular la media de todas las variables numéricas en una línea de código. Esto se puede hacer con la función sapply() como se muestra a continuación.

1sapply(dat[,c(3,4,7,9)], media)

{r}

Resumir los datos y deducir las probabilidades
Resumir los datos y deducir las probabilidades

Salida:

123 Ingresos Préstamo_importe de la edad Inversión 70554.13 32379.37 49.45 16106.70

El otro método es utilizar la función summary(), que imprimirá la estadística de resumen de todas las variables. La línea de código siguiente realiza esta operación.

1sumario(dat)

{r}

Salida:

1234567891011121314Estado civil Es_ingresos de grado Préstamo_importe No :209 No :130 Min. : 3000 Min. : 1090 Si:391 Si:470 1er Qu.: 38498 1er Qu.: 6100 Media: 50835 Media: 7600 Media: 70554 Media: 32379 3er Qu.: 76610 3er Qu.: 13025 Max.: 844490 Max.: 778000 Aprobación de crédito: estatus Edad Sexo Inversión No _satisfactoria: 128 No: 190 Min. 22.00 F:111 Min. : 600 Satisfactorio :472 Si:410 1er Qu.:36.00 M:489 1er Qu.: 7940 Mediana :51.00 Mediana : 10674 Media :49.45 Media : 16107 3er Qu.:61.00 3er Qu.: 16872 Max. :76.00 Max. :346658

El resultado anterior imprime las importantes estadísticas resumidas de todas las variables, incluyendo la media, la mediana (50%), el mínimo y el máximo. Podemos calcular el IQR usando los valores del primer y tercer cuartil.

A veces querrás entender una estadística usando una combinación de dos o más categorías. Por ejemplo, puede querer la media de las variables numéricas que representan el género de los solicitantes y el estado de aprobación. Esto puede hacerse utilizando el código que figura a continuación. La primera línea del código utiliza la función aggregate() para crear una tabla de las medias de todas las variables numéricas de las dos variables categóricas, Sexo y estado de aprobación. La segunda línea de código imprime la salida.

12agg = agregado(dat[,c(3,4,7,9)], por = lista(dat$Sex, dat$approval_status), FUN = media)agg

{r}

Salida:

12345 Group.1 Group.2 Income Loan_amount Age Investment 1 F No 544824 228027 44.16 132583.8 2 M No 734543 353334 50.32 158825.1 3 F Sí 646274 256114 51.55 157135.4 4 M Sí 723086 335793 49.17 166090.2

La interesante inferencia del cuadro anterior es que las solicitantes femeninas cuya solicitud de préstamo fue aprobada tenían ingresos, edades y valores de inversión significativamente más altos en comparación con las solicitantes femeninas cuyas solicitudes no fueron aprobadas. Esta inferencia puede ser útil para construir modelos de aprendizaje de máquinas.