Saltar al contenido

Interpretación de los datos mediante estadísticas descriptivas con Python

En las secciones anteriores hemos examinado las diversas medidas de la tendencia central. Sin embargo, como hemos visto en los datos, los valores de estas medidas difieren para muchas variables. Esto se debe a la medida en que una distribución se estira o se aprieta. En las estadísticas, esto se mide por la dispersión, que también se denomina variabilidad, dispersión o dispersión. Las medidas de dispersión más populares son la desviación estándar, la varianza y el rango intercuartílico.

Desviación estándar

La desviación estándar es una medida que se utiliza para cuantificar la cantidad de variación de un conjunto de valores de datos con respecto a su media. Una baja desviación estándar de una variable indica que los puntos de datos tienden a estar cerca de su media y viceversa. La línea de código que figura a continuación imprime la desviación estándar de todas las variables numéricas de los datos.

Interpretación de los datos mediante estadísticas descriptivas con Python
Interpretación de los datos mediante estadísticas descriptivas con Python

<pre>1df.std()</pre>
python

Salida:

<pre>123456 Dependientes 1.026362 Ingresos 711421.814154 Monto_de_préstamo 724293.480782 Plazo_meses 31.933949 Edad 14.728511 dtype: float64</pre>

Al interpretar los valores de la desviación estándar, es importante entenderlos en conjunción con la media. Por ejemplo, en el resultado anterior, la desviación estándar de la variable 'Ingreso' es mucho mayor que la de la variable 'Dependientes'. Sin embargo, la unidad de estas dos variables es diferente y, por lo tanto, comparar la dispersión de estas dos variables sobre la base de la desviación estándar solamente será incorrecto. Esto debe tenerse en cuenta.

También es posible calcular la desviación estándar de una determinada variable, como se muestra en las dos primeras líneas de código que figuran a continuación. La tercera línea calcula la desviación estándar de las cinco primeras líneas.

<pre>12345print(df.loc[:,'Age'].std())print(df.loc[:,'Income'].std())#calcular la desviación estándar de las cinco primeras filas df.std(axis =1)[0:5]</pre>
pitón

Salida:

<pre>123456789 14.728511412020659 711421.814154101 0 133651.842584 1 305660.733951 2 244137.726597 3 233466.205060 4 202769.786470 dtype: float64</pre>

Variación

La variación es otra medida de la dispersión. Es el cuadrado de la desviación estándar y la covarianza de la variable aleatoria consigo misma. La línea de código de abajo imprime la varianza de todas las variables numéricas del conjunto de datos. La interpretación de la varianza es similar a la de la desviación estándar.

<pre>1df.var()</pre>
pitón

Salida:

<pre>123456 Dependientes 1.053420e+00 Ingresos 5.061210e+11 Monto_de_préstamo 5.246010e+11 Plazo_meses 1.019777e+03 Edad 2.169290e+02 tipo: float64</pre>

Rango Intercuartílico (IQR)

El rango intercuartil (IQR) es una medida de la dispersión estadística, y se calcula como la diferencia entre el cuartil superior (75º percentil) y el cuartil inferior (25º percentil). El IQR es también una medida muy importante para identificar los valores atípicos y podría ser visualizado usando un diagrama de caja.

La IQR puede ser calculada usando la función iqr() . La primera línea de código que sigue importa la función 'iqr' del módulo scipy.stats , mientras que la segunda línea imprime el IQR de la variable 'Age'.

<pre>12de scipy.stats import iqriqr(df['Age'])</pre>
python

Salida:

<pre>1 25.0</pre>

Asimetría

Otra estadística útil es la asimetría, que es la medida de la simetría, o falta de ella, de una variable aleatoria de valor real sobre su media. El valor de la asimetría puede ser positivo, negativo o indefinido. En una distribución perfectamente simétrica, la media, la mediana y la moda tendrán todas el mismo valor. Sin embargo, las variables de nuestros datos no son simétricas, lo que da lugar a diferentes valores de la tendencia central.

Podemos calcular la inclinación de las variables numéricas utilizando la función skew() , como se muestra a continuación.

<pre>1print(df.skew())</pre>
python

Salida:

123456 Dependientes 1.169632 Ingresos 5.344587 Monto_de_préstamo 5.006374 Plazo_meses -2.471879 Edad -0.055537 dtype: float64

Los valores de asimetría pueden ser interpretados de la siguiente manera:

  • Distribución muy sesgada: Si el valor de la asimetría es menor que -1 o mayor que +1.
  • Distribución moderadamente sesgada: Si el valor de la asimetría está entre -1 y -½ o entre +½ y +1.
  • Distribución aproximadamente simétrica: Si el valor de la asimetría está entre -½ y +½.