Un gráfico de caja (o gráfico de caja y bigote) ayuda a visualizar la distribución de un dato numérico. Un diagrama de caja consiste en una caja (que describe diferentes cuartiles), bigotes (que se extienden para mostrar el resto de la distribución) y varios puntos (que implican valores atípicos en los datos).
Vamos a crear rápidamente un gráfico de caja de valores de cargas misceláneas , que se copian en una columna diferente a la de la tabla PivotTable.
Los puntos clave de la trama anterior son:
- Los datos están sesgados hacia números positivos más altos.
- La mediana está alrededor de 15000.
- No hay valores atípicos en los datos.
Trabajando con parcelas de cajas múltiples
Hasta ahora en la guía, has construido gráficos donde sólo hay una columna numérica (Misc Charges). Ahora, consideraremos un caso en el que tenemos dos columnas numéricas (Misc Charges and Tuition Fee) en nuestra Tabla Pivotante, como se muestra:
Etiquetas de filasSuma de los gastos variosSuma de la matrículaTarifa del maestro (Biz)430001223000Tarifa del maestro (Engg)19000291555Ph.D.600068000Ph.D.1200086000Grand Total800001668555
Cuando copie los valores de estas dos columnas (Suma de los gastos varios y Suma de la matrícula) en columnas separadas y cree un gráfico de caja en ellas, puede recibir un gráfico como éste:
¿Puedes ver el problema con la trama anterior?
Dado que el rango de los Cargos Adicionales es mucho menor que el de la matrícula, no podemos observar el gráfico de la caja de los Cargos Adicionales. Para superar este problema, podemos ir a la Normalización Mínima y Máxima.
Una Normalización Mín-Máxima siempre lleva el resultado a un rango definido 0, 1. Así que si normalizas ambas columnas y luego creas su gráfica de caja, tendrás ambas gráficas de caja en el rango de 0, 1.
Matemáticamente,
X_i = (X_i – X_min)/(X_max – X_min)
Si se tiene un dato ficticio con los valores 5, 2, 8, 6, 12, entonces el valor normalizado de 5 se calcula como (5-2)/(12-2) = 0,3.
A continuación se muestran los valores normalizados de los gastos varios y de la tasa de matrícula, junto con el gráfico final de la caja:
Cargos Variados NormalizadosTarifa de Matrícula Normalizada(43000 – 6000) / (43000 – 6000) = 1(1223000 – 68000) / (1223000 – 68000) = 1(19000 – 6000) / (43000 – 6000) = 0.351351(291555 – 68000) / (1223000 – 68000) = 0. 193554(6000 – 6000/ (43000 – 6000) = 0(68000 – 68000/ (1223000 – 68000) = 0(12000 – 6000/ (43000 – 6000) = 0.162162(86000 – 68000/ (1223000 – 68000) = 0.015584
Como podemos observar, la normalización ha facilitado la comprensión de la distribución de los datos en cada una de las columnas numéricas.
Nota: Un gráfico de caja agrupada puede alterar un poco la distribución de los datos reales. Se sugiere utilizar el gráfico de caja agrupada sólo para una visión general.