Saltar al contenido

Reducción de la complejidad de los datos

Descripción

Las técnicas de aprendizaje de las máquinas se han vuelto significativamente más poderosas en los últimos años, pero la excesiva complejidad de los datos sigue siendo un problema importante. Hay varias razones para ello: distinguir la señal del ruido se hace más difícil con los datos más complejos, y los riesgos de la sobrecarga también aumentan. Por último, a medida que el aprendizaje de las máquinas basadas en la nube se hace más y más popular, la reducción de la complejidad de los datos es crucial para que la formación sea más asequible. Las soluciones de ML basadas en la nube pueden ser muy costosas.

Reducción de la complejidad de los datos
Reducción de la complejidad de los datos

En este curso, Reduciendo la complejidad de los datos, aprenderá a hacer que los datos introducidos en los modelos de aprendizaje de las máquinas sean más manejables y más fáciles de manejar, sin recurrir a ningún tipo de truco o atajo, y sin comprometer la calidad o la corrección.

En primer lugar, aprenderá la importancia de la parsimonia en los datos, y comprenderá las dificultades de trabajar con datos de dimensionalidad excesivamente alta, a menudo llamada la maldición de la dimensionalidad.

A continuación, descubrirá cómo y cuándo recurrir a la selección de características, empleando técnicas estadísticamente sólidas para encontrar un subconjunto de las características de entrada basadas en su contenido de información y en el enlace con la salida.

Finalmente, explorará cómo usar dos técnicas avanzadas: agrupación y autocodificación. Ambas son aplicaciones de aprendizaje no supervisado utilizadas para simplificar los datos como precursor de un algoritmo de aprendizaje supervisado. Cada una de ellas se basa a menudo en una implementación sofisticada como el aprendizaje profundo utilizando redes neuronales.

Cuando termine este curso, tendrá las habilidades y conocimientos de reducción de complejidad conceptualmente sólidos necesarios para reducir la complejidad de los datos utilizados en las aplicaciones de aprendizaje de máquinas supervisadas.