Redes neuronales convolucionales para el reconocimiento visual

La Visión por Computadora es un campo dinámico y de rápido crecimiento con innumerables aplicaciones de alto perfil que se han desarrollado en los últimos años. Los usos potenciales son diversos, y su integración con la investigación de vanguardia ya ha sido validada con coches auto-conductores, reconocimiento facial, reconstrucciones 3D, búsqueda de fotos y realidad aumentada. La Inteligencia Artificial se ha convertido en un componente fundamental de la tecnología cotidiana, y el reconocimiento visual es un aspecto clave de ello. Es una herramienta valiosa para interpretar la riqueza de datos visuales que nos rodean y a una escala imposible con la visión natural.

Este curso cubre las tareas y sistemas en el núcleo del reconocimiento visual con una exploración detallada de las arquitecturas de aprendizaje profundo. Aunque habrá una breve introducción a la visión por ordenador y a los marcos, como Caffe, Torch, Theano y TensorFlow, el enfoque será el aprendizaje de modelos de extremo a extremo, en particular para la clasificación de imágenes. Los estudiantes aprenderán a implementar, entrenar y depurar sus propias redes neuronales, así como a comprender en detalle las investigaciones de vanguardia en materia de visión por computador.

La asignación final incluirá el entrenamiento de una red neural convolutiva de parámetros multimillonarios y su aplicación en el mayor conjunto de datos de clasificación de imágenes (ImageNet).