Saltar al contenido

Hortonworks Beta un gran paso para Hadoop en Microsoft Windows

Cuando se habla de grandes datos, casi siempre se habla de Apache Hadoop como la plataforma subyacente para los proyectos.

Dado que Hadoop es de código abierto, casi no hace falta decir que la mayoría de las implementaciones son en Linux. Aunque el código fuente está disponible y Hadoop está programado con el lenguaje de programación Java, Linux es una elección lógica, especialmente para la prueba de concepto.

Hortonworks Beta un gran paso para Hadoop en Microsoft Windows
Hortonworks Beta un gran paso para Hadoop en Microsoft Windows

Puedes descargar la fuente de Hadoop, usar tu distribución preferida de Linux, y encender tu propio clúster de Hadoop. Pero eso puede parecer una tarea desalentadora para algunos.

Afortunadamente, al igual que Linux tiene Red Hat, Hadoop tiene una lista relativamente larga de proveedores que ofrecen servicios empaquetados de Hadoop. Estos vendedores también ofrecen máquinas virtuales empaquetadas con Linux y Hadoop preinstalados que puedes descargar.

¿Pero qué pasa si su organización no sabe nada sobre Linux y quiere entrar en grandes datos? ¿Qué pasa si no sabes lo primero sobre programación en Java? Cuando se evalúan nuevos proyectos, una de las primeras cosas en las que hay que pensar es en las «habilidades internas». ¿Realmente tiene sentido desarrollar un gran proyecto de análisis de datos en Linux y Hadoop cuando eres una «tienda de Microsoft» al 100%?

Grandes datos sin Linux

Afortunadamente, para los que han invertido mucho en tecnologías de Microsoft, Hadoop en Microsoft Windows dio un gran paso ayer: Hortonworks anunció una beta de su Plataforma de Datos Hortonworks (HDP) para Microsoft Windows.

Me sorprendió un poco el anuncio de Hortonworks-only, porque en 2011, Hortonworks y Microsoft anunciaron una asociación para llevar el Hadoop a la plataforma Windows. En octubre del año pasado, como resultado de la asociación, Microsoft anunció la construcción de pruebas públicas de Windows Azure HDInsight Service para su servicio público en la nube de Windows Azure y HDInsight Server para Windows para instalaciones regulares de Windows Server.

Ahora con HDInsight y HDP, no está claro todavía cuáles son las similitudes y diferencias, pero estoy seguro de que estas cosas saldrán a la luz cuando el público tenga más tiempo para usar la beta de Hortonworks. Sin embargo, Microsoft ha dicho públicamente que los dos productos se diferenciarán por su nivel de integración y soporte.

Volviendo a mis pensamientos iniciales sobre cómo una tienda de Microsoft podría lidiar con todas estas nuevas tecnologías al considerar un gran proyecto o iniciativa de datos. En su mayor parte, para obtener el mejor rendimiento de Hadoop, significa tener que escribir el código de MapReduce en Java, pero ¿qué pasa si no tienes codificadores Java? Uno de los beneficios de tener a Microsoft a bordo es que la compañía está bastante enfocada en las características de los desarrolladores, y ha lanzado un SDK basado en .NET para Hadoop. Eso significa que puedes aprovechar todos tus conocimientos previos de Microsoft Windows, como la administración y la programación, para que tu nuevo proyecto sea un éxito!

HDInsight vs. Plataforma de datos de Hortonworks

Tengo un comentario inicial sobre la experiencia de instalación de HDInsight versus HDP. He instalado HDInsight unas cuantas veces antes y lo hice de nuevo mientras escribía esto. La experiencia de usuario proporcionada por HDInisight para poner en marcha Hadoop en Windows está actualmente muy por delante de HDP. Si sólo vas al sitio web de Microsoft Big Data, son sólo unos pocos clics para lanzar el instalador de la plataforma web de Microsoft (WebPI) y dejar que una instalación automatizada tome el control.

Por otro lado, una vez que instalé el HDP, intenté hacer doble clic en el MSI y recibí un mensaje de advertencia sobre tener que pasar un «archivo de respuesta» en la línea de comandos. Revisé el sitio de Hortonworks brevemente, y descubrí que necesitaba instalar manualmente algunos requisitos previos. No era nada que pareciera demasiado difícil de lograr, pero la automatización de la WebPI es un buen toque, especialmente cuando se trata de ser lo más productivo posible. Sin embargo, no estoy seguro de si WebPI tiene una función fuera de línea o no, lo que podría ser positivo para el procedimiento HDP, de modo que esté disponible una instalación manual y más controlada.

No puedo esperar a ver lo que Microsoft trae a la mesa para los grandes datos. Incluso si HDP resulta ser una implementación mejor o más aceptada, las herramientas y las posibilidades de integración parecen ser bastante excitantes para el espacio de análisis de datos.

Regístrese para una prueba gratuita de 3 días para acceder a la biblioteca completa de cursos de formación de TrainSignal.