Las aplicaciones de datos grandes son 10 veces más complejas que las aplicaciones normales, y los desarrolladores a menudo necesitan conocer una plétora de tecnologías sólo para hacer que los datos grandes funcionen.
Los datos de gran tamaño siguen siendo demasiado difíciles. A pesar de todo el alboroto -y ha habido mucho y mucho alboroto- la mayoría de las empresas todavía luchan por obtener valor de sus datos. Esto llevó a los Servicios de Asesoría de Dresner a concluir: «A pesar de un largo período de concienciación y publicidad, el despliegue real de grandes análisis de datos no es ampliamente aplicable a la mayoría de las organizaciones en la actualidad».
Ouch.
Parte de esto es un problema de la gente. Por muy persuasivos que sean los datos, los ejecutivos a menudo prefieren ignorarlos. Pero, una gran parte de la complejidad de los grandes datos se trata del software necesario para hacer que todo funcione a pleno rendimiento. Aunque Spark y otros sistemas más nuevos han mejorado la trayectoria, la gran infraestructura de datos sigue siendo demasiado difícil, un punto que Jesse Anderson ha señalado astutamente.
Esta cosa es dura.
Hace tiempo que la gente se perfila como uno de los mayores impedimentos para la adopción de grandes cantidades de datos. Una encuesta realizada en 2015 por Bain & Co. entre altos ejecutivos de TI reveló que el 59% creía que sus empresas carecían de las capacidades para dar sentido (y negocio) a sus datos. Hablando específicamente de Hadoop, el analista de Gartner Nick Heudecker sugirió que «Hasta 2019, el 70% de las implementaciones de Hadoop no cumplirán con los objetivos de ahorro de costes y generación de ingresos debido a los retos de habilidades e integración». Las habilidades importan, en otras palabras, y son escasas.
VEA: Por qué AWS Lambda podría ser lo peor que le puede pasar al código abierto
Con el tiempo, la brecha de habilidades disminuirá, por supuesto, pero entender el despliegue promedio de Hadoop, por ejemplo, no es trivial, como señaló Anderson. En sus palabras, la complejidad de los grandes datos se reduce a dos factores primarios: «necesitas saber de 10 a 30 tecnologías diferentes, sólo para crear una gran solución de datos,» y «los sistemas distribuidos son simplemente difíciles.»
La pregunta es por qué.
Anderson representó esquemáticamente la complejidad de una aplicación móvil típica frente a una aplicación respaldada por Hadoop, señalando que esta última implica el doble del número de «cajas» o componentes. Expresado en inglés sencillo, sin embargo, «The’Hello World’ of a Hadoop solution is more complicated than other domains’ intermediate to advanced setups» (El’Hola mundo’ de una solución Hadoop es más complicado que otros dominios.
Para agravar la dificultad, dijo Anderson, es la necesidad de entender la amplia gama de sistemas involucrados. Es posible que necesite conocer 10 tecnologías para construir una gran aplicación de datos, por ejemplo, pero eso probablemente requiere que esté familiarizado con otras 20 tecnologías simplemente para saber cuál usar en una situación determinada. De lo contrario, por ejemplo, ¿cómo va a saber cómo usar MongoDB en lugar de Hbase? ¿O Cassandra? ¿O Neo4j?
¿Grandes problemas de datos? La mayoría de las empresas no se dan cuenta de que ya lo están usando
Si a esto se añade la complejidad de ejecutarlo todo en un sistema distribuido, no es de extrañar que persista la escasez de habilidades para los grandes datos.
La salida fácil
Una de las formas en que las empresas intentan minimizar la complejidad inherente a las grandes extensiones de datos es recurriendo a la nube pública. Según una reciente encuesta de Databricks a usuarios de Apache Spark, el despliegue de Spark en la nube pública se ha disparado en un 10% durante el último año hasta alcanzar el 61% del total de despliegues. En lugar de una infraestructura local incómoda e inflexible, la nube permite flexibilidad y, por tanto, agilidad.
Más información sobre Big Data
Sin embargo, no elimina la complejidad de las tecnologías implicadas. Las mismas decisiones difíciles sobre esta o aquella base de datos o corredor de mensajes permanecen.
Tales elecciones, y la complejidad de las mismas, no van a desaparecer pronto. Compañías como Cloudera y Hortonworks han surgido para tratar de racionalizar esas opciones, ordenándolas en pilas, pero esencialmente todavía proporcionan herramientas que necesitan ser entendidas para ser útiles. Amazon Web Services va un paso más allá con su servicio Lambda, que permite a los desarrolladores centrarse en escribir el código de su aplicación mientras AWS se encarga de toda la infraestructura subyacente.
Pero el siguiente paso es pre-fabricar la aplicación para el usuario final por completo, que es lo que el ex analista de Wall Street Peter Goldmacher calificó de una oportunidad mucho mayor que la venta de componentes de infraestructura. En sus palabras, una de las principales categorías de «ganadores» son los proveedores de Apps y Analytics que abstraen la complejidad de trabajar con tecnologías subyacentes muy complicadas en una interfaz fácil de usar. La audiencia de usuarios de negocios es exponencialmente mayor que el mercado de programadores que trabajan en tecnología central».
Aquí es donde el mercado necesita llegar, y rápido. No estamos ni cerca de terminar. Por cada Uber que es capaz de dominar todas las grandes tecnologías de datos subyacentes a las industrias de up-end hay cientos de empresas tradicionales que simplemente quieren reinventarse y necesitan a alguien que haga que sus datos sean más procesables. Necesitamos que surja esta categoría de proveedor. Ahora.
Boletín informativo de Big Data Insights
Domine los fundamentos de la analítica de datos de gran tamaño siguiendo estos consejos de expertos y leyendo los conocimientos sobre las innovaciones de la ciencia de datos. Lunes de entrega