Los datos empresariales son complicados y lentos, pero Apache Kafka tiene una forma de hacerlos rápidos y sin fisuras.
Dado que toda la mejor infraestructura de grandes datos es de código abierto, ¿por qué las empresas siguen gastando tanto? Según una nueva investigación de Wikibon, el gran mercado de datos se acercará a los 40.000 millones de euros este año y se elevará a 100.000 millones de euros en los próximos 10 años.
Y sin embargo, como el analista de Gartner Nick Heudecker captura en una queja de un cliente, «¿Por qué estoy pagando a todos estos proveedores por lo que es efectivamente software de código abierto?
En el caso de Confluent, la compañía detrás de la tecnología Apache Kafka desarrollada por primera vez por LinkedIn, la respuesta es todo sobre el embalaje. Esta estrategia -construir y promover un proyecto popular de código abierto y luego monetizar las herramientas de gestión a su alrededor- es ahora un camino bien recorrido, pero parece ser particularmente fructífero para Confluent.
Haciendo más grande
Aunque «grandes datos» solía ser sinónimo de Hadoop, ha llegado a comprender una gran cantidad de software -casi todos de código abierto- que incluye cosas tan variadas como MongoDB, Apache Spark y Apache Kafka. A pesar de la naturaleza de código abierto de gran parte de este software, se puede ganar mucho dinero (.
El primer paso para monetizar esta recompensa de código abierto, sin embargo, es la popularidad. Nadie se molestará en pagar por apoyo, mucho menos por herramientas para hacer más productiva la adopción de un proyecto en particular, para un proyecto aleatorio con minúsculas adopciones.
Sin embargo, esto no es un problema para Apache Kafka.
VEA: Una mirada desde adentro a por qué la adopción de Apache Kafka está explotando (ConsejoTecnologico.com)
Apache Kafka ya está en producción en miles de compañías alrededor del mundo, incluyendo más de un tercio de las Fortune 500 y la mayoría de los gigantes tecnológicos de Silicon Valley. La razón es simple: Apache Kafka permite a las empresas pasar de tratar los datos como algo estático, que se encuentra en almacenes de datos o en los llamados «lagos de datos», a construir sobre flujos de datos en tiempo real que cambian continuamente con su negocio.
Haciendo cosas viejas nuevas
Si esto suena perjudicial para la vieja guardia de la infraestructura de datos, lo es. Como Jay Kreps, CEO de Confluent, me dijo en una entrevista, el enfoque que Confluent ha tomado con Kafka significa que puede»actuar como un reemplazo para muchas soluciones de software heredadas en sistemas de mensajería empresarial, ESBs, procesamiento de eventos complejos, integración de datos y ETL, todo el material duro, pegajoso y costoso que mantiene a los centros de datos funcionando y mantiene a las empresas en el negocio». Tampoco se trata sólo de modernizar la infraestructura heredada: «Este cambio en la arquitectura puede potenciar los casos de uso de microservicios, procesamiento de flujos e IO que antes no eran posibles.»
Así que, por un lado, Apache Kafka actualiza los viejos enfoques tecnológicos, y en el proceso permite casos de uso hasta ahora imposibles. No está mal.
Esto es algo muy importante, y bastante único. Como me dijo Kreps:
Apache Kafka hace esto convirtiéndose en el «sistema nervioso central de datos», tal y como lo diseña Kreps. En otras palabras, todo lo que sucede en una empresa -cada interacción con el cliente, cada solicitud de API, cada cambio en la base de datos- puede representarse como un flujo en tiempo real al que cualquier otra cosa puede acceder, procesar o reaccionar.
VER: Cómo Apache Kafka toma la corriente principal de datos de streaming (ConsejoTecnologico.com)
Para entender por qué es tan importante, vale la pena considerar una analogía con una tecnología de comunicación más antigua: el teléfono. Imagínese si el teléfono hubiera requerido que cada casa construyera líneas telefónicas personalizadas para conectarse con cada persona a la que quisiera llamar, en lugar de conectarse a una central telefónica que lo conectara con todos.
Suena ridículo, pero esta es más o menos exactamente la situación de cómo se conectan los sistemas y aplicaciones digitales en las empresas. Apache Kafka proporciona una plataforma de streaming central que actúa como central de intercambio como el sistema telefónico, donde los flujos de datos pueden ser almacenados, procesados y enviados a cualquier suscriptor.
Si esto suena mágico, bueno, lo es. O puede serlo. Apache Kafka no viene con todos los timbres y silbidos (y equipaje) de un sistema de mensajería tradicional, y puede ser duro en los bordes. Aquí es donde Confluent pretende mejorar las cosas mediante el empaquetado de Apache Kafka de código abierto junto con funciones adicionales patentadas que facilitan su uso y llenan algunos de los vacíos de sus productos. Es una de las razones por las que Sequoia, Benchmark e Index Ventures inyectaron otros 50 millones de euros en la empresa para acelerar estos esfuerzos, ya que las empresas buscan formas de gestionar volúmenes de datos cada vez mayores.
Boletín informativo de Big Data Insights
Domine los fundamentos de la analítica de datos de gran tamaño siguiendo estos consejos de expertos y leyendo los conocimientos sobre las innovaciones de la ciencia de datos. Lunes de entrega