La escalabilidad solía ser un secreto reservado para las empresas web, pero ahora las empresas convencionales pueden escalar como Google.
En el mundo de la informática distribuida, pocas tiendas de datos pueden presumir de tener las cualidades de Apache Cassandra. Nacida dentro de los centros de datos de Facebook hace ocho años, Cassandra dirige oleoductos de datos a gran escala en empresas como Apple y Netflix. Ahora ha saltado el abismo hacia las empresas dominantes.
Más información sobre Big Data
Pero, las empresas dominantes todavía luchan por adoptar Cassandra y otros sistemas distribuidos modernos como Apache Kafka y Apache Spark. Una empresa típica carece del ejército de ingenieros y operadores que controlan Facebook y Netflix.
Las empresas de Global 2000 están empezando a graduarse de la «pila» de máquinas virtuales, donde cada aplicación obtiene su propio clúster dedicado, a un nuevo modelo más ligero de aplicaciones y servicios que comparten recursos a través de todo el centro de datos o nube. Se trata de la tendencia general que impulsa los contenedores, los microservicios, las herramientas «nativas de la nube» y toda la sopa de letras de las palabras de moda en la infraestructura de las empresas de hoy en día.
SEE MongoDB y Cassandra anuncian bases de datos relacionales (ConsejoTecnologico.com)
Para ayudar a resolver estos problemas, DataStax, el proveedor de software de base de datos para aplicaciones en nube basadas en Cassandra, se alinearon recientemente con el recién lanzado DC/OS (Datacenter Operating System), el proyecto de plataforma de centro de datos de código abierto liderado por Mesosphere con más de 60 socios de lanzamiento. Datastax y Mesosphere tienen como objetivo facilitar aún más la instalación y ejecución de Cassandra y otros sistemas sofisticados, proporcionando características tales como la instalación con un solo clic desde el universo DC/OS de la tienda.
Recientemente hablé con Martin Van Ryswyk, Vicepresidente Ejecutivo de Ingeniería de DataStax, sobre cómo se aprovechan de DC/OS. Describió cómo el dominio de este nuevo paradigma para ejecutar y escalar aplicaciones distribuidas está siendo impulsado por los grandes datos.
ConsejoTecnologico.com: ¿Por qué Cassandra es tan popular?
Van Ryswyk: Cassandra es conocida por ser una base de datos siempre activa, con capacidad para múltiples centros de datos, que realmente destaca en la combinación de rendimiento y bajo rendimiento de latencia que escala. Netflix nos utiliza para la personalización. Netflix cambió Oracle por DataStax Enterprise porque su infraestructura anterior de Oracle colapsó cuando el volumen de Netflix subió exponencialmente, y se produjeron ciertas interrupciones. Estamos haciendo más de un billón de transacciones al día con Netflix que es latencia de un solo dígito.
Apple iTunes, eBay, Spotify: hemos tenido un montón de uso con estos grandes negocios basados en la web. Pero ahora, también estamos viendo grandes bancos, empresas de TI de Fortune 500 y más de 500 clientes empresariales que potencian su infraestructura de datos con Cassandra y DataStax Enterprise.
ConsejoTecnologico.com: ¿Por qué es tan importante el centro de datos múltiple?
Van Ryswyk: Las aplicaciones de hoy en día no pueden tolerar ningún tiempo de inactividad. Nuestros clientes necesitan que su conjunto de datos se replique en una arquitectura de clúster sin maestro, de modo que puedan tener a Nueva York, San Francisco y Londres sirviendo todas las consultas de los usuarios con los mismos niveles de rendimiento. Además, si su centro de datos de Nueva York se desconecta, su aplicación no lo hará. Netflix realmente perdió todo un centro de datos cuando AWS perdió una región, pero ni un solo cliente recibió un mensaje de error debido a la arquitectura de centro de datos múltiple de DataStax.
SEE NoSQL sigue creciendo, pero las bases de datos relacionales siguen dominando los grandes datos (ConsejoTecnologico.com)
Tenemos muchos clientes que tienen dos centros de datos privados y que girarán en Amazon o Azure en otro centro de datos de ese clúster sólo para que tengan un plan de copias de seguridad resistente en caso de que sus propias instalaciones tengan algún problema. Hace un par de años eso sonaba como el futuro de la TI, pero se está integrando muy rápidamente y es un requisito que Cassandra es realmente capaz de resolver de manera única.
ConsejoTecnológico.com ¿Qué valor extra da DC/OS a los usuarios de DataStax Enterprise?
Van Ryswyk: DataStax considera que somos agnósticos de la infraestructura subyacente. Permitimos a los clientes hacer girar los nodos, ya sean máquinas virtuales o contenedores, y luego DataStax Enterprise obtiene una dirección IP y se encarga de la instalación. Por lo tanto, nos centramos realmente en el aprovisionamiento con la base de datos en mente y en la forma en que la base de datos se comunica de nodo a nodo.
Somos muy buenos en eso.
Pero, con las arquitecturas de microservicios y los desarrolladores que construyen tuberías de datos de muchos marcos de trabajo de aplicaciones, gran parte de la infraestructura está evolucionando por debajo de la capa que ejecutan los marcos como DataStax Enterprise. Realmente comenzamos a ver esto con el advenimiento de la llamada pila «SMACK», la muy popular combinación de Apache Spark, Apache Mesos, Akka, Cassandra y Kafka. Cuando tenga estas tecnologías instaladas, su equipo de desarrollo podrá crear ricas canalizaciones de datos y aplicaciones basadas en datos que se han creado para aumentar la velocidad y la resistencia.
Para los usuarios empresariales de los sectores más tradicionales (banca, comercio minorista, etc.), el punto en el que las cosas se ponen realmente complicadas para ellos es cuando necesitan instalar cada uno de estos marcos de trabajo y averiguar cómo conectarlos, pero también escalarlos de forma independiente. Por lo tanto, DevOps se está moviendo hacia la plataforma DC/OS para facilitar la instalación, conexión y escalabilidad de todo, y para ofrecer inteligencia a nivel de infraestructura en la entrega de recursos, incluyendo una alta disponibilidad tanto de datos como de computación, a estos servicios.
ConsejoTecnologico.com: ¿Cuál es la posición de DC/OS en relación con Google Kubernetes, Docker SWARM y otras soluciones de orquestación que apuntan a una oportunidad similar?
Van Ryswyk: Es un paisaje bastante confuso para las empresas. No hay campamentos limpios. Hay mucha competencia entre estas tecnologías en este momento. En realidad, estamos apoyando todos estos marcos en paralelo.
Pero desde nuestro punto de vista, DC/OS es realmente emocionante por la sencilla razón de que es la única plataforma que tiene un programador de dos niveles que simplifica la instalación y escalabilidad de todos estos diferentes frameworks a través de una infraestructura compartida. Mencioné Spark, Akka, Cassandra y Kafka, y la popularidad de la pila SMACK, pero hay muchos otros marcos emergentes que existen y cada uno tiene sus propias y únicas preocupaciones sobre las operaciones de copos de nieve.
Y, DC/OS es la primera plataforma con la carta específica para simplificar la forma en que las empresas utilizan estas tecnologías, en lugar de pasar demasiado tiempo en las malas hierbas sólo desplegándolas y escalándolas. Para una compañía como DataStax que quiere que Cassandra sea ubicua como la capa de datos de la empresa, estar disponible en DC/OS significa que las barreras para usar nuestra tecnología, y cualquier tecnología que los usuarios quieran integrar con ella, son más bajas que nunca.