El lanzamiento de anuncios Bidtellect está superando con creces su peso gracias a las grandes herramientas de datos de código abierto.
Los grandes datos no son nuevos. De hecho, hemos tenido una infraestructura de datos bastante sofisticada mucho antes de que se creara Hadoop, Spark y otros. No, la gran diferencia en los grandes datos es que toda esta fantástica infraestructura de datos es software de código abierto que se ejecuta en servidores de productos básicos.
Hace más de una década, el empresario Joe Kraus’ declaró que «nunca ha habido un mejor momento para ser empresario porque nunca ha sido más barato serlo», y tenía razón, aunque no podía prever cuánto. Aunque Kraus elogió las virtudes de Linux, Tomcat, el servidor HTTP Apache y MySQL, los startups de hoy en día tienen acceso a una deslumbrante selección de la mejor infraestructura de datos que el dinero no necesita comprar.
De esta manera, las empresas de nueva creación son capaces de poner un objetivo en las espaldas de las empresas rivales mucho mejor financiadas.
Arbitraje de los ojos
Tome Bidtellect, por ejemplo, un inicio de adtech. La plataforma Bidtellect ayuda a anunciantes, agencias y compañías de medios a entregar anuncios nativos dirigidos a todos los dispositivos, en cualquier formato. En la práctica, esto significa que Bidtellect debe rastrear y analizar el inventario potencial de colocaciones de anuncios -que son millones diariamente- para ver cómo cada uno se ve afectado por numerosas variables. Una vez que los anuncios empiezan a ejecutarse, es esencial hacer un seguimiento de su rendimiento en relación con los indicadores clave de rendimiento (KPI) del cliente.
VER Las 10 prioridades para una implementación exitosa de Hadoop (ConsejoTecnologico.com)
Como me dijo Jeremy Kayne, Director Técnico de Bidtellect, en una entrevista, Bidtellect está involucrado en «una especie de arbitraje», mediante el cual la empresa compra inventario por impresión (por pantalla), pero luego vende anuncios por clic. Para construir un negocio viable y no un candidato para la protección de la bancarrota, «Es esencial que seamos capaces de predecir cuántos clics generará un anuncio en un sitio determinado, en un determinado tipo de dispositivo, en un determinado momento del día, y a través de decenas de otras variables, de modo que podamos fijarle el precio correcto y obtener un beneficio justo».
Aquí es donde entran en juego los grandes datos.
«Para hacer estas predicciones con precisión, identificar oportunidades publicitarias viables y negociar tarifas y precios viables, teníamos que encontrar una forma práctica de recopilar, gestionar y comprender los miles de millones de transacciones y puntos de datos implicados», dijo Kayne.
El sistema que recoge y rastrea toda esta información equivale a petabytes en volúmenes de datos. Esto es grande, pero está a punto de hacerse más grande. Como detalló Kayne, Bidtellect está actualmente aumentando su captura diaria de datos de mil millones a cinco mil millones de transacciones, con el objetivo de alcanzar en breve los 15 mil millones de transacciones diarias.
Escalar a 15.000 millones de euros
Fundada en 2014, Bidtellect no se centró inicialmente en la escala, prefiriendo optimizar el rendimiento. Esto permitió a la empresa subcontratar sus análisis a un proveedor de servicios externo, Metamarkets. Metamarkets replicó los datos del ecosistema publicitario de Bidtellect, gestionándolos en bases de datos separadas utilizadas para realizar consultas y producir informes. Los analistas de Bidtellect que necesitaban nuevos conocimientos tenían que solicitarlos a Metamarkets y esperar a que se desarrollaran y ejecutaran las consultas.
Más información sobre Big Data
Aunque esto funcionó en los primeros tiempos de la empresa, el acuerdo comenzó a plantear tres problemas. El primero fue el costo, con un gasto de Bidtellect de más de 300.000 euros al año, y las proyecciones se cifraban en más de 1 millón de euros al año a medida que Bidtellect se ampliaba. Y lo que es peor, «gran parte de este coste consistía simplemente en almacenar los mismos datos dos veces y mantenerlos sincronizados», dijo Kayne.
El siguiente problema eran simplemente las inexactitudes. Los datos entre el sistema de Bidtellect y los Metamercados con frecuencia se tornaban incoherentes, lo que socavaba la confianza en los análisis. Finalmente, la accesibilidad fue «una verdadera molestia», ya que Bidtellect «no podía acceder fácilmente a los datos en bruto para consultar la fuente directamente».
Algo tenía que ceder.
Ese algo fue la relación de Bidtellect con Metamarkets, ya que la compañía desechó la relación cada vez más costosa de una arquitectura moderna construida sobre Cloudera y Zoomdata, que no sólo puede escalar para satisfacer sus volúmenes sino que ya está ahorrando a Bidtellect casi un millón de euros al año. Y lo que es más importante, la elección de usar Cloudera y Zoomdata significó que Bidtellect también estaba adoptando un software de código abierto increíblemente potente.
SEE Apache Spark se convierte en el proyecto de código abierto más activo en grandes volúmenes de datos (ConsejoTecnologico.com)
Para apoyar la ingestión de 50 millones de registros por hora, Bidtellect confía en los grandes marcos de datos de código abierto más populares, entre ellos:
- Apache Kafka para crear un flujo de datos consistente y fiable para la mensajería distribuida.
- Apache Spark para realizar agregaciones de datos rápidas y a gran escala.
- Apache Hadoop (HDFS) se utiliza para el procesamiento y almacenamiento distribuido.
- Apache Impala como motor de consulta que utiliza un procesamiento masivo en paralelo para proporcionar un acceso analítico de alto rendimiento y a gran escala directamente desde los almacenes de datos HDFS (Hadoop.
Este es el mundo en el que vivimos, alimentado por una tecnología de código abierto cada vez más potente, hecha más fácilmente consumible por proveedores como Zoomdata y Cloudera. Esto significa que las nuevas empresas como Bidtellect pueden superar con creces su peso, reconfigurando las industrias, tal y como Uber, que funciona con código abierto, lo ha hecho con las industrias de taxis y alquiler de coches.
Boletín informativo de Big Data Insights
Domine los fundamentos de la analítica de datos de gran tamaño siguiendo estos consejos de expertos y leyendo los conocimientos sobre las innovaciones de la ciencia de datos. Lunes de entrega