Lea acerca de un ecualizador algebraico que resuelve un gran desafío de análisis de datos.
La Internet de los objetos va a abrir más fuentes de datos que nunca, y la manguera de bomberos de datos que está arrojando miles de millones de bits de datos a las empresas está trabajando sin descanso para mantenerse al día con el flujo. Al mismo tiempo, las organizaciones desean agregar y recombinar varios subconjuntos de estos datos en bases de datos innovadoras capaces de producir información empresarial innovadora.
Si bien este proceso de recombinación de datos es una consecuencia reciente del aprovechamiento de datos de gran tamaño para el análisis, hay un hecho que no es nuevo: el elemento estrangulador para alcanzar el objetivo de recombinación de datos sigue siendo la integración de datos y sistemas, ambas barreras históricas para la TI. El desafío de la integración de datos es lo que hace que enfoques nuevos como el de Algebraix Data sean tan intrigantes.
«Durante 40 años, todo el mundo ha estado construyendo bases de datos relacionales para reunir datos, y hemos estado dominados por estos ecosistemas relacionales», dijo Charlie Silver, CEO de Algebraix Data. «Lo que la gente no siempre se da cuenta es que en el curso de la innovación tecnológica a lo largo de las décadas, ahora hay más lenguajes de programación nuevos que los lenguajes humanos. Junto con esto, hay cientos y cientos de modelos de datos diferentes».
El problema con el desarrollo independiente de diferentes lenguajes de programación y modelos de datos es que no se piensa en la integración, por lo que estos activos no se comunican entre sí. Para los agregadores de datos corporativos, estos modelos de datos y fuentes de datos dispares se convierten en obstáculos importantes cuando es necesario encontrar formas para que todos ellos trabajen juntos en un escenario analítico.
«Cuando fundamos nuestra compañía, fue fundada con la misión de encontrar un denominador común y universal que hiciera que todas estas diversas fuentes de datos se comunicaran entre sí», dijo Silver. «Las matemáticas siempre han sido el lenguaje universal, ya sea que se encuentre una expresión matemática que pueda representar un gráfico, datos de Internet of Things, una base de datos o datos basados en texto. Todos estos datos pueden ser descritos algebraicamente a través de variables, uniones, intersecciones, distribuciones, y así sucesivamente.»
Silver dio el ejemplo de describir a una persona que era periodista. «Describir a un individuo en particular como periodista se puede hacer en una declaración algebraica», dijo.
El siguiente paso es convencer a la industria tecnológica del potencial universal de las matemáticas y su capacidad de servir como una especie de «ecualizador» de datos que puede conectar cualquier tipo de datos en una sola comunidad de datos con otros datos. Para que esto suceda, hay tantos obstáculos políticos y de propiedad que superar como desafíos técnicos.
«Nos comparamos más a una empresa de biotecnología que a una empresa de nueva creación», reconoció Silver. «Nos centramos en una investigación y desarrollo muy profundos. Somos como una biotecnología que primero descubre un compuesto único y luego debe averiguar las aplicaciones precisas en las que funcionará».
Cómo la empresa está avanzando en su trabajo
Algebraix recientemente obtuvo $40 millones en financiamiento. También tiene una relación analítica activa con la Academia Khan, un recurso educativo gratuito en línea para los grados K al 12 que se centra en las matemáticas y las ciencias. Además, Algebraix ha cambiado su punto de vista sobre su investigación, que había considerado como un secreto comercial estrechamente guardado. En cambio, ahora ha dado parte de su trabajo a la comunidad de código abierto con la esperanza de que se puedan encontrar nuevas formas de comercializar la tecnología.
«En el futuro, también estamos planeando desarrollar herramientas que las organizaciones puedan utilizar con la tecnología», dijo Silver, «pero inicialmente, estamos proporcionando la tecnología como un servicio en el que realizamos los análisis utilizando nuestro enfoque, y luego entregamos los resultados finales de los análisis a los clientes».
¿Qué tan bien está funcionando la tecnología?
«Es muy efectivo en consultas analíticas», dijo Silver. «Todos los datos se organizan algebraicamente, por lo que el motor de datos sabe exactamente a dónde ir para encontrar las respuestas a una consulta específica. En el proceso, el 99 por ciento de los datos en un repositorio de datos no tiene que ser procesado debido a estos criterios selectivos. Esto puede optimizar el rendimiento de un clúster Hadoop que puede tardar horas o días en ejecutarse al obtener el mismo resultado en cuestión de segundos».