El tratamiento de la variedad de datos y fuentes de datos se está convirtiendo en una preocupación cada vez mayor para las empresas. Aquí hay maneras de atacar el problema de la variedad de datos.

    Además del volumen y la velocidad, la variedad se está convirtiendo rápidamente en un tercer gran factor V de datos. El problema es especialmente frecuente en las grandes empresas, que tienen muchos sistemas de registro y también una abundancia de datos bajo gestión estructurada y no estructurada. Estas empresas a menudo tienen múltiples funciones de compra, fabricación, ventas, finanzas y otras funciones departamentales en subsidiarias y sucursales separadas, y terminan con sistemas «silenciados» debido a la duplicidad funcional.

    En consecuencia, lo que las empresas están encontrando mientras trabajan en sus grandes iniciativas de datos y análisis es que es necesario aprovechar la variedad de estos datos y fuentes de sistemas para maximizar el rendimiento de sus análisis y también para aprovechar los beneficios de lo que aprenden en tantas áreas de la empresa como puedan.

    Las funciones de compras descentralizadas con sus propios sistemas de compras y repositorios de datos separados son un gran ejemplo.

    «Cuando las adquisiciones se descentralizan, como suele ocurrir en empresas muy grandes, existe el riesgo de que estas diferentes organizaciones de compras no obtengan toda la ventaja que podrían obtener cuando contratan servicios», dijo Andy Palmer, director ejecutivo de Tamr, que utiliza el aprendizaje automático y algoritmos avanzados para»conservar» los datos de múltiples fuentes mediante la indexación y unificación de los datos en una sola vista. «Teóricamente, los agentes de compras deberían poder beneficiarse de las economías de escala cuando compran, pero no tienen forma de ver todos los sistemas de compra en toda la empresa para determinar cuál es el mejor precio para el producto que están comprando y que alguien en la empresa ha podido obtener».

    Palmer dice que Tamr ofrece una solución en esta área al ofrecer una solución de sitio web a un «mejor precio» que los agentes de compras de diferentes divisiones corporativas pueden consultar. El servicio utiliza el aprendizaje de la máquina y los algoritmos de Tamr para analizar diferentes categorías de datos de compra a través de diferentes sistemas de compra con el fin de obtener los mejores precios, a los que los agentes de compras de toda la empresa pueden acceder. «Utilizamos una API (interfaz de programación de aplicaciones) para que el servicio pueda ser instrumentado en diferentes aplicaciones de adquisición», dijo Palmer. «Los resultados para algunos de nuestros clientes han sido ahorros anuales en compras de decenas de millones de euros, ya que ahora pueden obtener el’mejor precio’ por los bienes y servicios cuando negocian».

    Compras es sólo un caso de uso que señala la necesidad que tienen las grandes empresas de utilizar sus sistemas de registro para impulsar la gran analítica de datos que realizan. «Estas empresas empezaron poniendo sus grandes datos en repositorios de’lagos de datos’, y luego ejecutaron análisis», dijo Palmer. Más tarde, las empresas añadieron lenguajes de consulta como Hive y Pig para ayudarles a ordenar sus grandes datos. Sin embargo, lo que finalmente descubrieron fue que necesitaban proporcionar el contexto empresarial adecuado para hacer las preguntas analíticas correctas que beneficiarían a la empresa. Sólo podían hacerlo utilizando sus sistemas de registro y la organización de los datos inherentes a esos sistemas, como impulsores de sus grandes análisis de datos.

    Palmer dice que la»curaduría» de datos es una manera de atacar el problema de la variedad que viene con tener que navegar no sólo a través de múltiples sistemas de registro, sino también a través de múltiples fuentes de datos de gran tamaño. La combinación de aprendizaje automático y algoritmos avanzados que buscan «altos niveles de confianza» y calidad de datos en la tarea de cruzar y conectar datos de una variedad de fuentes en una única fuente condensada es una forma de hacerlo. «El resultado final no es un sistema de registro, sino un sistema de referencia que puede hacer frente a la variedad de datos que llegan a las grandes organizaciones», dijo Palmer.

    Encontrar formas de lograr una alta calidad de datos y confianza para el negocio mediante el aprovechamiento de la variedad de datos no es lo único que necesitan las empresas en su gran preparación de datos; también hay pasos como ETL (extraer, transformar, cargar) y MDM (gestión de datos maestros) que forman parte del continuo de preparación de datos. Sin embargo, el tratamiento de la variedad de datos y fuentes de datos se está convirtiendo en una preocupación cada vez mayor.

    «Hemos visto un gran crecimiento en estos proyectos en los últimos tres a seis meses», señaló Palmer. «Las organizaciones quieren tomar sus datos estructurados de una variedad de sistemas de registro, unificarlos, y luego usarlos para llevar el contexto de negocios a sus grandes análisis de datos desestructurados y semiestructurados».