Controlar grandes cantidades de datos es un reto para los departamentos de TI. Así es como la IA y el aprendizaje automático pueden ayudar a clasificar, organizar y agregar grandes almacenes de información.

    Video: Cómo diferenciar entre inteligencia artificial, aprendizaje automático y aprendizaje profundoLos avances en inteligencia artificial, aprendizaje automático y aprendizaje profundo están afectando a las empresas. Pero, los términos a menudo se usan indistintamente. He aquí cómo distinguirlos.

    Según Samsung, el tráfico mundial de Internet superó un zettabyte -o mil millones de terabytes- en 2019. Ese número es enorme, pero no se acerca al total de datos que las empresas están almacenando.

    Aún más preocupante es la posibilidad de que, en la mayoría de las empresas, los datos «bajo gestión» sean erróneos.

    Las áreas clave del desafío de la gestión de datos son:

    • Comprensión de los datos oscuros
    • Retención de datos
    • Integración de datos para obtener los mejores resultados analíticos
    • Acceso a los datos

    Los departamentos de TI tienen dificultades en estas áreas por las siguientes razones:

    • El flujo de datos entrantes de todo tipo, muchos de ellos no estructurados, es demasiado grande para ser gestionado diariamente, por lo que terminan poniendo los datos en cualquier lugar.
    • El debate entre la cantidad de datos históricos que exigen los procesos legales y de auditoría, como el eDiscovery y las normativas del sector, hace que los responsables de la toma de decisiones empresariales se muestren reacios a descartar los datos; y a los usuarios finales tampoco les ha gustado sentarse en las reuniones anuales de revisión para discutir las políticas de retención de datos.
    • La integración de datos es una de las tareas más difíciles de realizar para TI, y sólo se está intensificando a medida que conceptos como la agregación de datos desempeñan un papel más importante en el análisis, de modo que, aparentemente, a diferencia de los conjuntos de datos, pueden combinarse en un repositorio con capacidad de búsqueda para nuevos tipos de consultas de negocio.
    • El acceso rápido a los datos es una demanda del negocio, pero el almacenamiento de alta velocidad en las instalaciones o en la nube es costoso, por lo que algunos datos deben archivarse para obtener un almacenamiento más lento y barato. Para abordar los problemas, la gerencia otorga poder a las personas en los proyectos, lo que quita tiempo a otros objetivos importantes.

    La pregunta ahora es: ¿pueden el aprendizaje automático, la inteligencia artificial (IA) y la analítica proporcionar asistencia en el área de la gestión de datos, especialmente para la gran cantidad de datos no estructurados?

    VER: Mientras se avecina el Reglamento General de Protección de Datos (GDPR) de la UE, los proveedores de tecnología preparan los lanzamientos (ZDNet)

    Más información sobre Big Data

    Aquí es donde el aprendizaje automático, la inteligencia artificial y la analítica pueden ayudar:

    Clasificación de datos oscuros

    Cada sistema corporativo, y cada departamento de negocios, tiene trozos de datos que se han acumulado pero de los que la gente no sabe nada. Mediante el uso del aprendizaje automático y la combinación de su potencia con algoritmos que indican cómo clasificar y manejar diferentes tipos de mensajes de correo electrónico, documentos, imágenes, etc., almacenados en servidores, el aprendizaje automático, la IA y los análisis pueden trabajar con estos datos desconocidos y preclasificarlos por usted. Un humano conocedor puede entonces revisar lo que la automatización recomienda como esquema de clasificación de datos, ajustarlo y realizar el esquema. Parte del proceso también podría abordar la retención de datos, ya que los análisis producen un conjunto de recomendaciones sobre las cuales los datos podrían ser potencialmente eliminados de los archivos.

    Decidir qué tirar

    El aprendizaje automático, los análisis y la inteligencia artificial pueden identificar objetivamente los datos que rara vez se utilizan o que nunca se utilizan, y recomendar que se desechen, pero no tienen las mismas capacidades de discernimiento que los empleados. Por ejemplo, estos procesos pueden seleccionar datos o registros a los que no se ha tenido acceso durante más de cinco años, lo que indica que los datos podrían estar obsoletos. Esto ahorra tiempo a los empleados en la búsqueda de estos datos potencialmente obsoletos, porque ahora todo lo que tienen que hacer es determinar si hay alguna razón para mantenerlos.

    Agregar datos

    Cuando los desarrolladores de análisis determinan los tipos de datos que necesitan agregar para las consultas, a menudo producen un repositorio para la aplicación y luego incorporan varios tipos de datos de diferentes fuentes para formar un conjunto de datos analíticos. Para ello, deben desarrollar métodos de integración para acceder a las diferentes fuentes de las que extraen datos. El aprendizaje automático puede hacer que este proceso, aún muy manual, sea más eficiente al desarrollar automáticamente «mapeos» entre las fuentes de datos y el repositorio de datos de la aplicación. Esto reduce los tiempos de integración y agregación.

    VER: Cómo implementar la IA y el aprendizaje automático (PDF gratuito) (ConsejoTecnologico.com)

    Organización del almacenamiento de datos para un mejor acceso

    En los últimos cinco años, los proveedores de almacenamiento de datos han hecho avances significativos en la automatización de la gestión del almacenamiento, gracias al desarrollo de un almacenamiento de estado sólido de menor coste. Estos avances tecnológicos han permitido a los departamentos de TI utilizar motores de almacenamiento «inteligentes» que utilizan el aprendizaje automático para ver qué tipos de datos se utilizan con más frecuencia y cuáles rara vez o nunca se utilizan. La automatización puede utilizarse para almacenar automáticamente datos en almacenamiento rápido o lento, basándose en las reglas de negocio insertadas en los algoritmos de la máquina. La automatización evita que los administradores de almacenamiento tengan que ocuparse de la optimización del almacenamiento manualmente.

    La gestión de datos es un reto importante de TI que no se acerca a la resolución en la mayoría de las organizaciones, y va a empeorar a medida que los datos continúen llegando.

    Los CIOs, arquitectos de datos y gerentes de almacenamiento necesitan resaltar el problema a los ejecutivos de nivel C, pero los proyectos de gestión de datos no son fáciles de «vender».

    Sin embargo, al señalar el valor de tiempos más rápidos para comercializar los análisis y las potenciales reducciones del poder de las personas y de los costes de almacenamiento para la gestión de datos, los responsables de TI al menos tienen puntos de entrada viables en las discusiones a nivel C sobre cómo aumentar la agilidad estratégica y reducir el coste de las operaciones al mismo tiempo.

    Boletín informativo de Big Data Insights

    Domine los fundamentos de la analítica de datos de gran tamaño siguiendo estos consejos de expertos y leyendo los conocimientos sobre las innovaciones de la ciencia de datos. Lunes de entrega

    mismo