Cómo aprovechar al máximo el software de deduplicación

La deduplicación es una tecnología madura que ya ha llegado al límite cuando se trata de nuevos tipos de medios, fuentes de almacenamiento masivo y redes amplias. He aquí algunas maneras de hacer que la deduplicación funcione mejor.

La deduplicación no ha cambiado mucho en las últimas dos décadas; sigue siendo un elemento básico del mantenimiento de la infraestructura en el que el software elimina los datos redundantes en los servidores y en el almacenamiento. El proceso de deduplicación puede ocurrir cuando las aplicaciones crean nueva información, los usuarios guardan archivos o los administradores ejecutan análisis de redundancia de almacenamiento.

La teoría y el objetivo detrás de esto es simple: ¿Por qué desperdiciar espacio de almacenamiento en dos copias de la misma cosa? La capacidad de almacenamiento puede ser prácticamente libre por megabyte o gigabyte, pero los costes de gestión pueden aumentar por terabyte o petabyte. La deduplicación es importante en un mundo donde la capacidad y la velocidad aumentan constantemente sus demandas de los sistemas subyacentes.

VER: Formulario de solicitud de copia de seguridad de datos (Tech Pro Research)

Lecturas imprescindibles del centro de datos

Aunque el software funciona básicamente igual que siempre, el gran cambio de los últimos años es la variedad de fuentes de software, explicó Bryan Hicks, director de ingeniería de sistemas del grupo de protección de datos de Dell EMC.

«Hace diez años, simplemente venía de una aplicación de respaldo. Hoy en día, uno se mueve a través de lo que llamamos clientes directamente desde el cliente, ahora hemos pasado a venir desde el origen de la aplicación o desde el propio sistema de almacenamiento, y a pasar por alto el middleware que las aplicaciones cliente-servidor heredadas tenían que procesar», explicó Hicks.

El mayor error que la gente comete al implementar software de deduplicación es que no tienen en cuenta los tipos de datos afectados. Por ejemplo, muchos de los llamados «grandes datos» se almacenan en bases de datos, o están encriptados, o son archivos multimedia, ninguno de los cuales es bien manejado por los sistemas de deduplicación más modernos. Hicks dijo que EMC hace frente a la encriptación al desencriptar los datos, desduplicarlos y volver a encriptarlos, lo que funciona pero hace que el proceso sea lento.

(EMC, debido a su lugar en el ecosistema de Dell que incluye VMware, se encuentra en una posición única para manejar la deduplicación de máquinas virtuales. Hicks dijo que están empezando a suceder pasos que integran la deduplicación más profundamente en la serie ESX de sistemas de hipervisor de VMware.)

La gran tendencia actual es el cambio de la deduplicación realizada en servidores individuales a lo que los expertos de la industria llaman gestión de datos de copia (CDM) en redes enteras, incluso si esas redes están desbordadas de máquinas virtuales y fuentes en nube. La deduplicación de fuentes de datos en redes masivas a escala no era posible antes debido a las limitaciones de velocidad, pero puede que aún se haga popular debido a las tendencias en los arreglos de flashes y la memoria no volátil.

VER: 10 verdades del mundo real sobre el éxito en las operaciones de TI (PDF gratuito) (ConsejoTecnologico.com)

En el desafío de la deduplicación desde el otro extremo está OpenDedup, que es software libre de código abierto. OpenDedup es mantenido en gran parte por Kanatek Technologies, que vende servicio y soporte. Pero el consejo para gestionar la deduplicación empresarial sigue siendo el mismo tanto si se tiene un producto FOSS como si se trata de un producto comercial, señaló Darryl Levesque, director de soluciones tecnológicas de Kanatek.

Levesque agregó que es un error común usar un servidor de tamaño incorrecto para un motor de deduplicación: el proceso necesita una dosis saludable de núcleos de CPU, memoria y almacenamiento. La mayoría de los programas de deduplicación se ejecutarán básicamente por sí mismos después de la configuración inicial, pero las administraciones deben recordar revisar los informes diarios para asegurarse de que los sistemas no están acumulando retrasos, especialmente cuando el almacenamiento en nube está en juego.

Levesque predijo que un mejor manejo de las bases de datos y los archivos de medios es la próxima dominó en caer en la deduplicación. Esto podría ocurrir dentro de cinco años, en gran medida gracias a las mismas tecnologías que Hicks citó para aumentar la velocidad de deduplicación en las redes, dijo.

Boletín de noticias de Data Center Trends

DevOps, virtualización, la nube híbrida, el almacenamiento y la eficiencia operativa son sólo algunos de los temas del centro de datos que destacaremos.

Entregado Lunes y Miércoles

mismo

Cómo aprovechar al máximo el software de deduplicación

Lecturas imprescindibles del centro de datos

Boletín de noticias de Data Center Trends

Artículos relacionados

Entradas recientes