Cómo gestionar el almacenamiento para big data

El objetivo final del big data debe ser la integración con el negocio. Sin embargo, en este proceso hay dificultades más allá de la propia gestión de los datos. Uno de ellos tiene que ver con el almacenamiento de la información.

Si 2017 ha demostrado algo, es que big data y los proyectos de análisis ya no se consideran emergentes y experimentales, y las compañías esperan pacientemente los resultados. Una vez finalizado este periodo, las tareas para los CDO y los CIO en 2018 serán trabajar con big data y análisis como tecnologías maduras que son parte inherente de las TI de sus empresas.

La cantidad de datos que las empresas están almacenando está creciendo rápidamente, y los macrodatos son un importante contribuyente. En la prisa por instalar grandes sistemas de análisis e información, muchos departamentos de TI no le han prestado mucha atención al lado del mantenimiento de estos sistemas, como dónde se almacenan los datos en última instancia.

En muchos casos, las empresas han optado por mantener todos sus datos, pero el resultado ha sido el aumento de los costes de almacenamiento. Las empresas también han avanzado poco en la definición de qué datos son importantes, qué datos son confidenciales y qué datos son inútiles y pueden descartarse.

En 2018, los CDO y los CIO pueden abordar este problema reuniéndose con asesores legales, reguladores y unidades de negocios para identificar qué datos se deben conservar y cuáles pueden descartarse. Luego pueden diseñar políticas para la retención de datos, y pueden comenzar a asignar datos a los dispositivos de almacenamiento adecuados en función de la frecuencia con que se usan los datos.

El almacenamiento se utiliza mejor, porque solo los datos a los que acceda con frecuencia deben estar en un costoso almacenamiento de estado sólido. Los datos que rara vez o nunca se usan pueden estar en un disco de almacenamiento en frío barato.

De la mano con la organización del almacenamiento se encuentra la arquitectura de datos general para big data y análisis. TI tiene dos desafíos en esta área.

  • En primer lugar, los datos deben definirse y distribuirse en mercados de datos más pequeños que los departamentos individuales pueden usar, lo que reduce la contención de acceso en un único repositorio.
  • En segundo lugar, se mantiene un repositorio principal central que actualiza constantemente los datos distribuidos a los mercados de datos para que todos los departamentos utilicen la misma información actualizada.

También te interesa