Blog

La gobernanza del dato en entornos Big Data, Cloud e IoT

6 de Febrero de 2020
Gobierno de los datos ante los nuevos paradigmas de transformación digital: Big Data, Cloud e IoT
Tabla de contenido0

Los avances tecnológicos contribuyen a aumentar la competitividad en distintos sectores, obligándonos a buscar opciones de diferenciación. Hasta hace unos años, esas opciones pasaban por la calidad del producto y el proceso de producción.

Hoy en día, ese diferenciador es la información, y para ello necesitamos tener una información veraz, ordenada y con una correcta gestión. Desafortunadamente, quienes buscan conseguir este diferenciador sin sustentarlo con una estrategia adecuada terminan obteniendo resultados de poco valor al negocio. Por todo esto, cada día más se está hablando de gobernanza del dato. Una operativa que nos ayudará en el proceso de una gestión correcta de los datos.

¿Qué significa Data Governance?

Data Governance son unos mecanismos de ayuda para la toma de decisiones y responsabilidades para procesos relacionados con la información. Con un trabajo previo en el que se establecerán unos modelos y se describirá quien puede tomar que acciones, que datos y cuando y con qué métodos.

El Data Governance concierne a cualquier individuo o grupo que tenga algún tipo de interés en cómo se crean los datos, cómo se recogen, procesan, manipulan, almacenan y se ponen a disposición para su uso. A menudo estas personas interesadas en los datos delegan en los equipos de IT y de gestión de datos, las decisiones acerca de cómo realizar las tareas enumeradas anteriormente. Pero algunas veces, estas actividades requieren decisiones que realmente deberían ser tomadas por grupos de interés, de acuerdo con procesos acordados para tomar esas decisiones. En ese momento es cuando el Data Governance entra en juego.

¿Cómo podemos desarrollar un programa de Data Governance?

Afortunadamente, desarrollar o mejorar una cultura de gestión de datos e información, no tiene que convertirse en un reto que se inicie desde una hoja en blanco, existen ciertos marcos o estándares en los que se define la metodología e indicadores de un correcto gobierno del dato tradicional, como son:

  • DMBOK: Data Management Book of Knowledge. Gestión y la Utilización de Datos.
  • TOGAF: The Open Group Architecture Framework. Arquitectura de datos como parte de la arquitectura general de una empresa.
  • COBIT: Control Objectives for Information and related Technology. Gobernabilidad general del área Tecnologías de la Información.
  • DGI: Data Governance Framework. Es un marco de referencia simple para generar la Gobernabilidad de Datos.

¿Qué implicaría un marco de trabajo del gobierno de grandes volúmenes de datos (Big Data)?

Debido a el proceso de transformación digital y modernización tecnológica en el que estamos inmersos actualmente, este concepto de “gobierno y soberanía del dato” necesita una adaptación y redefinición. Los frameworks presentados necesitan en su mayoría ampliarse con nuevos requisitos. Y es que el gran volumen de datos y la amalgama de distintas tecnologías que acarrean nuevos paradigmas como el Big Data, IoT o Cloud provocan que las organizaciones tengan problemas para extraer datos reales y de alta calidad. Los riesgos más frecuentes son:  las muchas fuentes y tipos de datos, el tremendo volumen de datos, los dispares enfoques y casos de uso y los diferentes flujos de procesamiento y almacenamiento con los que pueden implementarse, además de la gran volatilidad y la inexistencia de estándares de calidad de datos unificados.

Por ejemplo, la abstracción DataLakes o mares de datos, es la materialización de todos estos riesgos y problemas y el mejor ejemplo de por qué nuevas políticas de gobierno y soberanía del dato son necesarias.

La transformación más profunda se produce por la digitalización y la posibilidad de conectar en tiempo real a todos los actores sociales mediante Internet. Y es en este punto, en el podemos establecer que el gobierno de datos deberá mejorar la calidad de éstos, incentivar un eficaz uso compartido de esta información, proteger los datos sensibles y gestionar el conjunto de datos a lo largo de su ciclo de vida.

El primer concepto por introducir dentro del gobierno del dato es el ciclo de vida. Este no es un concepto novedoso, pero hay que adaptarle con las características 5 vs de los grandes volúmenes de datos. Mediante él, conseguimos definir y conocer los datos, su naturaleza y las fases por las que necesitan pasar para transformarse en información de valor.

A continuación, deberíamos ser capaces de reconocer los objetivos, principios rectores, metodología y agentes que queremos conseguir mediante el gobierno de los datos.

  • Los objetivos pueden comprender aspectos como: el acceso y autorización de los datos, la seguridad perimetral, protección de datos y autenticación integrada, la encriptación, la constante auditoría y análisis, y como objetivo global construir una arquitectura de datos unificada.
  • Los principios rectores principales son los siguientes: integridad, transparencia, auditabilidad, responsabilidad, gestión, control y balance, estandarización y gestión del cambio.
  • La metodología consta de ciertos pasos básicos como: 1) Establecer metas, 2) Definir métricas, 3) Tomar decisiones, 4) Comunicar políticas, 5) Medir resultados, y 6) Auditar.
  • Y por último, los agentes sobre los que aplicar el gobierno del dato son tres: personas, tecnologías y procesos.

También es necesario definir la implementación en el plano tecnológico del gobierno del dato. En el paradigma Big Data existe una pila de tecnologías que soportan la seguridad y soberanía del dato, como puede verse a continuación:

Principalmente, existen tecnologías encargadas de la seguridad en el acceso, como Kerberos (autenticación), Apache Ranger (autorización/auditoria) o Apache Knox (punto de acceso único). Y otras dedicadas a un seguimiento y control del flujo de los datos como Apache Atlas. Apache Atlas nos proporciona una API para informar de lo que ocurre con nuestros datos y posteriormente nos muestra un lineaje de estos.

¿Cuándo aplicar un programa de Data Governance?

Una organización necesita cambiar de una gestión informal de datos a un data governance cuando se da alguna de estas situaciones:

  1. La organización se ha hecho grande y la gestión tradicional no es capaz de hacer frente a actividades multifuncionales relacionadas con los datos.
  2. Los sistemas de datos de la organización se han vuelto tan complicados que con la gestión tradicional no es posible hacer frente a actividades multifuncionales relacionadas con los datos.
  3. Los arquitectos de datos de la organización u otros grupos necesitan el apoyo de un programa multifuncional que tenga la visión acerca de las preocupaciones y preferencias de datos de toda la empresa.
  4. Las regulaciones, normas, cumplimientos o requerimientos contractuales exigen un data governance más formal.

Un ejemplo de dominio y caso de uso asociado es el de la industria 4.0,con la definición del IDA-Industrial Data Space, que pretende ser un modelo de arquitectura de referencia para un estándar de intercambio de datos seguro para la Industria 4.0 y la transformación digital. Es decir, IDS es un estándar del gobierno del dato en la Industria 4.0.

Gorka Zarate Martínez

SOBRE EL AUTOR

Gorka Zarate Martínez

Responsable de la parte de desarrollo Java, Scala, Python, R para modelos BigData. Consultoría de modelos BigData (Spark, Nifi, Hdfs, Hbase, Kafka, AMS,…). Especialista en seguridad con Kerberos, Ranger, SSL…Arquitecto de software J2EE con más de 10 años de experiencia en el sector.
Autor:Gorka Zarate Martínez
Suscríbete a nuestras comunicaciones
CUÉNTANOS TU OPINIÓN
0 comentarios
CUÉNTANOS TU OPINIÓN
*campos obligatorios