Comprender los datos oscuros y su rol en los riesgos de seguridad de los datos
Las organizaciones generan y recopilan más datos que nunca, desde interacciones con clientes y registros de servidores hasta resultados de sensores y documentos internos. Si bien algunos de estos datos se analizan y utilizan activamente, una gran parte permanece intacta y sin examinar.
Esta información pasada por alto se conoce como datos oscuros. Puede incluir desde hojas de cálculo obsoletas hasta archivos de registro sin usar, que a menudo se almacenan sin un propósito claro. Si no se gestiona, el dark data no solo representa una oportunidad perdida para obtener información, sino que también aumenta los riesgos de seguridad y cumplimiento normativo. Lea esta publicación para saber qué son los datos oscuros, explorar ejemplos comunes y comprender por qué es esencial protegerlos.
¿Qué son los datos oscuros?
Los datos oscuros son información que una organización recopila, procesa y almacena durante sus actividades comerciales habituales, pero que no utiliza activamente para ningún propósito significativo. Se refiere a la información digital no utilizada, sin explotar o sin analizar que reside en sistemas, backups o almacenamiento. Se denomina «oscura» porque permanece oculta.
Características clave
El fenómeno de la acumulación de datos oscuros se produce porque las organizaciones piensan que toda la información que es posible capturar debe almacenarse, ya que podrían utilizarla algún día. En la práctica, estos datos no se utilizan en la mayoría de los casos porque, sin los metadatos adecuados, es difícil recuperar información específica, especialmente si el formato de los datos no está estructurado y no se puede recuperar mediante una consulta.
Los datos oscuros pueden provocar un desperdicio de espacio de almacenamiento y la pérdida de oportunidades. Son como el desorden digital, a menudo ignorado, pero potencialmente arriesgado y valioso. Su gestión adecuada puede reducir las amenazas a la seguridad, ahorrar costes y desbloquear información oculta.
Características clave de los datos oscuros
|
Característica |
Descripción |
|
Recopilados pero no utilizados |
Generados o recopilados durante las operaciones comerciales, pero nunca analizados ni utilizados. |
|
Almacenados a largo plazo |
A menudo se conservan por motivos de cumplimiento normativo, por costumbre o por falta de gestión de datos, no porque sean valiosos. |
|
Riesgo no identificado |
Puede contener información confidencial o regulada (PII, IP, datos financieros) que supone un riesgo para la seguridad o el cumplimiento normativo en caso de violación. |
|
Coste oculto |
Consume recursos de almacenamiento y backup, y requiere atención por parte de la gestión, sin ofrecer un retorno de la inversión. |
|
Potencial sin explotar |
Puede contener información valiosa para la inteligencia empresarial, la IA/ML o las mejoras operativas. |
Datos oscuros frente a datos no estructurados frente a datos obsoletos
Expliquemos la diferencia entre datos oscuros, no estructurados y obsoletos.
- Datos oscuros se recopilan, pero nunca se utilizan.
- Datos no estructurados carecen de una estructura predefinida y pueden utilizarse o no.
- Los datos obsoletos eran útiles, pero ahora están desactualizados.
Estos tipos de datos pueden superponerse. Una gran cantidad de datos oscuros son no estructurados, y algunos datos no estructurados pueden ser obsoletos. Sin embargo, no todos los datos no estructurados u obsoletos son oscuros.
Los tres tipos de datos se comparan en la tabla siguiente:
|
Función / tipo |
Datos oscuros |
Datos no estructurados |
Datos obsoletos |
|
Definición |
Datos recopilados que no se utilizan |
Datos sin un modelo o esquema predefinido |
Datos obsoletos que ya no son relevantes |
|
Formato |
Puede ser estructurado, semiestructurado o no estructurado |
Normalmente no estructurado (correos electrónicos, imágenes, vídeos) |
Puede ser cualquier formato |
|
Uso |
No se utiliza activamente, solo almacenado |
A menudo se usa o analiza activamente |
Se usaba anteriormente, pero ahora se ha abandonado |
|
Riesgos |
Cumplimiento oculto, riesgos de seguridad o de costes |
Difícil de gestionar y asegurar a gran escala |
Vulnerabilidad a fugas, desorden en el almacenamiento |
|
Valor potencial |
Alto si se analiza adecuadamente |
Alto si está organizado y estructurado |
Bajo o nulo, el valor ha caducado |
Por qué los datos se oscurecen
Los datos se oscurecen cuando se recopilan pero nunca se utilizan, analizan o se realizan tareas de gestión de forma eficaz. Esta situación suele producirse debido a una combinación de problemas técnicos, organizativos y estratégicos.
- Los datos se generan automáticamente . Los sistemas, las aplicaciones, los sensores y los registros producen continuamente grandes cantidades de datos. Gran parte de estos datos se capturan de forma pasiva (como los registros del servidor o la telemetría) sin un plan para analizarlos.
- Falta de concienciación o visibilidad . Las organizaciones a menudo no saben qué datos tienen, dónde están almacenados o qué contienen. Los datos pueden estar dispersos entre departamentos, sistemas heredados o plataformas en la nube, invisibles para los responsables de la toma de decisiones.
- Mala gestión y gobernanza de los datos . Sin políticas de clasificación, ciclo de vida o uso, los datos se almacenan sin ningún propósito. Esto ocurre cuando no se realizan auditorías periódicas para determinar qué sigue siendo valioso o necesario. En este caso, los datos pueden desorganizarse y volverse inutilizables. Algunas organizaciones carecen de especialistas en TI dedicados o de experiencia para trabajar con datos oscuros.
- Silos empresariales y fragmentación . Los datos quedan bloqueados en silos departamentales, lo que los hace inaccesibles para quienes podrían beneficiarse de ellos. Esto ocurre cuando los departamentos recopilan y almacenan datos de forma independiente. Es posible que los equipos no compartan información o ni siquiera se den cuenta de que tienen necesidades de datos que se solapan.
- Sistemas heredados y hábitos de almacenamiento . Los sistemas más antiguos archivan los datos «por si acaso» y los conservan indefinidamente sin revisarlos. Con el tiempo, estos datos archivados se olvidan o pierden relevancia. Las prioridades empresariales pueden cambiar y los datos que antes se utilizaban activamente pueden perder relevancia cuando cambian las prioridades de una organización.
- Falta de herramientas o habilidades para analizar datos . Las organizaciones pueden carecer de las herramientas, el personal o la estrategia necesarios para extraer y procesar conjuntos de datos grandes o complejos. Esto es especialmente cierto en el caso de datos no estructurados, como imágenes, audio y vídeo. Si los recursos son limitados, una organización puede dar prioridad a la recopilación de datos en lugar del análisis de datos.
- Coste o riesgo del análisis de datos . El procesamiento y el análisis de grandes volúmenes de datos pueden ser costosos. En los sectores regulados, el análisis de datos antiguos puede poner de manifiesto riesgos de incumplimiento normativo, por lo que se deja de lado.
- Percepción de falta de valor . Es posible que los equipos no vean un uso comercial claro para determinados tipos de datos. Si los datos no se recopilaron con un propósito específico, a menudo se pasan por alto.
- Bajo precio del almacenamiento . El coste relativamente bajo del almacenamiento digital anima a las organizaciones a conservarlo todo, incluso si no se utiliza. Este enfoque de «guardar ahora, decidir después» alimenta el crecimiento de los datos oscuros.
Los datos se convierten en oscuros cuando es más fácil almacenarlos que comprenderlos. La falta de estrategia, visibilidad y herramientas convierte la información potencialmente valiosa en un lastre digital, lo que aumenta los costes y los riesgos, al tiempo que se pierden oportunidades de obtener información valiosa.
Tipos y orígenes de datos oscuros
Los datos oscuros pueden ser estructurados, no estructurados y semiestructurados.
- Los datos estructurados suelen almacenarse en campos de bases de datos en tablas y pueden recuperarse mediante consultas. Los datos confidenciales, como la información bancaria, la información médica y los datos de los clientes, suelen almacenarse en bases de datos, pero es difícil clasificarlos debido a los permisos limitados y los requisitos normativos.
- Los datos no estructurados se almacenan sin utilizar bases de datos u hojas de cálculo y no pueden analizarse de forma eficaz sin conversión. Los mensajes de correo electrónico, los archivos PDF, los documentos de texto, las grabaciones de voz y las grabaciones de vídeo de vigilancia son ejemplos comunes de datos no estructurados que pueden convertirse en datos oscuros.
- Los datos semiestructurados no están estructurados, pero parte de su información está definida en campos de datos. Las páginas HTML, los documentos XML, las tablas, los gráficos y las facturas son ejemplos de datos semiestructurados. Es posible buscar y catalogar parcialmente estos datos.
Los diferentes tipos de datos oscuros pueden ser específicos de cada sector. A continuación, se muestran ejemplos de datos oscuros.
Registros del sistema y datos generados por máquinas
Este tipo de datos oscuros incluye:
- Registros de servidores y aplicaciones
- Registros de seguridad (incluidos los intentos fallidos de inicio de sesión)
- Registros de actividad de firewall y de red
- Telemetría de dispositivos
- Datos de sensores de dispositivos industriales o inteligentes
- Datos de geolocalización
- Registros de depuración y de errores
Interacciones con clientes
Las interacciones con clientes son otro tipo de datos no estructurados que incluyen:
- Correo electrónico (bandejas de entrada, archivos, plataformas específicas)
- Registros de chat del servicio de atención al cliente o bots
- Grabaciones de llamadas (centros de contacto, equipos de ventas)
- Mensajes de buzón de voz y transcripciones de grabaciones de voz
- Notas e historial de CRM
- Interacciones en redes sociales
Backups heredados y archivos antiguos
Esta categoría de datos es un tipo común de datos no estructurados que incluye:
- Copias de seguridad obsoletas del servidor de archivos, Backups de máquinas virtuales , etc.
- Volcados de bases de datos antiguos
- Correos electrónicos archivados y buzones de correo
- Cartuchos de cinta o medios de almacenamiento heredados
- Datos de aplicaciones obsoletas
Versiones de documentos y archivos no gestionados
En algunos casos, existen múltiples versiones de documentos y archivos. También representan datos oscuros:
- Versiones duplicadas u obsoletas de hojas de cálculo, presentaciones y documentos
- Archivos locales de escritorio que nunca llegan a la nube o al almacenamiento de datos centralizado
- Archivos temporales, autoguardados o borradores
- Archivos en unidades compartidas sin convención de nomenclatura ni control de versiones
Riesgos y costes ocultos de los datos oscuros
Los datos oscuros plantean riesgos y costes ocultos y a menudo subestimados para las organizaciones. Aunque parezca inofensivo que permanezcan inactivos en los servidores, pueden tener graves consecuencias financieras, legales, de seguridad y operativas. A continuación, explicamos los riesgos y costes ocultos de almacenar datos oscuros sin una administración adecuada.
Amenazas y violaciones de la ciberseguridad
Los datos oscuros suelen contener información confidencial (información de identificación personal, credenciales, direcciones IP, datos financieros y otros) que no está protegida ni supervisada. Por lo tanto, estos datos pueden ser un blanco fácil para los ciberdelincuentes. Los hackers pueden aprovechar archivos sin parches, recursos compartidos expuestos o backups obsoletos. Si se ven comprometidos, pueden provocar violaciones de datos, robo de identidad o extorsión cibernética (estos datos también pueden venderse o publicarse en sitios web oscuros de filtración de datos). Dado que los datos oscuros se pasan por alto, no se activan alertas si se accede a ellos o se roban. Las organizaciones a menudo no saben qué se ha visto comprometido hasta que es demasiado tarde.
La información confidencial, como contraseñas, datos de clientes o documentos internos almacenados en datos oscuros, puede filtrarse o ser objeto de un rescate.
Ejemplos de consecuencias negativas:
- Los backups de correos electrónicos antiguos que contienen las credenciales de los miembros del equipo quedan expuestas en un ataque de ransomware.
- Los correos electrónicos archivados de los clientes que contienen información de identificación personal quedan expuestos en un ataque de phishing, lo que da lugar al robo de identidad y al daño a la reputación.
Riesgos de cumplimiento normativo
Almacenar datos oscuros innecesariamente puede infringir las leyes de retención de datos o privacidad (como el RGPD , la HIPAA o la CCPA). Estas normativas exigen que los datos se clasifiquen, garanticen su seguridad y conserven solo durante el tiempo necesario. Los datos oscuros suelen contener información confidencial personal o relacionada con la salud que incumple los requisitos de retención o cifrado.
Los riesgos incluyen:
- Los organismos reguladores pueden multar a las organizaciones por conservar los datos más tiempo del permitido o por no garantizar su seguridad adecuadamente.
- La detección de datos oscuros durante procedimientos legales (eDiscovery) puede exponer a las organizaciones a riesgos legales inesperados.
- Conservar datos antiguos de clientes no clasificados puede dar lugar a sanciones por incumplimiento si no se realiza el cifrado o se documentan adecuadamente.
Las consecuencias negativas son:
- Multas elevadas, demandas judiciales y fallos en las auditorías.
- Dificultad para ejercer derechos legales como el «derecho al olvido» (RGPD) cuando los datos oscuros ni siquiera están mapeados.
Costes innecesarios de almacenamiento e infraestructura
La acumulación de datos oscuros amplía los costes de:
- Hardware de almacenamiento y espacio en el centro de datos
- Suscripciones a la nube, incluyendo almacenamiento en la nube y tarifas de salida
- Copias de seguridad, replicación y recuperación ante desastres sistemas (infraestructura de recuperación ante desastres)
- Refrigeración y consumo de energía (para servidores de archivos y servidores de bases de datos locales)
Una organización está pagando por almacenar, hacer backup y proteger datos que no aportan ningún valor. En las grandes empresas, los datos oscuros pueden consumir entre el 50 % y el 80 % del almacenamiento total.
Impacto en los análisis y las decisiones empresariales
Los datos oscuros saturan los lagos de datos, los almacenes y los paneles de control con información redundante o irrelevante. Esto provoca inconsistencia en los datos, duplicación y parálisis en el análisis. Los conocimientos valiosos quedan ocultos, mientras que las decisiones empresariales se basan en datos parciales o engañosos.
Los datos oscuros afectan al análisis al:
- Desordenar los entornos de datos y dificultar su navegación.
- Ralentizando las búsquedas, el acceso a los datos y los proyectos de migración.
- Provocando confusión sobre qué datos son fiables.
- Haciendo perder el tiempo a los analistas que tienen que examinar información irrelevante u obsoleta.
El impacto empresarial negativo de los datos oscuros:
- Estrategias de producto y orientación al cliente deficientes
- Tendencias perdidas en el comportamiento de los clientes
- Toma de decisiones más lentadebido al ruido en los sistemas de datos
Con el tiempo, los datos sin mantenimiento pueden corromperse, volverse ilegibles o incompatibles con los sistemas modernos. En un escenario de recuperación ante desastres, la restauración de datos oscuros antiguos podría fallar o introducir errores en los sistemas activos. Los datos oscuros pueden parecer invisibles, pero multiplican silenciosamente los riesgos y los costes.
Cómo afectan los datos oscuros a la seguridad de los datos
Sin una gestión adecuada, los datos oscuros pueden tener consecuencias negativas para la seguridad. Estos datos pueden ser vulnerables a los ciberdelincuentes debido a la falta de atención administrativa, incluyendo el cifrado y la protección.
- Los datos oscuros amplían la superficie de ataque . Cada backup olvidado, cada archivo de correo electrónico antiguo o cada archivo sin rastrear se suma a los posibles puntos de entrada para los ciberdelincuentes. Cuantos más datos se almacenen (especialmente sin protección), más oportunidades tendrán los hackers de explotar las vulnerabilidades. Por ejemplo, un servidor FTP mal protegido con documentos archivados puede convertirse en un eslabón débil en un sistema que, por lo demás, es seguro.
- Los datos oscuros carecen de visibilidad y supervisión . Estos datos no suelen registrarse, escanearse ni auditarse. No se benefician del software de prevención de pérdida de datos, los antivirus o las soluciones EDR. Como resultado, las violaciones que involucran datos oscuros a menudo pasan desapercibidas durante meses.
- Los datos oscuros eluden los controles de seguridad modernos . Es posible que los formatos y ubicaciones heredados (como unidades de cinta o volcados SQL antiguos) no estén cubiertos por políticas de cifrado, controles de acceso y autenticación multifactorial . Por ejemplo, un volcado antiguo de una base de datos de RR. HH. con contraseñas en texto plano almacenadas en un recurso compartido abierto no se cifra y pasa desapercibido.
- Los datos ocultos crean riesgos de retención de datos . Las prácticas recomendadas de seguridad recomiendan minimizar la retención de datos, pero los datos ocultos persisten indefinidamente. Esto aumenta la ventana de exposición de los datos confidenciales mucho después de que sean necesarios. Incluso si hoy se produce un ciberataque, los datos antiguos y sin usar de hace años pueden filtrarse o venderse.
Los datos oscuros son un punto ciego en la ciberseguridad. No se puede proteger lo que no se sabe que se tiene, y los atacantes apuestan por ello. La detección de datos oscuros puede ser un punto de partida para una gestión adecuada de los datos.
Cómo gestionar y reducir los datos oscuros
La gestión y la reducción de los datos oscuros son fundamentales para mejorar la seguridad, el cumplimiento normativo, la rentabilidad y la inteligencia empresarial. A continuación se explican las prácticas recomendadas para la gestión de datos oscuros.
- Descubra y clasifique sus datos . Utilice herramientas de detección de datos para analizar servidores, almacenamiento en la nube, bases de datos y ordenadores. Identifique la ubicación, el tipo de archivo, la antigüedad, el propietario y la confidencialidad. Etiquete los datos según su relevancia comercial o categoría normativa.
- Desarrolle una estrategia de gobernanza de datos . La gobernanza garantiza que cada dato tenga un propósito, un propietario y una fecha de caducidad. Defina políticas claras para la gestión del ciclo de vida de los datos:
- Qué datos conservar
- Durante cuánto tiempo (retención)
- Quién es el propietario
- Dónde deben almacenarse
- Implementar responsabilidades de propiedad de los datos en todos los departamentos.
- Limpiar los datos heredados . Auditar los backups antiguos, los archivos y las ubicaciones de almacenamiento. Elimine los siguientes datos:
- Backups redundantes u obsoletos
- Versiones obsoletas de archivos
- Bases de datos sin usar
- Consolide los datos heredados útiles en formatos estructurados y accesibles.
- Considere la posibilidad de utilizar reglas de retención de datos para que los datos irrelevantes caduquen y se eliminen automáticamente.
- Proteja los datos confidenciales no estructurados . Cifre o restrinja el acceso a archivos de correo electrónico, hojas de cálculo, archivos PDF y archivos de voz/vídeo. Aplique controles de acceso, control de versiones y registros de auditoría. Incluso los datos no utilizados necesitan protección hasta que se revisen o eliminen.
- Establezca tareas periódicas de gestión de datos . Programe revisiones trimestrales de datos oscuros, auditorías anuales de almacenamiento y análisis periódicos de DLP. Forme a los usuarios en el manejo adecuado de los datos y fomente la mentalidad de «almacenar con un propósito». No espere a que se produzca una infracción o una auditoría; limpie de forma proactiva.
- Optimice el almacenamiento en la nube . Clasifique los datos en la nube por nivel de actividad. Automatice las reglas de eliminación automática o traslado al archivo. Evite la retención excesiva en recursos compartidos o almacenes de objetos.
Las organizaciones pueden obtener importantes beneficios al transformar los datos oscuros a pesar de los retos que ello supone. Se recomienda proporcionar a los analistas de datos acceso a los conjuntos de datos y crear flujos de trabajo automatizados eficaces. Cuando se analizan los datos oscuros, se pueden realizar un seguimiento de las métricas de rendimiento para tomar decisiones más racionales en cuanto a la asignación y optimización de recursos.
Cómo NAKIVO puede proteger contra los riesgos de los datos oscuros
Los backups pueden proteger a su organización de los riesgos asociados a los datos oscuros. Sin embargo, si se gestionan incorrectamente, también pueden convertirse en el origen de datos oscuros.
NAKIVO Backup & Replication es una solución dedicada a la protección de datos que puede ayudarle a proteger su entorno y reducir la cantidad de datos oscuros relacionados con los backups.
Las copias de seguridad son esenciales en términos de gestión de datos oscuros. Si los datos oscuros contienen información crítica para el negocio, una copia de seguridad segura puede ser un salvavidas durante la recuperación ante desastres . En lugar de dejar que los datos antiguos o no utilizados saturen los sistemas de producción, traslade los datos antiguos a copias de seguridad cifradas y versionadas o a almacenamiento en frío. Esto aísla los datos oscuros al tiempo que preserva el acceso para el cumplimiento normativo o para futuras perspectivas.
- Con los ajustes de retención avanzados , puede implementar políticas de retención personalizadas y definir durante cuánto tiempo se almacenan los datos en el repositorio de backups . Puede ajustar esta configuración a los requisitos normativos, como el RGPD, teniendo en cuenta el derecho al olvido. Esto evita que sus backups se conviertan en almacenes de datos oscuros.
- Cifrado de los backups . La solución NAKIVO admite el cifrado del lado del origen y del lado del destino para los datos de los backups. Los backups cifrados están mejor protegidos contra el acceso no autorizado, lo que reduce los riesgos de seguridad.
- Truncamiento de registros . Al hacer backup de bases de datos MS SQL Server, el truncamiento de registros le permite almacenar solo los datos del backup sin registros, lo que reduce la cantidad de datos oscuros.
- Inmutabilidad de los backups . Proteja los backups contra modificaciones y eliminaciones por parte de ransomware utilizando backups inmutables . Esta función reduce los riesgos relacionados con la pérdida de datos oscuros en los backups.
Conclusión
Sin una gestión adecuada, los datos oscuros pueden desperdiciar espacio de almacenamiento, pero también pueden ser útiles para obtener información empresarial. Siga las prácticas recomendadas para la administración de datos y recuerde hacer backup de sus datos. Los backups ayudan a garantizar que incluso los datos oscuros estén bien protegidos contra la eliminación o la corrupción. Utilice NAKIVO Backup & Replication para realizar copias de seguridad y recuperaciones de datos fiables y avanzadas.