ダークデータとは何か、およびデータセキュリティリスクにおけるその役割
企業は、顧客とのやり取りやサーバーログから、センサーの出力データや社内文書に至るまで、かつてないほど多くのデータを生成・収集しています。こうしたデータの一部は積極的に分析・活用されていますが、その大部分は手つかずのまま放置され、検証もされていません。
こうした見過ごされがちな情報は、"ダークデータ"と呼ばれています。これには、古いスプレッドシートから未使用のログファイルまで、明確な目的もなく保存されているあらゆるものが含まれます。ダークデータを放置すると、洞察を得る機会を逃すだけでなく、セキュリティやコンプライアンス上のリスクを高めることにもつながります。本記事では、ダークデータとは何か、その代表的な例、そしてなぜダークデータを保護することが不可欠なのかについて解説します。
ダークデータとは何か?
” ダークデータとは、組織が通常の業務活動の中で収集、処理、保存しているものの、具体的な目的のために積極的に活用されていない情報を指します。これは、システム、バックアップ、またはストレージ内に保存されているものの、未使用、未活用、あるいは未分析のデジタル情報を意味します。目に見えない状態にあることから、"ダークデータ( “)"と呼ばれています。
主な特徴
ダークデータの蓄積という現象が生じるのは、組織が"いつか役立つかもしれない"という理由で、収集可能な情報はすべて保存すべきだと考えているためです。実際には、こうしたデータのほとんどは活用されずに放置されています。適切なメタデータがなければ、特定の情報を検索することが困難だからです。特に、データ形式が非構造化であり、クエリを使って検索できない場合はなおさらです。
ダークデータは、ストレージ容量の無駄遣いやビジネスチャンスの喪失につながる可能性があります。それはデジタル上の"雑多な情報"のようなもので、見過ごされがちですが、潜在的なリスクを孕む一方で、貴重な価値も秘めています。適切に管理することで、セキュリティ上の脅威を軽減し、コストを削減し、隠れた知見を引き出すことができます。
ダークデータの主な特徴
|
特徴 |
説明 |
|
集めたが未使用 |
事業活動の中で生成または収集されたものの、分析も活用もされていない。 |
|
長期保存 |
コンプライアンス対応のため、あるいは習慣やデータ管理の不備から、価値があるからではなく、単にそのまま残されていることが多い。 |
|
特定できないリスク |
機密情報や規制対象情報(個人識別情報、IPアドレス、財務データなど)が含まれている可能性があり、これらが漏洩した場合、セキュリティ上またはコンプライアンス上のリスクが生じるおそれがあります。 |
|
隠れたコスト |
投資対効果をもたらさないにもかかわらず、ストレージやバックアップのリソース、そして管理者の労力を消費してしまう。 |
|
未開拓の可能性 |
ビジネスインテリジェンス、AI/機械学習、あるいは業務改善に役立つ知見が含まれている可能性があります。 |
ダークデータ、非構造化データ、および陳腐化したデータ
"ダークデータ""非構造化データ""陳腐化したデータ"の違いについて説明しましょう。
- ダークデータ 収集されるが、決して使用されることはない。
- 非構造化データ あらかじめ定義された構造がなく、使用される場合とされない場合があります。
- 古いデータ 以前は役に立ちましたが、現在は時代遅れとなっています。
こうした種類のデータは重複する場合があります。ダークデータの多くは非構造化データであり、非構造化データの中には時代遅れのものも含まれる場合があります。しかし、すべての非構造化データや時代遅れのデータがダークデータであるわけではありません。
以下の表に、3つのデータ型を比較しています:
|
機能 / タイプ |
ダークデータ |
非構造化データ |
古いデータ |
|
定義 |
使用されていない収集データ |
あらかじめ定義されたモデルやスキーマのないデータ |
もはや関連性のない古いデータ |
|
形式 |
構造化、半構造化、または非構造化のいずれでも可能 |
一般的に構造化されていないもの(メール、画像、動画) |
どのような形式でも構いません |
|
使用方法 |
現在使用されておらず、保管されているだけ |
頻繁に活用されたり、分析されたりしている |
以前は使用されていたが、現在は使われていない |
|
リスク |
コンプライアンス、セキュリティ、またはコストに関する潜在的なリスク |
大規模な環境では管理やセキュリティの確保が困難 |
情報漏洩のリスク、ストレージの容量不足 |
|
潜在的な価値 |
適切に分析すれば高い |
組織化され、体系化されていれば高い |
少ない、またはなし。有効期限が切れています |
データが利用できなくなる理由
データは、収集されたものの、効果的に活用・分析・管理されない場合、"ダークデータ"となります。このような状況は、通常、技術的、組織的、戦略的な課題が複合的に絡み合って生じます。
- データは自動的に生成されますシステム、アプリケーション、センサー、ログからは、絶えず膨大な量のデータが生み出されています。こうしたデータの多くは、分析する計画がないまま、受動的に収集されています(サーバーログやテレメトリなど)。
- 認識不足または可視性の欠如多くの組織では、自らがどのようなデータを保有しているのか、それがどこに保存されているのか、あるいはどのような内容なのかを把握できていない。データは各部門やレガシーシステム、クラウドプラットフォームなどに散在しており、意思決定者にはその存在が見えない場合がある。
- 不十分なデータ管理とガバナンス. 分類、ライフサイクル、利用に関するポリシーがなければ、データは目的もなく保存されてしまいます。これは、何が依然として価値があり、必要であるかを判断するための定期的な監査が行われていない場合に起こります。そうなると、データは整理されず、利用不能な状態になってしまう可能性があります。一部の組織では、ダークデータを扱うための専任のIT専門家や専門知識が不足しています。
- 部門間の壁と分断データは各部署の"サイロ"に閉じ込められており、そのデータを活用できるはずの人々が利用できない状態になっています。これは、各部署が独自にデータを収集・保管している場合に生じます。チーム間で情報が共有されないだけでなく、データニーズが重複していることに気づいていないケースさえあります。
- レガシーシステムと保存の習慣. 旧式のシステムでは、万が一に備えてデータをアーカイブし( “)、” 確認することなく無期限に保管します。時が経つにつれ、こうしたアーカイブされたデータは忘れ去られたり、無関係なものになったりします。ビジネスの優先順位は変化するものであり、組織の優先順位が変われば、以前は頻繁に利用されていたデータであっても、その重要性は低下する可能性があります。
- データを分析するためのツールやスキルが不足している. 組織によっては、大規模または複雑なデータセットを抽出・処理するためのツール、人材、あるいは戦略が不足している場合があります。これは、画像、音声、動画といった非構造化データにおいて特に顕著です。リソースが限られている場合、組織はデータ分析よりもデータ収集を優先することがあります。
- データ分析にかかるコストやリスク. 大量のデータを処理・分析するには多額のコストがかかる場合があります。規制の厳しい業界では、過去のデータを分析することでコンプライアンス上のリスクが露呈する恐れがあるため、そのまま放置されることがよくあります。
- 価値の欠如という認識. チームによっては、特定の種類のデータについて明確なビジネス上の活用方法が見出せない場合があります。特定の目的を持って収集されていないデータは、往々にして見過ごされがちです。
- 低価格なストレージ. デジタルストレージのコストが比較的安いため、組織はたとえ使用されていなくても、あらゆるデータを保存しがちです。この" “今は保存し、後で判断する” "というアプローチが、ダークデータの増加を助長しています。
データを理解するよりも保存する方が容易になると、データは活用されなくなります。戦略、可視性、そしてツールの欠如により、本来は価値あるはずの情報がデジタル上の重荷となり、コストとリスクを増大させ、貴重な知見を見逃すことにつながります。
ダークデータの種類と発生源
ダークデータには、構造化データ、非構造化データ、および半構造化データがあります。
- 構造化データ 通常、データはテーブル内のデータベースフィールドに格納され、クエリを使用して取得することができます。銀行情報、医療情報、顧客データなどの機密データは、しばしばデータベースに格納されますが、アクセス権限の制限や規制要件のため、分類が困難な場合があります。
- 非構造化データ データベースやスプレッドシートを使用せずに保存されており、変換を行わなければ効果的に分析することができません。電子メール、PDFファイル、テキスト文書、音声記録、監視カメラの映像などは、ダークデータとなり得る非構造化データの代表的な例です。
- 半構造化データ 構造化されていないが、その情報の一部はデータフィールドで定義されている。HTMLページ、XMLドキュメント、表、グラフ、請求書などが半構造化データの例である。このデータについては、部分的な検索や分類が可能である。
ダークデータには業界ごとに異なる種類があります。以下に、ダークデータの例を挙げます。
システムログおよびシステム生成データ
この種のダークデータには、次のようなものが含まれます:
- サーバーおよびアプリケーションのログ
- セキュリティログ(ログイン失敗の試行を含む)
- ファイアウォールおよびネットワークアクティビティのログ
- デバイスのテレメトリ
- 産業用デバイスやスマートデバイスからのセンサーデータ
- 位置情報データ
- デバッグおよびエラーログ
顧客とのやり取り
顧客とのやり取りも非構造化データの一種であり、これには以下が含まれます:
- メール(受信トレイ、アーカイブ、特定のプラットフォーム)
- カスタマーサポートやボットのチャットログ
- 通話録音(コンタクトセンター、営業チーム)
- 留守電メッセージと音声記録の文字起こし
- CRMのメモと履歴
- ソーシャルメディアでの交流
過去のバックアップと古いアーカイブ
このデータカテゴリは、非構造化データの一般的な種類であり、以下を含みます:
ドキュメントのバージョンと管理対象外のファイル
場合によっては、文書やファイルに複数のバージョンが存在することがあります。これらもまた、ダークデータの一種です:
- スプレッドシート、プレゼンテーション、およびドキュメントの重複したバージョンや古いバージョン
- クラウドや集中型データストレージには一切保存されないローカルのデスクトップファイル
- 一時ファイル、自動保存、または下書き
- 命名規則やバージョン管理がない共有ドライブ上のファイル
ダークデータに潜むリスクとコスト
ダークデータは、組織にとって目に見えない、そして往々にして過小評価されがちなリスクとコストをもたらします。サーバー内に放置されているだけでは無害に見えるかもしれませんが、実際には、財務面、法務面、セキュリティ面、そして業務運営面で深刻な影響を及ぼす可能性があります。適切な管理が行われないままダークデータを保管することによる、こうした隠れたリスクとコストについて解説します。
サイバーセキュリティ上の脅威と侵害
ダークデータには、保護や監視が行われていない機密情報(個人を特定できる情報、認証情報、IPアドレス、財務データなど)が含まれていることがよくあります。そのため、このデータはサイバー犯罪者にとって格好の標的となり得ます。 ハッカーは、パッチが適用されていないアーカイブ、公開されたファイル共有、あるいは古いバックアップを悪用する可能性があります。これらが侵害されると、データ漏洩、なりすまし、あるいはサイバー恐喝につながる恐れがあります(また、このデータはダークウェブ上のデータ漏洩サイトで販売・公開されることもあります)。ダークデータは見過ごされがちであるため、アクセスや盗難が発生してもアラートは発動しません。組織は、手遅れになるまで何が侵害されたのか気づかないことがよくあります。
ダークデータに保存されているパスワード、顧客データ、社内文書などの機密情報は、漏洩したり、身代金要求の対象となったりする可能性があります。
悪影響の例:
- チームメンバーの認証情報を含む従来のメールバックアップが、ランサムウェア攻撃によって流出する。
- 個人を特定できる情報が含まれる顧客のメールアーカイブがフィッシング攻撃により流出しており、その結果、個人情報の盗用や企業の評判への損害が生じている。
規制遵守リスク
ダークデータを不必要に保管することは、データ保持に関する法律やプライバシーに関する法律(例えば GDPR(HIPAA、CCPAなど)。これらの規制では、データを分類・保護し、必要な期間のみ保持することが求められています。ダークデータには、多くの場合、保持や暗号化の要件に違反する機密性の高い個人情報や健康関連情報が含まれています。
リスクには以下が含まれます:
- 規制当局は、許可された期間を超えてデータを保持したり、適切なセキュリティ対策を講じなかったりした組織に対して、罰金を科すことがある。
- 法的手続き(eディスカバリー)の過程でダークデータが発見されると、組織は予期せぬ法的リスクにさらされる可能性があります。
- 機密指定されていない古い顧客データを保持する場合、暗号化や適切な文書化が行われていないと、コンプライアンス違反による罰則の対象となる可能性があります。
その悪影響は以下の通りです:
- 多額の罰金、訴訟、監査の不備。
- ダークデータがマッピングさえされていない状況では、 “のような"忘れられる権利"” (GDPR)などの法的権利を行使することが困難になる。
不要な保管・インフラコスト
ダークデータの蓄積により、以下のコストが増大します:
- ストレージハードウェアおよびデータセンターのスペース
- クラウドストレージやデータ転送料を含むクラウドサブスクリプション
- バックアップ、レプリケーション、および 災害復旧 システム(災害復旧インフラ)
- 冷却とエネルギー消費量(オンプレミスのファイルサーバーおよびデータベースサーバーについて)
ある組織は、何の価値も生まないデータの保存、バックアップ、およびセキュリティ対策に費用を費やしている。大企業では、ダークデータがストレージ総容量の50~80%を占めることもある。
分析および経営判断への影響
ダークデータは、データレイク、データウェアハウス、ダッシュボードを冗長な情報や無関係な情報で埋め尽くします。その結果、データの不整合や重複が生じ、分析が停滞してしまいます。貴重な知見は埋もれたままとなり、ビジネス上の意思決定は不完全なデータや誤解を招くデータに基づいて行われることになります。
ダークデータは、以下の点で分析に影響を及ぼします:
- データ環境が煩雑になり、操作しにくくなる。
- 検索、データアクセス、および移行プロジェクトの進行を遅らせている。
- どのデータを信頼すべきかについて混乱を招いている。
- 無関係な情報や古い情報を精査するアナリストの時間を無駄にしている。
ダークデータがビジネスに与える悪影響:
- 不適切な製品戦略と顧客ターゲティング
- 顧客行動における見落とされていた傾向
- データシステム内のノイズによる意思決定の遅延
時間の経過とともに、メンテナンスが行われていないデータは、破損したり、読み取れなくなったり、最新のシステムと互換性がなくなったりする可能性があります。災害復旧の場面では、古いダークデータの復元が失敗したり、稼働中のシステムにエラーを引き起こしたりする恐れがあります。ダークデータは目に見えない存在のように思えるかもしれませんが、知らぬ間にリスクとコストを増大させているのです。
ダークデータがデータセキュリティに与える影響
適切な管理が行われない場合、ダークデータはセキュリティ上の深刻な問題を引き起こす可能性があります。暗号化や保護措置など、管理上の配慮が欠如しているため、このデータはサイバー犯罪者の標的となりやすいのです。
- ダークデータは攻撃対象領域を拡大させる. 忘れ去られたバックアップ、古いメールのアーカイブ、あるいは管理されていないファイルは、いずれもサイバー犯罪者にとっての侵入経路となり得ます。保存するデータ(特に保護されていないデータ)が多ければ多いほど、ハッカーが脆弱性を悪用する機会も増えます。例えば、セキュリティ対策が不十分なFTPサーバーに文書がアーカイブされている場合、それ以外の部分は安全であっても、そのサーバーがシステムの弱点となり得ます。
- ダークデータには可視性と監視が欠けている. こうしたデータは通常、記録もスキャンも監査もされません。データ損失防止(DLP)ソフトウェアやウイルス対策ソフト、EDRソリューションの恩恵も受けられません。その結果、ダークデータに関連する情報漏洩は、しばしば数か月間も発見されないまま放置されてしまいます。
- ダークデータは最新のセキュリティ対策をすり抜ける. レガシーな形式や保存場所(テープドライブや古いSQLダンプなど)は、暗号化ポリシーやアクセス制御の対象外となる場合があります。 多要素認証例えば、平文のパスワードが保存された古い人事データベースのダンプファイルが、公開共有フォルダに暗号化されずに放置され、誰にも気づかれないままになっている。
- ダークデータはデータ保持に関するリスクをもたらす. セキュリティのベストプラクティス データの保存期間は最小限に抑えることが推奨されていますが、ダークデータは半永久的に残存します。これにより、機密データが必要とされなくなった後も、その情報が流出するリスクにさらされる期間が長引きます。たとえ今日サイバー攻撃が発生したとしても、数年前の古い未使用データが流出したり、売買されたりする恐れがあります。
ダークデータは、サイバーセキュリティにおける死角です。存在すら知らないものを守ることはできません。攻撃者は、まさにその点を狙っているのです。ダークデータの発見は、適切なデータ管理への第一歩となり得ます。
ダークデータの管理と削減方法
ダークデータの管理と削減は、セキュリティ、コンプライアンス、コスト効率、およびビジネスインテリジェンスの向上において極めて重要です。ダークデータ管理の推奨される実践方法については、以下で説明します。
- データを発見し、分類するデータディスカバリーツールを使用して、サーバー、クラウドストレージ、データベース、およびコンピュータをスキャンします。データの保存場所、ファイル形式、保存期間、所有者、機密レベルを特定します。データのビジネス上の重要度や規制上の分類に基づいてタグ付けを行います。
- データガバナンス戦略を策定するガバナンスにより、すべてのデータに目的、責任者、および有効期限が明確に定められます。データライフサイクル管理に関する明確なポリシーを策定します:
- どのようなデータを保存すべきか
- どのくらいの期間(保存期間)
- 所有者は誰ですか
- 設置場所
- 部門横断的にデータの管理責任を明確化する。
- レガシーデータの整理. 古いバックアップ、アーカイブ、および保存場所を確認してください。以下のデータを削除してください:
- 不要になった、または古いバックアップ
- 古いバージョンのファイル
- 未使用のデータベース
- 有用なレガシーデータを、構造化され、アクセスしやすい形式に統合する。
- 不要なデータを自動的に期限切れにして削除するために、データ保持ルールの利用をご検討ください。
- 機密性の高い非構造化データを保護する. メールのアーカイブ、スプレッドシート、PDFファイル、音声・動画ファイルの暗号化やアクセス制限を行います。アクセス制御、バージョン管理、監査ログの記録を適用します。未使用のデータであっても、確認または削除されるまでは保護する必要があります。
- 定期的なデータ管理業務を確立する. 四半期ごとのダークデータの見直し、年次ストレージ監査、および定期的なDLPスキャンを計画してください。ユーザーに対して適切なデータ取り扱いについて教育し、" “store with purpose(目的を持って保存する)"という考え方を促しましょう。” 情報漏洩や監査を待たずに、先手を打ってデータを整理・削除してください。
- クラウドストレージを最適化する. クラウドデータをアクティビティレベルごとに分類します。自動削除やアーカイブへの移動ルールを自動化します。共有ドライブやオブジェクトストレージでの不要な長期保存を防ぎます。
課題はあるものの、組織はダークデータを活用することで大きなメリットを得ることができます。データアナリストにデータセットへのアクセス権限を与え、効果的な自動化ワークフローを構築することが推奨されます。ダークデータを分析することで、パフォーマンス指標を追跡し、リソースの配分や最適化に関するより合理的な意思決定を行うことが可能になります。
NAKIVOがダークデータのリスクからどのように保護するか
バックアップは、ダークデータに伴うリスクから組織を守ることができます。しかし、管理を誤れば、それ自体がダークデータの発生源となる可能性もあります。
NAKIVO Backup & Replication これは、お客様の環境を保護し、バックアップに関連するダークデータの量を削減するのに役立つ、専用のデータ保護ソリューションです。
ダークデータの管理において、バックアップは不可欠です。ダークデータに業務上重要な情報が含まれている場合、安全なバックアップは 災害復旧. 古いデータや未使用のデータが本番システムを圧迫するのを防ぐため、古いデータを暗号化され、バージョン管理されたバックアップやコールドストレージに移行しましょう。これにより、ダークデータを隔離しつつ、コンプライアンス対応や将来の分析のためのアクセス権は維持されます。
- ~とともに 詳細な保持設定, カスタム保存ポリシーを実装し、データが バックアップリポジトリ. この設定は、"忘れられる権利"を考慮に入れつつ、GDPRなどの規制要件に準拠させることができます。これにより、バックアップが"ダークデータ"の温床となるのを防ぐことができます。
- バックアップの暗号化. NAKIVOのソリューションは、以下の機能をサポートしています ソース側 また、バックアップデータに対するターゲット側暗号化も実施します。暗号化されたバックアップは不正アクセスからより確実に保護されるため、セキュリティリスクを低減できます。
- ログの切り捨て. MS SQL Server データベースをバックアップする際は、 ログの切り捨て ログを除いたバックアップデータのみを保存できるため、ダークデータの量を削減できます。
- バックアップの不変性. ランサムウェアによるバックアップの改ざんや削除を防ぐには、 変更不可能なバックアップ. この機能により、バックアップにおけるダークデータの消失に伴うリスクを軽減します。
結論
適切な管理が行われない場合、ダークデータはストレージ容量を無駄にするだけでなく、ビジネスインサイトの獲得にも役立つ可能性があります。データ管理に関する推奨されるベストプラクティスに従い、データのバックアップを忘れずに実施してください。バックアップを行うことで、ダークデータであっても、削除や破損から確実に保護することができます。使用 NAKIVO Backup & Replication 信頼性が高く、高度なデータバックアップおよび復旧を実現します。