機密ファイルがどこにあるか誰も知らない — ドライブのAI分類を受託で設計する | GH Media
URLがコピーされました

機密ファイルがどこにあるか誰も知らない — ドライブのAI分類を受託で設計する

URLがコピーされました
機密ファイルがどこにあるか誰も知らない — ドライブのAI分類を受託で設計する

「正直に言うと、うちのドライブのどこに何の機密ファイルがあるのか、もう誰も把握していないんです」——従業員が二百名を超えたあたりの会社から、この告白めいた相談をよく受けます。よくよく聞くと、退職した社員のフォルダが「リンクを知っている全員」のまま何年も放置されている、契約書と社内の雑メモが同じ階層に並んでいて見分けがつかない、誰が作ったか分からない共有ドライブが部署の数より多い、といった話が次々に出てきます。怖いのは、これらが「事故が起きてから」しか発覚しないことです。取引先からセキュリティ監査を求められて初めて、自社のファイルの全体像を誰も説明できないと気づく。

こうした症状の根っこには、ひとつの構造的な問題があります。ファイルは毎日増えるのに、棚卸しは年に一度あるかないか、という頻度の差です。人手でフォルダを一つずつ開いて「これは機密、これは公開してよい」と仕分けしていく作業は、やっている最中にも新しいファイルが積み上がっていきます。棚卸しは、増え続けるファイルに対して構造的に頻度負けする。だから一度きれいにしても半年で元の木阿弥になる。ここを人海戦術で解こうとしている限り、ガバナンスは永遠に追いつきません。本記事では、この問題を Google ドライブの「AI 分類(AI classification)」と DLP の組み合わせで、人手の棚卸しではなく仕組みとして解く道筋を、受託で設計する立場から整理します。

「分類を自動化する」とはどういうことか

Google ドライブの AI 分類は、組織が学習させたカスタム AI モデルを使い、機密コンテンツに自動でラベルを付ける機能です。要点は、プログラミングが要らないことと、新規ファイルと既存ファイルの両方に自動適用されることの二つにあります。

仕組みはこうです。まず初期の学習期間に、組織が「これは機密」「これは社内限定」と判断したファイルの例を AI に学習させます。AI はそこから自社のラベリング基準を覚え、以降は新しく作られるファイルにも、既にドライブに眠っている過去のファイルにも、「Confidential」「Internal Only」といったラベルを自動で付けていきます。つまり、一度きちんと学習させれば、その後は人が触らなくてもファイルが増えるたびに分類され続ける。棚卸しが頻度負けする問題に対して、これは原理的に正しい打ち手です。手作業で追いかけるのをやめ、増える側に自動の判定を貼り付けるわけです。製薬大手の Roche は、この AI 分類で数百万規模のファイルを保護したとGoogle Workspace のブログで紹介されています。手作業では絶対に終わらない量です。

ただし、対応するのは Enterprise Standard / Enterprise Plus といった上位エディションが中心です。この点は後で触れますが、「使いたいから上位プランに上げる」のか「今の規模で本当に要るのか」の判断自体が、受託で最初に握るべき論点になります。

ラベルを貼るだけでは意味がない — DLPと組ませて初めて効く

ここで誤解されやすいのが、「AI が自動でラベルを付けてくれるなら、それで完結する」という受け取り方です。実際には、ラベルはあくまで「このファイルは機密だ」という目印にすぎません。目印を付けただけでファイルが守られるわけではない。ラベルを実際の制御につなげるのが DLP(Data Loss Prevention)ルールの役割です。

両者の連携には二つの方向があります。一つは、DLP ルールが機密コンテンツを検出したときに、分類ラベルを自動で付与する方向。もう一つは、付いたラベルを条件に DLP が「社外への共有をブロックする」「ダウンロードを禁じる」といった制御をかける方向です。たとえば「Confidential ラベルが付いたファイルは社外ドメインと共有できない」というルールを敷けば、退職者のフォルダが全社公開のまま放置されるような事故を、ラベルを軸に機械的に塞げます。共有設定そのものの考え方はGoogle ドライブ共有設定の記事で詳しく扱っていますが、AI 分類はその「どのファイルにどの設定を効かせるか」の判定を自動化する層だと捉えると位置づけがはっきりします。

設計上、見落とすと事故るのがラベルの優先順位です。AI 分類が付けたラベルは、DLP ルールで設定したラベルによって上書きされます。一方で、AI 分類のラベルは、管理者が設定したデフォルトの分類ラベルを上書きします。つまり「DLP ルール > AI 分類 > デフォルト」という強さの序列がある。この序列を理解しないまま複数のルールを重ねると、「AI が機密と判定したのに、別のルールが上書きして社外共有が通ってしまった」といった、意図と逆の挙動が静かに起こります。ここは設計段階で競合を洗い出しておかないと、運用に入ってから原因の分からない事故として表面化します。

受託が引き受けるのは「設計」と「止めない運用」

機能の説明だけ見ると「設定するだけ」に思えますが、実際に効く仕組みにするには、いくつもの判断が要ります。受託として入るとき、私たちが引き受けるのは主に次の役割です。

受託が設計する領域自前でやると起きがちな失敗
ラベル体系の粒度設計分類を細かく作り込みすぎて運用が回らない
AI に学習させる正解データの準備偏ったデータを食わせて誤分類が量産される
DLPとAI分類の優先順位・競合の整理上書き関係を誤解し、意図と逆の制御が通る
エディション要件とコストの判断上位プランが必要と後から気づき計画が崩れる

とりわけ難しいのが、最初の二つです。ラベル体系は、細かく分けるほど厳密に見えますが、現場が「このファイルはどのラベルだ」と迷う粒度にすると、自動分類の精度も人の運用も両方崩れます。三段階か四段階くらいの、誰でも直感的に判断できる粒度に抑えるのが結局いちばん回ります。学習データのほうも、たとえば「機密」の例として特定部署の書類ばかり食わせると、AI はその部署の文書だけを機密と覚え、他部署の同等に重要なファイルを取りこぼします。正解データの偏りは、そのまま誤分類の偏りになって出てくる。ここは自社の文書の実態を知っている人間が、意図的にバランスを取って用意する必要があります。

そしてもう一つ、機能の設定とは別に重みを持つのが過剰ラベリングと誤検知が業務を止めない運用設計です。AI 分類も DLP も、強く効かせるほど誤検知が増えます。本来は社外に出してよい資料に「Confidential」が付いて共有がブロックされ、現場が締め切りに追われて、結局チャットでファイルを送り合うといった回避策に走る——これは企業 AI の DLP を扱ったMicrosoft Copilot のデータ持ち出し対策の記事でも繰り返し見てきた失敗です。統制を入れたのに、現場が抜け道を作ってかえって見えなくなる。これを防ぐには、最初から完璧に締めず、まず警告だけ出して様子を見る期間を置き、誤検知のパターンを拾ってルールを調整し、段階的に制御を強めていく運用が要ります。検知や制御を入れる前提として組織のドライブをどう棚卸しするかは、Google Workspace のセキュリティ設定チェックリストの観点とあわせて押さえておくと、抜けが減ります。

弊社の事例: 「全部ブロック」が現場の反乱を招いたとき

具体例を挙げます。ある建設コンサルの中堅企業(社名は伏せます)から、「情報漏えいを本気で防ぎたいので、機密ファイルの社外共有を全部止めたい」という相談を受けました。経営層の危機感は本物で、取引先から預かる図面や見積もりが外に漏れたら一発で信用を失う業界です。当初の要望は「機密と思われるものは片っ端からブロックしてほしい」という、かなり強いものでした。

私たちはまず、いきなりブロックを掛けることを止めてもらいました。代わりに AI 分類を学習させてラベルを自動で付け、DLP は最初の一か月は「社外共有しようとすると警告を出すが、止めはしない」という設定で動かしました。すると、想定どおり大量の警告が出ました。ところがその多くは、取引先と正規にやり取りしている見積書や、公開前提の会社案内でした。最初の要望どおり全部ブロックしていたら、現場は仕事にならず、間違いなくチャットやメールへの抜け道に逃げていたはずです。実際、過去にこの会社では似たような締め付けが一度失敗していて、現場の信頼を取り戻すところから始める必要がありました。

そこで一か月の警告ログをもとに、誤検知のパターン——どういう文書が誤って機密と判定されやすいか、どの相手先との共有は正規なのか——を洗い出し、学習データとラベルの粒度を調整し直しました。そのうえで、本当に止めるべき範囲だけにブロックを絞り込み、それ以外は警告とログ記録にとどめました。結果として、現場の日常業務はほとんど変わらないまま、図面や原価情報の社外流出だけは確実に塞ぐ形に落ち着きました。やったのは「強く締めること」ではなく、「どこを締め、どこを緩めるかを実データで見極めること」です。この案件が示すのは、AI 分類と DLP の難所が機能の設定にあるのではなく、現場を止めずに統制を効かせる調整にこそある、ということでした。

検出から、分類・統制へ

ドライブのセキュリティは、これまで「異常を検出する」ところに重心がありました。ランサムウェアによる大量の暗号化を見つける、といった話です(ドライブのランサムウェア検出の記事で扱いました)。AI 分類と DLP は、その一歩先にある「平時のファイルを分類し、統制する」段階の道具です。事故を見つけるだけでなく、そもそもどのファイルが守るべきものかを自動で仕分け続け、守るべきものには制御をかける。検出から統制へ進むこの流れは、規模が大きくなった会社ほど避けて通れません。

導入を考えるなら、最初にやるべきことは二つに絞れます。一つは、自社のラベル体系を「現場が迷わない粒度」で先に決めること。機能を入れる前に、機密の段階をいくつに分け、それぞれ何を意味するかを言葉にしておく。もう一つは、いきなり全部をブロックせず、警告だけ出す期間から始めることです。実データで誤検知のパターンをつかんでから制御を強めれば、現場の反発も抜け道も防げます。

ドライブに機密ファイルが散らかっていて全体像が掴めない、取引先の監査に向けて分類と統制の仕組みを整えたい、AI 分類と DLP を入れたいが現場を止めずに運用できるか不安、上位エディションへの移行も含めて費用対効果を判断したい——そうしたご相談があれば、グリームハブのお問い合わせからお声がけください。現状のドライブと共有設定を拝見し、ラベル体系の設計から学習データの準備、DLP との優先順位の整理、そして現場を止めない段階的な運用までを、ご一緒に設計し定着まで伴走します。

Sources

URLがコピーされました

グリームハブ株式会社は、変化の激しい時代において、アイデアを形にし、人がもっと自由に、もっと創造的に生きられる世界を目指しています。

記事を書いた人

鈴木 翔

鈴木 翔

技術の可能性に魅了され、学生時代からプログラミングとデジタルアートの分野に深い関心を持つ

関連記事