Insight
2025年8月16日
2024年初頭、香港のビデオ会議後にHK$2億(約US$2,600万)が15回・5口座へ分割送金。参加者の多くがディープフェイクで、会議自体が事前録画だった可能性が公的に示され、「会議=本人確認」の前提は崩れました(info.gov.hk)。本稿は、音声クローンを核にした多人数会議型詐欺の脚本をRecon → Lure → Meeting → Authorize → Transferの5段で解剖し、見抜くのではなく工程で検証するYaguraのOOB二経路確認を中軸にした90秒プロトコルを提示します。人の耳目が不安定な理由、3秒で声が作れる技術背景、日本の稟議の盲点、実装チェックリストまでを整理します。 ヤグラの主張:生成AI由来の攻撃は今後ますます高度化し、攻撃コストの低下で件数は指数関数的に増加します。生成AIを防御に活用できない企業は淘汰リスクが高まります。Yaguraはこの課題に正面から取り組む立場です。
1. なぜ“会議”が決定打になったのか
手口:CFO名義で召集し、多人数同席を演出。長い独話/画面共有/ミュートで双方向性を抑え、口唇同期の粗や遅延を隠す。
結果:15回・5口座への振分け送金。後続報道で英Arupが被害企業と判明。
教訓:「会議に出た=本人確認済み」は誤り。ライブ質問や二経路照合がない会議は、権威バイアスだけが強化される。
2. “直感判定”が通用しない理由
2-1. 音声の聞き分けは不安定
研究でも聴き分け精度は安定せず、訓練効果も限定的。耳頼りの設計は脆弱。
2-2. 顔は本物以上に信頼されがち
AI合成顔が本物より信頼できると評価される実験結果。同僚が並ぶ画面はバイアスを最大化。
2-3. “違和感”ではなく工程へ
OOB二経路確認+冷却時間+相互承認の一体運用が核。手順で保証する。
3. 攻撃チェーン(Recon → Lure → Meeting → Authorize → Transfer)
3-1. Recon(素材収集)
登壇動画・ウェビナー等から声と顔を確保。3秒で話者らしさを模倣可能とするTTS研究(VALL-E系)。素材要件は極小(Microsoft / arXiv)。
3-2. Lure(誘導)
CFO名義で極秘×早急を強調し、「別紙参照」「会議で説明」で情報非対称を作る。
3-3. Meeting(会議偽装)
多人数同席で“社会的証明”。事前録画+音声上書きで双方向性を回避。
3-4. Authorize(承認突破)
会議=本人確認の誤信で相互牽制を迂回。「今すぐ」「極秘」で冷却時間を封じる。
3-5. Transfer(送金)
分割×複数口座で痕跡拡散(15回・5口座)。分単位の初動が回収可否を左右。
4. 技術のリアル:なぜ3秒で声が出せるのか
Neural Codec LM(VALL-E系):音声を離散コード化し言語モデルで生成。3秒プロンプトで声色・プロソディを再現。
クロスリンガル:VALL-E Xは別言語でも声質を保持。海外役員の日本語指示でも違和感が小さい。
含意:声紋単独の本人確認は不可。短い合言葉+別チャネル照合へ。
5. 日本企業の稟議で起きがちな3つの盲点
会議=本人確認の誤信:双方向検証がない会議は未確認。香港政府は**「事前録画の会議」**事案を明示。
二経路(OOB)確認の未徹底:電話コールバック等のOOBを規程化。FBI/CISAも推奨。
高額・例外案件の冷却不足:最低5分の中断+相互承認を制度化。
6. 被害スケールの現実
IC3 2024:損失**$16.6B(+33%)、BEC$2.77B。
FFKC(資金凍結):成功率66%**。分単位の初動が鍵。
中継先:英国・香港が頻出。
攻撃コストの低下がスケールを押し広げる。防御も生成AIで自動化・高速化しなければ追いつかない。
7. 90秒で回す「OOB二経路」プロトコル(会議・電話共通)
方針:直感に賭けない。本人らしさではなく工程で担保。
7-1. 事前仕込み(~30秒)
合言葉の月次更新(社内固有情報を鍵に)
逆発信ホワイトリスト(社内ディレクトリ番号のみ有効)
冷却5分の制度化
冒頭ライブ質疑(予告なしの短問)
7-2. 会議中(~90秒)
二経路同時照合:合言葉+別チャネル(社内電話/エンタープライズチャット)
時間圧の解除宣言:「規程によりOOB確認。5分中断」
環境メタの確認:背景・影・声質・同席者の割込み
要求粒度の引上げ:原資/取引ID/内部コード——曖昧なら即中断→逆発信
7-3. 電話(ボイスクローン前提)
着信には出ず、逆発信(既知番号へ)
“声の本人性”を評価しない(工程で担保)
7-4. 送金後の初動
直ちに金融機関へFFKC依頼(成功率66%)
8. 反論と反証(社内合意形成のために)
「検知ツールで十分」:検知は最後の網。主戦場はOOB・冷却・相互承認という工程。
「顔と声で見分けられる」:音声は不安定、AI顔は過大評価されがち。直感ではなく手順で。
「上長の緊急指示に逆らえない」:“緊急=黄信号”を規程化し、**「OOB確認のため5分中断」**を誰でも言える文化へ。
9. 実装チェックリスト(最短で始める)
ポリシー:□ OOB義務化/□ 逆発信ルール/□ 冷却5分/□ 二名相互承認
プロセス:□ 会議冒頭ライブ質疑/□ 合言葉の月次ローテ
人(教育):□ AI会議の模擬演習/□ BECロールプレイ
技術:□ 決裁WFのOOBボタン/□ ログ保存
対応:□ 金融機関連絡の定型文/□ 初動手順の掲示
10. FAQ(強調スニペット最適化)
Q1. 何秒の音声があれば危険?
A. 3秒でも模倣は可能。音声単独の本人確認は禁止し、合言葉+別チャネルへ。
Q2. “本物らしい”会議を詐欺と判断する根拠は?
A. 事前録画+AI音声上書きの公的事案あり。双方向検証がなければ未了。
Q3. 会議中に怪しいと感じた最初の一手は?
A. **「OOB確認のため5分中断します」**と宣言し、社内ディレクトリ番号に逆発信。
Q4. BECとの関係は?
A. いずれも意思決定系。IC3 2024は**$16.6B**、BEC$2.77B、FFKC66%。初動とOOBが鍵。
Q5. 海外宛送金で注意すべき地域は?
A. 英国・香港が中継先として頻出。**“あり得る先ほど疑いにくい”**点に注意。
11. 結論——“説得力”より**“検証力”**
3秒音声、会議の権威性、時間圧が重なると直感は誤る。ゆえにOOB二経路+冷却+相互承認という工程へ重心を移す。インシデント時はFFKCに分単位で乗せる。
攻撃が高度化・低コスト化・指数的拡大する時代、防御も生成AIで自動化・運用強化が必須。生成AIを防御に活用できない企業は市場から退場するリスクを負う。Yaguraはこの現実に正面から挑み、“90秒OOB検証”を貴社の現場に実装します。