Gmail、数年ぶりのスパムフィルターのアップグレードを実施

[広告1]

Googleは最近、セキュリティブログ記事を公開し、近年のGmailスパムフィルターにおける最大規模の防御強化の一つとされる機能の詳細を解説しました。これは、「Resilient and Efficient Text Vectorization（RETVec）」と呼ばれる新しいテキスト分類システムです。Googleによると、このシステムは、特殊文字、絵文字、スペルミス、その他人間には判読可能でも機械には理解しにくい迷惑メールといった、テキストの関連性と特異性を理解するのに役立つとのことです。以前は、特殊文字を含むスパムメールはGmailの防御を簡単にすり抜けていました。

「おめでとうございます！ジャックポット口座に 1,000 ドルが追加されました」というメールは、おそらくスパムフィルターでブロックされるでしょう。しかし、メール内の文字の大部分は Unicode 標準の奥深くまで浸透しており、ユーザーはそこで、通常のラテンアルファベットの一部のように見える文字を見つけるかもしれません。

Googleによると、RETVecは、挿入、削除、スペルミス、同音異義語、LEET置換など、文字レベルの操作に対して耐性を持つようにトレーニングされています。RETVecモデルは、UTF-8セット内のすべての文字と単語を効率的にエンコードできる新しい文字エンコーディングでトレーニングされています。その結果、RETVecはルックアップテーブルや固定された語彙サイズを必要とせずに、100以上の言語で優れたパフォーマンスを発揮します。

Gmail nâng cấp bộ lọc thư rác lớn nhất trong nhiều năm - Ảnh 1. — RETVecのおかげで、Gmailはスパムをより正確に認識しフィルタリングできるようになりました

Googleによると、その差は劇的です。固定の語彙サイズや同音異義語の参照テーブルを使用する方法は、リソースを大量に消費します。一方、RETVecはパラメータ数が数百万ではなく20万しかないため、Googleのスパムフィルタリングクラウドプラットフォームは大規模ですが、ローカルマシンでも実行できます。RETVecはオープンソースであり、Googleは同音異義語攻撃を排除できると期待しています。

RETVecは、文字コンテンツではなく視覚的な類似性に基づいて単語の意味を判断するTensorFlow機械学習モデルと同様の仕組みで動作します。このアプローチは大きな改善をもたらし、Googleによると、Gmailのスパム分類器をRETVecに置き換えたことで、スパム検出率がベースラインから38%向上し、誤検出が19.4%減少しました。RETVecの導入により、モデルのTPU使用量は83%削減され、RETVecの導入は近年最大のアップグレードの一つとなりました。同社は過去1年間、社内でRETVecのテストを行っており、すべてのユーザーのGmailアカウントに展開しました。

[広告2]
ソースリンク