株式会社サードウェア

Zebra Linuxメールフィルタ:スパム検出精度の向上

サードウェアはオープンソース・ソフトウェアのSpamAssassinの改良と普及に取り組んでおり、その成果をオープンソースコミュニティに還元すると同時にZebra Linuxメールフィルタにも反映しています。

SpamAssassinが抱える課題

日本語メールは、漢字やひらがな・カタカナを扱うために、英語圏のメールにはない課題を抱えています。たとえば、複数の文字エンコーディング(JISコードがメインですがシフトJISやUTF-8というコーディングも使われます)を正しく扱えるようにする必要があります。また、欧米の言語は単語をスペースや記号で区切りますが、日本語では通常わかち書きしません。SpamAssassinは単語の出現状況に応じてスパムである可能性を判断するため、単語の区切り方はきわめて重要なポイントになります。

現在配布されているSpamAssassinは、上記のような日本語メールに特有の課題にまだ対応していません。このため、スパムの判別精度を高めるのに限界があり、しかもスパムかどうかを判断するためのルールセットのメンテナンスが複雑でわかりにくいものになっています。

日本語メールへの対応

これらの課題に対応するには、まず文字エンコーディングを統一的に扱えるように改良すること、そして辞書などにもとづいて単語を正しくわかち書きすることが必要です。

幸い文字エンコーディングを統一的に扱うためのパッチ(改良・修正した箇所だけを抜き出した差分ファイル)が提案されていたので、サードウェアではこれをベースに作業を行い、日本語のわかち書きを行ってSpamAssassinが正しく日本語メールを処理できるように改良しました。

改良により判定精度が大幅に向上

改良前と改良後の両バージョンを使って、スパムメール、正規メール(スパムではないメール)をそれぞれ約100通ずつ判定させたところ、下図のような結果が得られました。これは、SpamAssassinが持つベイズフィルタと呼ばれるサブシステムの判定結果です。

ベイズフィルタ改良結果のグラフ

改良前のシステムでは、正規メールのスパム確率(スパムであると思われる確率)が比較的高くなりました、改良後のシステムではほとんどがゼロパーセントになりました。スパムメールに対するスパム確率は、改良前後で変化はありません。

SpamAssassinは、約数百個のさまざまな判定ルールを組み合わせて、総合的にスパムかどうかを判定します。ベイズフィルタはその中の1つにすぎませんが、はっきりと区別できるようになったことで、ベイズフィルタの判定結果の重みを増やすことが可能になります。

Zebra Linuxメールフィルタは改良版のSpamAssassinを採用しています。日本語スパム向けにチューニングしたルールセットを組み合わせることにより、実使用環境で99パーセント程度の高い判別精度を実現しています(注)。

注: 着信するスパムメールはそれぞれの利用環境により異なります。このため、この精度を保証するものではありません。

コミュニティへの貢献

サードウェアは、この改良版をさらに洗練したものにするために、「日本SpamAssassinユーザ会」の設立を呼びかけました。現在日本語スパムメール対応作業はユーザ会の有志によって進められており、Zebra LinuxメールフィルタだけでなくすべてのSpamAssassinユーザが利用できるようになっています。

メールフィルタの詳細情報

製品別インデックス

@La Mailダウンロード
アラメール|@La Mail Zebra Linux

お知らせ

[プレスリリース]携帯電話へのプッシュメール...

2010.05.19  詳細はこちら

[プレスリリース] サードウェア、Linux向けクラスタサポートを拡充

2010.03.23  詳細はこちら

年末年始休業のお知らせ

2009.12.17  詳細はこちら

DRBD事例に「シチズン時計株式会社様」「岐阜女子大学様(DRBD Proxy)」を追加しました

2009.12.08  詳細はこちら

@LaMailバージョン1.5リリース!30日間試用ダウンロードも開始!!

2009.11.26  詳細はこちら