サードウェアはオープンソース・ソフトウェアのSpamAssassinの改良と普及に取り組んでおり、その成果をオープンソースコミュニティに還元すると同時にZebra Linuxメールフィルタにも反映しています。
日本語メールは、漢字やひらがな・カタカナを扱うために、英語圏のメールにはない課題を抱えています。たとえば、複数の文字エンコーディング(JISコードがメインですがシフトJISやUTF-8というコーディングも使われます)を正しく扱えるようにする必要があります。また、欧米の言語は単語をスペースや記号で区切りますが、日本語では通常わかち書きしません。SpamAssassinは単語の出現状況に応じてスパムである可能性を判断するため、単語の区切り方はきわめて重要なポイントになります。
現在配布されているSpamAssassinは、上記のような日本語メールに特有の課題にまだ対応していません。このため、スパムの判別精度を高めるのに限界があり、しかもスパムかどうかを判断するためのルールセットのメンテナンスが複雑でわかりにくいものになっています。
これらの課題に対応するには、まず文字エンコーディングを統一的に扱えるように改良すること、そして辞書などにもとづいて単語を正しくわかち書きすることが必要です。
幸い文字エンコーディングを統一的に扱うためのパッチ(改良・修正した箇所だけを抜き出した差分ファイル)が提案されていたので、サードウェアではこれをベースに作業を行い、日本語のわかち書きを行ってSpamAssassinが正しく日本語メールを処理できるように改良しました。
改良前と改良後の両バージョンを使って、スパムメール、正規メール(スパムではないメール)をそれぞれ約100通ずつ判定させたところ、下図のような結果が得られました。これは、SpamAssassinが持つベイズフィルタと呼ばれるサブシステムの判定結果です。
改良前のシステムでは、正規メールのスパム確率(スパムであると思われる確率)が比較的高くなりました、改良後のシステムではほとんどがゼロパーセントになりました。スパムメールに対するスパム確率は、改良前後で変化はありません。
SpamAssassinは、約数百個のさまざまな判定ルールを組み合わせて、総合的にスパムかどうかを判定します。ベイズフィルタはその中の1つにすぎませんが、はっきりと区別できるようになったことで、ベイズフィルタの判定結果の重みを増やすことが可能になります。
Zebra Linuxメールフィルタは改良版のSpamAssassinを採用しています。日本語スパム向けにチューニングしたルールセットを組み合わせることにより、実使用環境で99パーセント程度の高い判別精度を実現しています(注)。
注: 着信するスパムメールはそれぞれの利用環境により異なります。このため、この精度を保証するものではありません。
サードウェアは、この改良版をさらに洗練したものにするために、「日本SpamAssassinユーザ会」の設立を呼びかけました。現在日本語スパムメール対応作業はユーザ会の有志によって進められており、Zebra LinuxメールフィルタだけでなくすべてのSpamAssassinユーザが利用できるようになっています。

関西オープンソース2011/コミュニティ大決戦に出展
2011.11.10 詳細はこちら
[プレスリリース] サードウェアとLINBIT が国内総代理店契約を締結
2011.10.04 詳細はこちら
DRBDクラスタスタックサポート等 料金体系変更のお知らせ
2011.09.28 詳細はこちら
Lotus Knows Expo2011 出展のご案内
2011.09.10 詳細はこちら
国内外の複数データセンタを利用したディザスタリカバリサービス提供のご案内
2011.09.08 詳細はこちら