Antispam资料收集

调研: 基于bayesian的邮件分类

一些例子:

中文信息處理

通用的spam分析素材

  • PU系列语料 URL README
  • Ling-Spam corpus URL
  • Spam Assassin语料 URL
  • Spambase语料 URL
  • mailsofts上的一些素材,不过含病毒 URL

一些思考

理想的是工作在server端,这样可以减轻网络的负担和减少mailserver的资源浪费。

  • sendmail是通过一个filter的机制过滤邮件的,可以考虑自己编写这样的filter,让自己的antispam作为一个filter 工作。不过这样我们需要进一步了解sendmail的工作机制,目前时间有限。

另外一种方法就是工作在client端,在client端的解决方案:

  • Outlook/Eudra客户端提供直接的插件API,所以可以直接写插件来Bayes一下。
  • Outlook Express由于不直接提供插件的方式,但是也有一些变通的方法来实现。复杂一些而已。Norton/Lockspam等等产品都支持了。
  • 还有一种方式就是不区分客户端种类的,可以采用本地代理/侦听等等方式。比如,采用了侦听SMTP协议和在Outlook/Outlook Express上添加插件的方式来实现。这样既可以支持所有POP3客户端,也可以对Outlook/OE这样的客户端进行更好的操作。

最终成果