调研: 基于bayesian的邮件分类
- 中國反垃圾郵件聯盟 貝業斯算法介紹
- Mailsofts論壇 關于貝業斯的一些討論
- better bayesian filter 【譯文】
- A plan for spam 【譯文】
- SpamAssassin
- CMU 的作業題 URL
一些例子:
- KillSpam URL
中文信息處理
- 語言學光標 中文信息處理基礎…講義
通用的spam分析素材
一些思考
理想的是工作在server端,这样可以减轻网络的负担和减少mailserver的资源浪费。
- sendmail是通过一个filter的机制过滤邮件的,可以考虑自己编写这样的filter,让自己的antispam作为一个filter 工作。不过这样我们需要进一步了解sendmail的工作机制,目前时间有限。
另外一种方法就是工作在client端,在client端的解决方案:
- Outlook/Eudra客户端提供直接的插件API,所以可以直接写插件来Bayes一下。
- Outlook Express由于不直接提供插件的方式,但是也有一些变通的方法来实现。复杂一些而已。Norton/Lockspam等等产品都支持了。
- 还有一种方式就是不区分客户端种类的,可以采用本地代理/侦听等等方式。比如,采用了侦听SMTP协议和在Outlook/Outlook Express上添加插件的方式来实现。这样既可以支持所有POP3客户端,也可以对Outlook/OE这样的客户端进行更好的操作。