WEB开发网
开发学院CMS教程dvbbs 动网论坛教程:对付论坛群发软件的方法之二 阅读

动网论坛教程:对付论坛群发软件的方法之二

 2010-07-22 18:58:43 来源:WEB开发网   
核心提示:以理论的角度论对抗群发软件,兼论OCR1、验证码针对改变颜色的小手段,动网论坛教程:对付论坛群发软件的方法之二,图形学的算法多而成熟,在此不再赘述,3、关于asp改名可以通过查找“注册”的链接目标来进行对抗,既然验证码对抗都作了,且使用颜色会对色弱人士造成困扰(在下有一位同学就是),关于OCR

以理论的角度论对抗群发软件,兼论OCR

1、验证码

针对改变颜色的小手段,图形学的算法多而成熟,在此不再赘述。且使用颜色会对色弱人士造成困扰(在下有一位同学就是)。

关于OCR,至少有两种比较有效的算法——重叠积分和微分几何抽取特征+模式识别。

所谓重叠积分,就是那标准字体直接对照。枚举字符和位置,然后判断标准字体与图像的差别。用动态规划实现,很容易做到完美识别加入杂点、删除/插入行之类的手段(此类算法中学生竞赛辅导读物即有介绍)。即使不知道论坛的源代码,标准字体也很容易通过手工处理图片获得,因此猥琐标准字体也并非长远方案。况且群发软件的作者也兼做字库。

对付这类算法比较有效的手段可以用几何变换(放缩、旋转、错切),但用图形学方法还是可以对付的;另一种手段就是采用非标准的矢量字体,同一字符的点阵形式可以有极大的差别。

微分几何抽取特征+模式识别是用来对付非标准的矢量字体的比较有效的手段。先用图形学方法找到字符的“轮廓”或“骨架”一类的信息。抽取微分几何特征和拓扑学特征,比如导数、曲率、线段夹角、基本群等。然后使用通用而成熟的模式识别算法,比如神经网络一类,来识别出字符。对付这种手段,有效的方法恐怕只有使“轮廓”或“骨架”难以识别。足够数量的杂点,或是象色盲检查那样的断续字符,虽然不是无法对付,但起码可以大大增加这种算法实现的困难。

附:在下制作的一个测试用的验证码生成算法。asp文件也有,但我没asp空间,所以用htm来测试。

http://learn.tsinghua.edu.cn/homepage/2003012267/test.htm

2、用户名

目前群发软件的用户名应该是随机生成的,因此可以用随机性检验的算法进行对抗。但因用户名包含信息过少,难以使用复杂而效果好的算法。所以不妨简单的计算一下用户名的熵。用200个随机8字母用户名测试,熵高于最大值80%的通常总是有198到199个。缺点是仍没有能力区分英文单词,比如bluesky之类,与真正的随机用户名。

3、关于asp改名

可以通过查找“注册”的链接目标来进行对抗。既然验证码对抗都作了,额外做个语法分析也不难。

在下写的asp

http://bbs.dvbbs.net/UploadFile/2005-5/200551311341267113.rar

Tags:论坛 教程 对付

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接