机器人 小叮咚的 中文分词终于跨出了第一步
2008-01-05 19:59:49 来源:WEB开发网 闂傚倸鍊搁崐鎼佸磹閹间礁纾归柟闂寸绾惧綊鏌熼梻瀵割槮缁炬儳缍婇弻鐔兼⒒鐎靛壊妲紒鎯у⒔閹虫捇鈥旈崘顏佸亾閿濆簼绨绘い鎺嬪灪閵囧嫰骞囬姣挎捇鏌熸笟鍨妞ゎ偅绮撳畷鍗炍旈埀顒勭嵁婵犲嫮纾介柛灞捐壘閳ь剛鎳撻~婵嬪Ω閳轰胶鐤呯紓浣割儐椤戞瑩宕ョ€n喗鐓曟い鎰靛亝缁舵氨绱撻崘鈺傜婵﹤顭峰畷鎺戔枎閹搭厽袦婵犵數濮崑鎾绘⒑椤掆偓缁夌敻骞嗛悙鍝勭婵烇綆鍓欐俊鑲╃磼閹邦収娈滈柡灞糕偓鎰佸悑閹肩补鈧尙鏁栧┑鐐村灦閹稿摜绮旈悽绋课﹂柛鏇ㄥ灠閸愨偓濡炪倖鍔﹀鈧繛宀婁邯濮婅櫣绱掑Ο璇茶敿闂佺ǹ娴烽弫璇差嚕婵犳碍鏅插璺猴工瀹撳棝姊虹紒妯哄缂佷焦鎸冲畷鎴﹀箻鐠囧弶宓嶅銈嗘尰缁嬫垶绂嶉悙顒佸弿婵☆垳鍘ф禍楣冩倵濮樼偓瀚�

核心提示:机器人 小叮咚的中文分词终于跨出了第一步机器人 小叮咚的帐号:QQ: 443803193MSN: xiaodingdong21@hotmail.com 主页: http://xiaodingdong.myshow.cn/index.asp网络上有很多算法,借鉴了一下,机器人 小叮咚的 中文分词终于跨出了第一步,
机器人 小叮咚的中文分词终于跨出了第一步
QQ:
443803193
MSN:
xiaodingdong21@hotmail.com
主页: http://xiaodingdong.myshow.cn/index.asp
网络上有很多算法,借鉴了一下,然后自己用最普通得方法做了一个分词
现在还没有和小叮咚集成,等效果比较满足后,加入小叮咚得问答程序组件。
原理是:
对 待解析得句子(长度N)做N次循环
在每次循环中寻找从当前开始位置开始出现的最大词组
(递归实现,先判定第一个,比如“我”,假如存在,把“我们”加起来判定,以此类推....)
找到后返回最大词组,并跳跃到最大词组后得字 重复循环
下面是分词的效果
s = "我们要好好学习天天向上,努力工作,真想睡觉!";
我们要好好学习天天向上
s = "网站计数器都是一种最简单的网络程序应用";
网站计数器都是一种最简单的网络程序应用
s="对我们来说他是一个创造尊严的人一个带来快乐的人一个与许多巴勒斯坦人相比生活异常简单的人他带给巴勒斯坦希望这是难以失去他的真正原因";
对我们来说他是一个创造尊严的人一个带来快乐的人一个与许多巴勒坦人相比生活异常简单的人他带给巴勒坦希望这是难以失去他的真正原因
更多精彩
赞助商链接