“98五笔字型输入法”大批量造词
2006-02-04 13:35:03 来源:WEB开发网“98五笔字型输入法”大批量造词
五笔字型是目前最为流行的汉字输入法之一。“98五笔字型”相对于86版五笔字型,
从编码理论、编码规则、部件设计等多方面有许多创新和提高,但笔者在使用中感觉其
自带的词库的词汇量太少,很多常用词词库中没有,如“大量、采用、备份、宽度、办事员、女朋友、翻两番、按惯例、本世纪初、隆重庆祝、办公自动化”等。《电脑报》
1999年第35期“为五笔字型输入法添加大批量词组”曾介绍把“微软拼音输入法”的词组添加到“98五笔字型输入法”中(前者的词组比后者多一倍),但文章介绍的方法不适用于“98五笔字型”,不过“98五笔字型”自带有词库生成器,所以做起来要简单一些。
1.还原“微软拼音输入法”的码表原文件:
在Win98中单击“开始\程序\附件\输入法生成器”,打开输入法生成器属性页,在
“逆转换”子页面中单击“打开文件”按钮,在打开文件对话框中选择“C:\windows\system\winpy.mb
(即微软拼音输入法的码表文件)”,按确定按钮回到输入法生成器,在码表原文件框
中输入转换后想要保存的文件名如:“C:\winpy.txt”,单击逆转换即生成winpy.txt
码表原文件,这就是我们需要的文件。
2.删除文件中的字母和单字:
码表原文件生成后还不能被“王码汉字输入法词库生成器”接受,必须删除其中的字母、字
符等,为减小文件长度应删除所有单字,下面介绍用Word2000进行处理。
(1)用Word打开winpy.txt,删除头部如下输入法信息:
[Description]
Name=全拼
MaxCodes=12
MaxElement=1
UsedCodes=abcdefghijklmnopqrstuvwxyz
WildChar=?
NumRules=3
[Rule]
ca4=p10+p20+p30+p40
ce2=p10+p20
ce3=p10+p20+p30
[Text]
(2)删除拼音字母:选菜单“编辑\替换(或直接按Ctrl+H快捷键)”命令,打开“查找
和替换”操作窗口,单击“高级”按钮,再单击“特殊字符\任意字母(或直接输入^$)”,
在“替换为”框中不要有任何字符,最后单击“全部替换”。
(3)删除多余空格:在“查找和替换”操作窗口中的“查找内容”框中按一下空格键,
“替换为”框中不要有任何字符,单击“全部替换”。
(4)删除单字:这一步比较复杂,因为删除单字时需要用到通配符,但通配符不能和特殊字符同时使用,所以要在回车符前后插入一些辅助字符,删除单字后再把辅助字符删除。首先光标定位在“查找内容”框,单击“特殊字符\段落标记符(或直接输入^p)”,“替换为”框中输入“$$^p##”,单击“全部替换”;其次选中“使用通配符”前的复选框,在查找内容中输入"##?$$",“替换为”框中不要有任何字符,单击“全部替换”,这样单字就被删除,文件中就只剩下词组;最后把多余的段落标记符和辅助字符删除,多余的段落标记符删除方法是在“查找内容”框中输入两个段落标记符如“^p^p”,“替换为”框中输入一个段落标记符“^p”,经过多次替换直到没有多余的段落标记符为至。现在词组文件就生成了,按保存按钮保存这个文件,出现对话框时直接按回车保存为文本文件(TXT文件)。
3.将新词组添加至“王码汉字输入法词库”中:
按如下步骤“开始\程序\王码输入法\词库生成器”运行“王码汉字输入法词库生成器”,
文件名中输入以上生成的词组文本文件winpy.txt,或单击“游览”按钮选择词组文件,建库方式选择追加词库,单击“开始造词”,注意观察下面的进度条,如果在100%之前结束,说明文件中有不被识别的字母或符号,检查后重新生成。“王码汉字输入法词库生成器”添加新词时,先与原词库中的词进行对比,如果要添加的词在原词库中已经存在,则不再添加该词。
4.疑难问题:
(1)winpy.txt文件的长度按照A4纸有一千多页,所以删除操作过程要很长时间,可以把文件先切分成两个或多个文件后分别处理,处理完再合并。经过添加后的“98王码汉字输入法词库”大约有三万条词组,比原来增加了一倍。
(2)删除多余的段落标记符时,可以先在“查找内容”框中输入若干个段落标记符如“^p^p^p^p^p^p”,
执行一次全部替换后,减少个数再执行全部替换,“替换为”框中始终保持一个段落标记符“^p”,
这样速度要快一些。
(3)王码汉字输入法词库中有重码时后追加的词总是排在先加入的词前面,即微软拼音输入法的词组排在王码汉字输入法词组前,这样一来常用词组并不排在前面,给输入带来一些麻烦,有两种解决办法,一是用“王码汉字输入法词库生成器”把新生成的词库还原成文本文件,编辑一下;二是在添加词库之前把原来的“王码汉字输入法词库”还原成文本文件,添加“微软拼音输入法”词组时用更新词库的方法,之后再把原来“王码汉字输入法词库”追加到词库中。
(4)王码汉字输入法词库没有排序的功能,所以有重码词组并不一定按照字数排列,这也可以自己还原词库编辑处理,编辑时要注意王码汉字输入法词库把空格和回车符作为两个词组的分割符,所以一个词组中间不能有空格和回车换行符(Word中的段落标记符),另外王码汉字输入法词库中有一些错词如“工共中央国务院”,如有兴趣可以自行编辑改正。
(5)如果Win98附件中没有输入法生成器一项,请把Win98安装盘放入光驱,从“开始\设置\控制面板\添加删除程序\Windows安装程序”添加。以上五笔字型输入法为“98王码(五笔字型WM9801国标版)”。
(6)如果你嫌以上太麻烦可与作者联系索要已经处理过的词组文本文件,按以上方法更新“98五笔字型”词库文件即可。(zheast@371.net)
更多精彩
赞助商链接