WEB开发网
开发学院软件开发Python 可爱的 Python: 自然语言工具包入门 阅读

可爱的 Python: 自然语言工具包入门

 2007-03-29 12:38:25 来源:WEB开发网   
核心提示: 清单 5. 基于拙劣的 NLTK 断词工具进行词干提取>>> from nltk.tokenizer import *>>> article = Token(TEXT=open('cp-b17.txt').read())>>&

清单 5. 基于拙劣的 NLTK 断词工具进行词干提取

>>> from nltk.tokenizer import *
>>> article = Token(TEXT=open('cp-b17.txt').read())
>>> WSTokenizer().tokenize(article)
>>> from nltk.probability import *
>>> from nltk.stemmer.porter import *
>>> stemmer = PorterStemmer()
>>> stems = FreqDist()
>>> for word in article['SUBTOKENS']:
...   stemmer.stem(word)
...   stems.inc(word['STEM'].lower())
...
>>> word_stems = stems.samples()
>>> word_stems.sort()
>>> word_stems[20:40]
['"generator-bas', '"implement', '"lazili', '"magic"', '"partial',
'"pluggable"', '"primitives"', '"repres', '"secur', '"semi-coroutines."',
'"state', '"understand', '"weightless', '"whatev', '#', '#-----',
'#----------', '#-------------', '#---------------', '#b17:']

查看一些词干,集合中的词干看起来并不是都可用于索引。很多根本不是实际的单词,还有其他一些是用破折号连接起来的组合词,单词中还被加入了一些不相干的标点符号。让我们使用更好的断词工具来进行尝试:

上一页  1 2 3 4 5 6 7 8 9  下一页

Tags:可爱 Python 自然语言

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接