可爱的 Python: 自然语言工具包入门

　2007-03-29 12:38:25　来源：WEB开发网　　　

核心提示： 清单 5. 基于拙劣的 NLTK 断词工具进行词干提取>>> from nltk.tokenizer import *>>> article = Token(TEXT=open('cp-b17.txt').read())>>&

清单 5. 基于拙劣的 NLTK 断词工具进行词干提取

>>> from nltk.tokenizer import *
>>> article = Token(TEXT=open('cp-b17.txt').read())
>>> WSTokenizer().tokenize(article)
>>> from nltk.probability import *
>>> from nltk.stemmer.porter import *
>>> stemmer = PorterStemmer()
>>> stems = FreqDist()
>>> for word in article['SUBTOKENS']:
...　　 stemmer.stem(word)
...　　 stems.inc(word['STEM'].lower())
...
>>> word_stems = stems.samples()
>>> word_stems.sort()
>>> word_stems[20:40]
['"generator-bas', '"implement', '"lazili', '"magic"', '"partial',
'"pluggable"', '"primitives"', '"repres', '"secur', '"semi-coroutines."',
'"state', '"understand', '"weightless', '"whatev', '#', '#-----',
'#----------', '#-------------', '#---------------', '#b17:']