采用POI和ANTLR提取WORD文档数据
2008-01-05 18:39:08 来源:WEB开发网1. POI提取Word文档内容
POI是Apache开源项目之一,用java实现跨平台MS Word/Excel文档解析。 也就是说可以在非Windows平台提取MS Word/Excel文档内容。 本文采用POI的一个扩展Jar包tm-extractors_0.4.jar提取Word文档内容。 Word文档内容如下:(该文档有2页,每页记录一个组件内容),
Java类中Import import org.textmining.text.extraction.WordExtractor;然后在方法中:
PRotected String getText() throws Exception {
WordExtractor extractor=null;
String text=null;
extractor = new WordExtractor();
text=extractor.extractText(in); // in为 FileInputStream(new File("Word文档地址"));
return text;
}
运行结果如下:
Colimas Component Specification
1. Component: Apache Jakarta POI Java API To access Microsoft Format Files
1.1 Basic Information
?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦
Alias : POI
Author : http://jakarta.apache.org/poi/index.Html
Version : 0.0.1
Language : Java
Platform : Windows, linux, Unix
Status : Confirmed
Is public? : Y
?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦
1.2 Developers
?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦
Apache developer1
Apache developer2
?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦
- ››采用oracle中exp远程备份oracle
- ››poi之excel 读取
- ››采用 Rational Functional Tester 8.0 实现 Eclip...
- ››采用Symbian^3系统 诺基亚N8-00获证实
- ››采用“独占”的方式给数据库设置密码
- ››采用DIV+CSS制作网站的优势
- ››采用Inventor的机械压机参数化设计及运动仿真
- ››采用碎片整理技术避免虚拟服务器性能下降
- ››采用C#反射机制和动态参数实现可插件业务平台
- ››采用POI创建Excel文件
- ››采用POI和ANTLR提取WORD文档数据
- ››ANTLR Studio for Eclipse插件发布
更多精彩
赞助商链接