WEB开发网
开发学院WEB开发Jsp 采用POI和ANTLR提取WORD文档数据 阅读

采用POI和ANTLR提取WORD文档数据

 2008-01-05 18:39:08 来源:WEB开发网   
核心提示:1. POI提取Word文档内容POI是Apache开源项目之一,用java实现跨平台MS Word/Excel文档解析,采用POI和ANTLR提取WORD文档数据, 也就是说可以在非Windows平台提取MS Word/Excel文档内容, 本文采用POI的一个扩展Jar包tm-extractors_0.4.jar提

1. POI提取Word文档内容

POI是Apache开源项目之一,用java实现跨平台MS Word/Excel文档解析。 也就是说可以在非Windows平台提取MS Word/Excel文档内容。 本文采用POI的一个扩展Jar包tm-extractors_0.4.jar提取Word文档内容。 Word文档内容如下:(该文档有2页,每页记录一个组件内容),

采用POI和ANTLR提取WORD文档数据(图一)

采用POI和ANTLR提取WORD文档数据(图二)

Java类中Import import org.textmining.text.extraction.WordExtractor;然后在方法中:

 PRotected String getText() throws Exception {
         WordExtractor extractor=null;
         String text=null;
        extractor = new WordExtractor();
         text=extractor.extractText(in);  // in为 FileInputStream(new File("Word文档地址"));
         return text;
 }

 运行结果如下:

Colimas Component Specification

1. Component: Apache Jakarta POI Java API To access Microsoft Format Files
 
1.1 Basic Information
?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦

Alias                : POI
Author               : http://jakarta.apache.org/poi/index.Html
Version              : 0.0.1
Language             : Java
Platform              : Windows, linux, Unix
Status                : Confirmed
Is public?             : Y
?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦
1.2 Developers
?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦
Apache developer1
Apache developer2
?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦


Tags:采用 POI ANTLR

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接