Java抽取Word，PDF格式文件的四种武器

　2008-01-05 18:51:52　来源：WEB开发网　　　

核心提示：很多人用java进行文档操作时经常会碰到一个问题，就是如何获得Word，Java抽取Word，PDF格式文件的四种武器，Excel，pdf等文档的内容？我研究了一下，这里提供了更加简单的一个接口给你：下载经过封装后的poi包： http://jakarta.apache.org/poi/ 下载之后，放到你的class

很多人用java进行文档操作时经常会碰到一个问题，就是如何获得Word，Excel，pdf等文档的内容？我研究了一下，在这里总结一下抽取word,pdf的几种方法。
1. 用jacob
其实jacob是一个bridage，连接java和com或者win32函数的一个中间件，jacob并不能直接抽取word,excel等文件，需要自己写dll哦，不过已经有为你写好的了，就是jacob的作者一并提供了。
jacob jar与dll文件下载： http://danadler.com/jacob/
下载了jacob并放到指定的路径之后(dll放到path,jar文件放到classpath)，就可以写你自己的抽取程序了，下面是一个简单的例子：
import java.io.File; import com.jacob.com.*; import com.jacob.activeX.*; /** * Title: pdf extraction * Description: email:chris@matrix.org.cn * Copyright: Matrix Copyright (c) 2003 * Company: Matrix.org.cn * @author chris * @version 1.0,who use this example pls remain the declare */ public class FileExtracter{ public static void main(String[] args) { ActiveXComponent component = new ActiveXComponent("Word.application"); String inFile = "c:\\test.doc"; String tpFile = "c:\\temp.htm"; String otFile = "c:\\temp.xml"; boolean flag = false; try { component.setPRoperty("Visible", new Variant(false)); Object wordacc = component.getProperty("document．").toDispatch(); Object wordfile = Dispatch.invoke(wordacc,"Open", Dispatch.Method, new Object[]{inFile,new Variant(false), new Variant(true)}, new int[1] ).toDispatch(); Dispatch.invoke(wordfile,"SaveAs", Dispatch.Method, new Object[]{tpFile,new Variant(8)}, new int[1]); Variant f = new Variant(false); Dispatch.call(wordfile, "Close", f); flag = true; } catch (Exception e) { e.printStackTrace(); } finally { component.invoke("Quit", new Variant[] {}); } } }2. 用apache的poi来抽取word，excel。
poi是apache的一个项目，不过就算用poi你可能都觉得很烦，不过不要紧，这里提供了更加简单的一个接口给你：
下载经过封装后的poi包： http://jakarta.apache.org/poi/
下载之后，放到你的classpath就可以了，下面是如何使用它的一个例子：
import java.io.*; import org.textmining.text.extraction.WordExtractor; /** *

Title: word extraction


*
Description: email:chris@matrix.org.cn 

*
Copyright: Matrix Copyright (c) 2003 

*
Company: Matrix.org.cn 

* @author chris 
* @version 1.0,who use this example pls remain the declare 
*/ 

public class PdfExtractor { 
public PdfExtractor() { 
} 
public static void main(String args[]) throws Exception 
{ 
FileInputStream in = new FileInputStream ("c:\\a.doc"); 
WordExtractor extractor = new WordExtractor(); 
String str = extractor.extractText(in); 
System.out.println("the result length is"+str.length()); 
System.out.println("the result is"+str); 
} 
}

3. pdfbox-用来抽取pdf文件
但是pdfbox对中文支持还不好，先下载pdfbox： http://www.pdfbox.org/
下面是一个如何使用pdfbox抽取pdf文件的例子：

import org.pdfbox.pdmodel.PDdocument． 
import org.pdfbox.pdfparser.PDFParser; 
import java.io.*; 
import org.pdfbox.util.PDFTextStripper; 
import java.util.Date; 
/** 
*


      
      
      
      
      
		Tags：Java 抽取 Word 
编辑录入：爽爽　[复制链接]
			[打 印] 
	  
      
	  
	    []
		
	  
      
      

	0
	
		
		好的评价　如果觉得好，就请您

		  0%(0)
		
		
		差的评价　如果觉得差，就请您

		  0%(0)
		
	
	

      
       相关阅读
      
        ››JavaScript拖拽原理的实现
››javascript事件列表解说
››Javascript代码优化工具UglifyJS
››Java Bean属性值动态设置
››JavaScript Confirm 失效的解决办法
››JavaScript页面内拖拽原理分析
››Word 2010：多语言翻译
››Word 2010：快速插入文档封面
››Word 2010：通过主题快速转换文档整体风格
››Word 2010：可以朗读的屏幕取词翻译
››Word 2010：您手边的工具：浮动工具栏
››Word 2010：让艺术字为您的文档增色

      
	  
      
            
            中查找“Java抽取Word，PDF格式文件的四种武器”更多相关内容
            中查找“Java抽取Word，PDF格式文件的四种武器”更多相关内容
            上一篇：WirelessMessagingAPI(4)
            下一篇：动态Proxy与JavaACL用户访问控制机制实现
            
      
	  
		更多精彩
		Fireworks的高级操作技巧集合
photoshop打造阳光烂漫小美女
《飘渺仙剑》神秘第二章机密资料泄露 上市在即
教你怎样在手机上聊MSN
DB2 9.5 数据库分区管理及应用实践

	  
	  
		赞助商链接



  
	
	
    
    
      热点阅读
      
Photoshop打造一幅橙黄的落叶图(1)

Photoshop相片调色:偏红色的舞台照片校色

PS打造超酷的动感水人(1)

Photoshop给黑白的天空加上透射的阳光(1)

使用Win 2003轻松建立森林间信任

2010 seo策略 内部优化/外部链接

瑞恒：节日病毒营销让产品销量翻倍增长

关于动态增加、修改、删除树形结构的程序

XT系列手机将吸引更多 Android 开发者

C++辨析系列之前言

    
    
      焦点图片
      移动用户体验设计:iOS...
通过拟物化设计的手法...
设计一个极为清晰的网...
Photoshop模特图片处理...

    
    
    
      最新推荐
      
移动用户体验设计:iOS APP体验设计

通过拟物化设计的手法使产品表现形式更加多...

设计一个极为清晰的网页

Photoshop模特图片处理:梦幻的夜灯背景制作...

SEO教程:网站加载速度成为决定成败的重要因...

用户体验设计:找到简单与复杂之间的平衡

Photoshop调出人物照片柔美的橙色调(1)

Ionic’s Isapi Rewrite Filter（IIRF）配置...

Windows XP电脑运行的命令大全，WEB开发网首...

Android tabHost的使用方法

    
	
	
    
	
	
    
      精彩阅读
      
3DS MAX Modeling Ears in 3D Tutorial

轻松清理Windows XP系统垃圾

Javascript工作流引擎代码及实例

学会在ASP中使用存储过程

全面研读 EJB 2.0

两种Delphi实现Singleton模式方法

Android 如何在界面上只显示控件(ViewGroup...

Maya4.0常用功能-Hypergraph窗口（2）

Windows 7菜单栏无法隐藏 是优化惹的祸

使Oracle数据库保持优良性能

Java安全体系结构

Word 2007与2003工具栏位置对应表：格式