Tika解析文件Demo

qindongliang1922

浏览: 2149608 次
性别:
来自: 北京

最近访客更多访客>>

godandghost

youhere

tanss

fengshuo850420

博主相关

博客

微博

相册

留言

关于我

博客专栏

: 证道Lucene4
浏览量：116395

: 证道Hadoop
浏览量：124655

: 证道shell编程
浏览量：58568

: ELK修真
浏览量：70438

文章分类

社区版块

存档分类

博客分类：

JAVA

java tika

package com.qin.testparser;

import java.io.File;
import java.io.FileInputStream;

import org.apache.tika.metadata.Metadata;
import org.apache.tika.mime.MimeType;
import org.apache.tika.mime.MimeTypes;
import org.apache.tika.mime.MimeTypesFactory;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.parser.microsoft.OfficeParser;
import org.apache.tika.sax.BodyContentHandler;


/**
 * 使用Tika解析
 * 各种文件
 * 
 * 
 * @author qindongliang
 * 
 * 
 * ***/



public class ParseDoc {
	
	
	
	
	public static void main(String[] args)throws Exception {
		
		//FileInputStream f=new FileInputStream(new File("D:\\校讯通产品用户使用手册.doc"));
		//FileInputStream f=new FileInputStream(new File("E:\\tika\\tika in action.pdf"));
		 FileInputStream f=new FileInputStream(new File("D:\\345.jpg"));
		 Parser p= new AutoDetectParser();//自动获取一个合适的解析器类型  
		 //如果文件很大，那么这个值可以适当调大
		 BodyContentHandler hand= new BodyContentHandler(10000);
		 Metadata me=new  Metadata();		 
		 ParseContext pct=new ParseContext();
		// p.parse(f, hand ,new Metadata(), new ParseContext());
		 p.parse(f, hand ,me, pct);
		//打印读取的文本
		System.out.println(hand.toString());
		
		
	}

}

分享到：

Git入门及上传项目到github中 | Nutch1.8插件编译步骤

2014-05-27 10:40
浏览 1708
评论(0)
论坛回复 / 浏览 (0 / 1233)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

Tika解析文件Demo

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

Tika解析文件Demo

评论

发表评论

相关推荐

记一次log4j不打印日志的踩坑记

在Java里面如何解决进退两难的jar包冲突问题？

如何轻松理解二叉树的深度遍历策略

为什么单线程Redis性能也很出色

如何将编程语言里面的字符串转成数字？

为什么Java里面String类是不可变的

关于Java里面volatile关键字的重排序

多个线程如何轮流打印ABC特定的次数？

聊聊Java里面的引用传递

理解计数排序算法的原理和实现

理解Java7和8里面HashMap+ConcurrentHashMap的扩容策略

关于Java里面多线程同步的一些知识

Java单例模式之双检锁深入思考

关于Java里面多线程同步的一些知识

重新认识同步与异步，阻塞和非阻塞的概念

线程的基本知识总结

Java里面volatile关键字修饰引用变量的陷阱

关于Java里面的字符串拼接，你了解多少？

深入理解Java内存模型的语义

如何证明Java多线程中的成员变量数据是互不可见的

最近访客更多访客>>