`
qindongliang1922
  • 浏览: 2149608 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7265517b-f87e-3137-b62c-5c6e30e26109
证道Lucene4
浏览量:116395
097be4a0-491e-39c0-89ff-3456fadf8262
证道Hadoop
浏览量:124655
41c37529-f6d8-32e4-8563-3b42b2712a50
证道shell编程
浏览量:58568
43832365-bc15-3f5d-b3cd-c9161722a70c
ELK修真
浏览量:70438
社区版块
存档分类
最新评论

Tika解析文件Demo

    博客分类:
  • JAVA
阅读更多
package com.qin.testparser;

import java.io.File;
import java.io.FileInputStream;

import org.apache.tika.metadata.Metadata;
import org.apache.tika.mime.MimeType;
import org.apache.tika.mime.MimeTypes;
import org.apache.tika.mime.MimeTypesFactory;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.parser.microsoft.OfficeParser;
import org.apache.tika.sax.BodyContentHandler;


/**
 * 使用Tika解析
 * 各种文件
 * 
 * 
 * @author qindongliang
 * 
 * 
 * ***/



public class ParseDoc {
	
	
	
	
	public static void main(String[] args)throws Exception {
		
		//FileInputStream f=new FileInputStream(new File("D:\\校讯通产品用户使用手册.doc"));
		//FileInputStream f=new FileInputStream(new File("E:\\tika\\tika in action.pdf"));
		 FileInputStream f=new FileInputStream(new File("D:\\345.jpg"));
		 Parser p= new AutoDetectParser();//自动获取一个合适的解析器类型  
		 //如果文件很大,那么这个值可以适当调大
		 BodyContentHandler hand= new BodyContentHandler(10000);
		 Metadata me=new  Metadata();		 
		 ParseContext pct=new ParseContext();
		// p.parse(f, hand ,new Metadata(), new ParseContext());
		 p.parse(f, hand ,me, pct);
		//打印读取的文本
		System.out.println(hand.toString());
		
		
	}

}
分享到:
评论

相关推荐

    tika读取文件专用包

    tika读取文件所用jar包,包含各种文件类型所用jar

    利用TikaAPI解析各种文档

    利用开源工具Tika解析PDF文档,HTML文档,微软形式的文档

    tika-app-1.14 文本解析文件内容抽取

    Tika是Apache下开源的文档内容解析工具,支持上千种文档格式(如PPT、XLS、PDF)。Tika使用统一的方法对各种类型文件进行内容解析,封装了各种格式解析的内部实现,可用于搜索引擎索引、内容分析、转换等场景。

    apache tika检测文件是否损坏的方法

    将上传文件至服务器,进行解析文件时,经常需要判断文件是否损坏。我们可以使用tika来检测文件是否损坏 maven引入如下: <groupId>org.apache.tika <artifactId>tika-app <version>1.18 <groupId>xerces ...

    ofd-parser:OFD文件的Apache Tika解析器

    OFD解析器OFD(开放式固定格式文档)

    tika-ffmpeg:一个 Apache Tika 解析器,它使用 FFmpeg 命令行工具从音频和视频文件中提取元数据

    概述一个解析器,它使用命令行工具从音频和视频文件中提取元数据。 元数据是使用一部分以类似 XPath 的语法报告的,即: pbcore:instantiationDuration=00:00:01.07pbcore:instantiationDataRate=362 kb/spbcore:...

    ISATabParser:ISA-Tab 数据格式的 Tika 解析器

    每个 ISA-Tab 文件类型一个 Tika 解析器(三个解析器:调查、研究、分析) 调查解析器仅获取元数据。 由于 ISA-Tab 文件是自上而下组织的,我正在努力扩展它,以便从调查开始解析相关文件(研究和分析文件)。 ...

    tika-python绑定到 Apache Tika REST 服务

    tika-python 绑定到 Apache Tika REST 服务 Python binding to the Apache Tika REST services Apache Tika 库的 Python 端口,可使用 Tika REST 服务器使 Tika 可用。这使得 Apache Tika 可作为 Python 库使用,可...

    tika-example:使用Apache Tika进行文件类型检测

    提卡示例 使用Apache Tika进行文件类型检测 使用检测项目中文件的类型(csv,xml等)。 一个有关我的即将发布的博客文章的项目。

    xq-tika:XQuery 3.0模块,用于公开支持1000多种文件类型的Apache Tika文件解析功能!

    Tika当前支持超过1000种文件类型,包括流行的Office格式。 安装 自动化的 使用为您做到! xqpm xq-tika 手动地 下载文件的最新版本。 将文件添加到您的类路径,或者如果使用BaseX,只需将文件添加到BaseX \ lib...

    TikaExamples:Apache Tika 解析、检测和翻译的示例用法

    Apache Tika 示例 该项目包含如何使用 Tika 主要界面的示例。

    tika-app-1.23.jar

    Apache Tika解析doc/docx/txt/xls等文件内容,可以很方便地将文档内容提取出来,方便做全文检索使用。

    tika jar包

    tika读取文件所用jar包,tika-core-1.5.jar和tika-parsers-1.5.jar

    tika-core-1.22.jar_tika_

    Apache Tika本产品包括在以下位置开发的软件Apache软件基金会。版权所有1993-2010大学大气研究公司/ Unidata该软件包含源自UCAR / Unidata的NetCDF库的代码。Tika服务器组件使用CDDL许可的依赖项

    tika_1.10_API (CHM格式)

    Apache Tika 利用现有的解析类库,从不同格式的文档中(例如HTML, PDF, Doc),侦测和提取出元数据和结构化内容。 功能包括: 侦测文档的类型,字符编码,语言,等其他现有文档的属性。 提取结构化的文字内容。 该...

    tika 1.0最新版本

    tika最新版本,tika-app-1.0.jar,提取office和pdf文档内容

    tika1.4.zip

    包含.Java的源文件,方便在使用时查看和解惑

    tika.jar包

    可直接通过java -jar tika.jar运行该jar包 查看我们解析得到文本的结果

    tika-0.5 jar包

    下载Apache的tika项目时发现网上没有现成的tika的jar文件,只能自己编译一个了。可能大家也会遇到这个问题。所以将编译好的jar包传上来于大家分享。其中包含了tika-app-0.5.jar,tika-core-0.5.jar,tika-parsers-...

Global site tag (gtag.js) - Google Analytics