package com.qin.testparser;
import java.io.File;
import java.io.FileInputStream;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.mime.MimeType;
import org.apache.tika.mime.MimeTypes;
import org.apache.tika.mime.MimeTypesFactory;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.parser.microsoft.OfficeParser;
import org.apache.tika.sax.BodyContentHandler;
/**
* 使用Tika解析
* 各种文件
*
*
* @author qindongliang
*
*
* ***/
public class ParseDoc {
public static void main(String[] args)throws Exception {
//FileInputStream f=new FileInputStream(new File("D:\\校讯通产品用户使用手册.doc"));
//FileInputStream f=new FileInputStream(new File("E:\\tika\\tika in action.pdf"));
FileInputStream f=new FileInputStream(new File("D:\\345.jpg"));
Parser p= new AutoDetectParser();//自动获取一个合适的解析器类型
//如果文件很大,那么这个值可以适当调大
BodyContentHandler hand= new BodyContentHandler(10000);
Metadata me=new Metadata();
ParseContext pct=new ParseContext();
// p.parse(f, hand ,new Metadata(), new ParseContext());
p.parse(f, hand ,me, pct);
//打印读取的文本
System.out.println(hand.toString());
}
}
分享到:
相关推荐
tika读取文件所用jar包,包含各种文件类型所用jar
利用开源工具Tika解析PDF文档,HTML文档,微软形式的文档
Tika是Apache下开源的文档内容解析工具,支持上千种文档格式(如PPT、XLS、PDF)。Tika使用统一的方法对各种类型文件进行内容解析,封装了各种格式解析的内部实现,可用于搜索引擎索引、内容分析、转换等场景。
将上传文件至服务器,进行解析文件时,经常需要判断文件是否损坏。我们可以使用tika来检测文件是否损坏 maven引入如下: <groupId>org.apache.tika <artifactId>tika-app <version>1.18 <groupId>xerces ...
OFD解析器OFD(开放式固定格式文档)
概述一个解析器,它使用命令行工具从音频和视频文件中提取元数据。 元数据是使用一部分以类似 XPath 的语法报告的,即: pbcore:instantiationDuration=00:00:01.07pbcore:instantiationDataRate=362 kb/spbcore:...
每个 ISA-Tab 文件类型一个 Tika 解析器(三个解析器:调查、研究、分析) 调查解析器仅获取元数据。 由于 ISA-Tab 文件是自上而下组织的,我正在努力扩展它,以便从调查开始解析相关文件(研究和分析文件)。 ...
tika-python 绑定到 Apache Tika REST 服务 Python binding to the Apache Tika REST services Apache Tika 库的 Python 端口,可使用 Tika REST 服务器使 Tika 可用。这使得 Apache Tika 可作为 Python 库使用,可...
提卡示例 使用Apache Tika进行文件类型检测 使用检测项目中文件的类型(csv,xml等)。 一个有关我的即将发布的博客文章的项目。
Tika当前支持超过1000种文件类型,包括流行的Office格式。 安装 自动化的 使用为您做到! xqpm xq-tika 手动地 下载文件的最新版本。 将文件添加到您的类路径,或者如果使用BaseX,只需将文件添加到BaseX \ lib...
Apache Tika 示例 该项目包含如何使用 Tika 主要界面的示例。
Apache Tika解析doc/docx/txt/xls等文件内容,可以很方便地将文档内容提取出来,方便做全文检索使用。
tika读取文件所用jar包,tika-core-1.5.jar和tika-parsers-1.5.jar
Apache Tika本产品包括在以下位置开发的软件Apache软件基金会。版权所有1993-2010大学大气研究公司/ Unidata该软件包含源自UCAR / Unidata的NetCDF库的代码。Tika服务器组件使用CDDL许可的依赖项
Apache Tika 利用现有的解析类库,从不同格式的文档中(例如HTML, PDF, Doc),侦测和提取出元数据和结构化内容。 功能包括: 侦测文档的类型,字符编码,语言,等其他现有文档的属性。 提取结构化的文字内容。 该...
tika最新版本,tika-app-1.0.jar,提取office和pdf文档内容
包含.Java的源文件,方便在使用时查看和解惑
可直接通过java -jar tika.jar运行该jar包 查看我们解析得到文本的结果
下载Apache的tika项目时发现网上没有现成的tika的jar文件,只能自己编译一个了。可能大家也会遇到这个问题。所以将编译好的jar包传上来于大家分享。其中包含了tika-app-0.5.jar,tika-core-0.5.jar,tika-parsers-...