如何在 Ubuntu 22.04|20.04|18.04 上安装 Apache Tika
如何在 Ubuntu 22.04|20.04|18.04 上安装 Apache Tika? Apache Tika 是一个开源工具包,可从一千多种不同的文件类型(例如 PPT、XLS 和 PDF)中检测并提取元数据和文本。 Tika 对于搜索引擎索引、内容分析、翻译等非常有用。
Apache Tika 2.2.x 中的新增功能
- 添加对从 O365 下载的 OneNote 文件的支持
- 改进从非 Microsoft 工具创建的 MSOffice 文件中提取嵌入文件的功能
- 在 TikaConfig 中添加了忽略加载错误的能力
- 修复 PipesServer 中阻止连接附件内容的逻辑错误
- 修复 tika-app 批处理模式下的默认日志记录
- 修复在多个端口上启动多个分叉服务器时的竞争条件
- 添加元数据项以确定 PDF 是否有集合/是否为作品集 PDF
- 添加 JPEG XL、MARC、ICC 配置文件、NES-ROM 文件类型的检测
- 将可选的提取范围添加到 FetchEmitTuple 以允许范围提取,例如http 或 s3
在这篇文章中,我们将讨论在 Ubuntu 22.04|20.04|18.04 LTS 上安装 Apache Tika。
Apache Tika 依赖项
在 Ubuntu 22.04|20.04|18.04 LTS 上构建和安装 Apache Tika 需要:
- Java 运行时环境 (JRE)
- 阿帕奇Maven
我们将安装这些依赖项,然后才能在 Ubuntu 22.04|20.04|18.04 Linux 系统上下载并安装 Tika。
第1步:安装所需的依赖项
首先确保您运行的是更新的 Ubuntu 桌面/服务器。
sudo apt update
sudo apt -y install wget curl vim unzip
步骤 2:在 Ubuntu 22.04|20.04|18.04 上安装 Java
从 Tika 1.19 开始,支持从 Java 11 构建。您可以使用以下命令在 Ubuntu 上安装 Java:
sudo apt install -y default-jdk
确认安装的Java版本:
$ java --version
openjdk version "11.0.13" 2021-10-19
OpenJDK Runtime Environment (build 11.0.13+8-Ubuntu-0ubuntu1.20.04)
OpenJDK 64-Bit Server VM (build 11.0.13+8-Ubuntu-0ubuntu1.20.04, mixed mode, sharing)
第三步:安装 Apache Maven
按照我们的指南安装 Apache Maven:
- 在 Ubuntu 上安装最新的 Apache Maven
第 4 步:下载并安装 Apache Tika
从下载页面下载最新的 Apache Tika。
export VER="2.2.1"
wget https://archive.apache.org/dist/tika/${VER}/tika-${VER}-src.zip
解压下载的文件。
unzip tika-${VER}-src.zip
更改到新文件夹并运行 mvn install
cd tika-${VER}
mvn install
安装输出示例。
等待安装完成,然后在其基本目录中测试 Tika。
参考:
http://tika.apache.org/2.2.1/gettingstarted.html |