在 Linux 上使用 gImageReader 从图像和 PDF 中提取文本在 Linux 上使用 gImageReader 从图像和 PDF 中提取文本在 Linux 上使用 gImageReader 从图像和 PDF 中提取文本在 Linux 上使用 gImageReader 从图像和 PDF 中提取文本
  • 业务
  • 目标
  • 支持
  • 登录
找到的结果: {phrase} (显示: {results_count} 共: {results_count_total})
显示: {results_count} 共: {results_count_total}

加载更多搜索结果...

搜索范围
模糊匹配
搜索标题
搜索内容

在 Linux 上使用 gImageReader 从图像和 PDF 中提取文本

发表 admin at 2025年2月28日
类别
  • 未分类
标签

简介:gImageReader 是一个 GUI 工具,可利用 tesseract OCR 引擎在 Linux 中从图像和 PDF 文件中提取文本。

gImageReader 是 Tesseract 开源 OCR 引擎的前端。 Tesseract 最初由 HP 开发,并于 2006 年开源。

基本上,OCR(光学字符识别)引擎可让您扫描图片或文件 (PDF) 中的文本。它默认可以检测多种语言,还支持通过 Unicode 字符进行扫描。

然而,Tesseract 本身是一个没有任何 GUI 的命令行工具。因此,gImageReader 可以帮助任何用户利用它从图像和文件中提取文本。

让我强调一下有关它的一些事情,同时提及我测试它时的体验。

gImageReader:Tesseract OCR 的跨平台前端

为了简化事情,gImageReader 可以方便地从 PDF 文件或包含任何类型文本的图像中提取文本。

无论您需要它进行拼写检查还是翻译,它都应该对特定用户组有用。

总结一下列表中的功能,您可以使用它执行以下操作:

  • 从磁盘、扫描设备、剪贴板和屏幕截图添加 PDF 文档和图像

  • 旋转图像的能力

  • 用于调整亮度、对比度和分辨率的常用图像控件

  • 直接通过应用程序扫描图像

  • 能够一次性处理多个图像或文件

  • 手动或自动识别区域定义

  • 识别纯文本或 hOCR 文档

  • 编辑器显示识别的文本

  • 可以对提取的文本进行拼写检查

  • 从 hOCR 文档转换/导出为 PDF 文档

  • 将提取的文本导出为 .txt 文件

  • 跨平台(Windows)

在 Linux 上安装 gImageReader

注意:您需要显式安装 Tesseract 语言包才能从软件管理器的图像/文件中进行检测。

您可以在某些 Linux 发行版(例如 Fedora 和 Debian)的默认存储库中找到 gImageReader。

对于 Ubuntu,您需要添加 PPA,然后安装。为此,您需要在终端中输入以下内容:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt update
sudo apt install gimagereader

您还可以从 openSUSE 的构建服务中找到它,AUR 将成为 Arch Linux 用户的地方。

存储库和包的所有链接都可以在其 GitHub 页面中找到。

gImageReader 体验

gImageReader 是一个非常有用的工具,可以在需要时从图像中提取文本。当您尝试使用 PDF 文件时,效果非常好。

对于从智能手机拍摄的照片中提取图像,检测结果很接近,但有点不准确。也许当您扫描某些内容时,可以更好地识别文件中的字符。

因此,您必须亲自尝试一下,看看它对您的用例有多有效。我在Linux Mint 20.1(基于Ubuntu 20.04)上尝试过。

我只是在设置中管理语言时遇到问题,但没有找到快速解决方案。如果您遇到该问题,您可能需要对其进行故障排除并详细了解如何修复它。

除此之外,它工作得很好。

请尝试一下,让我知道它对你有什么作用!如果您知道类似(甚至更好)的东西,请在下面的评论中告诉我。

©2015-2025 Norria support@norria.com