LOGO OA教程 ERP教程 模切知識(shí)交流 PMS教程 CRM教程 開(kāi)發(fā)文檔 其他文檔  
 
網(wǎng)站管理員

OCRmyPDF:逆天免費(fèi)開(kāi)源!模糊掃描PDF秒變高清可搜文檔!

admin
2025年2月3日 1:4 本文熱度 13

OCRmyPDF 逆天開(kāi)源!GitHub狂攬15萬(wàn)+星,模糊掃描PDF秒變高清可搜文檔!


 什么是 OCRmyPDF ?

PDF 是存儲(chǔ)和交換掃描文檔的最佳格式。不幸的是,PDF 可能很難修改。OCRmyPDF 是一個(gè) Python 應(yīng)用程序和庫(kù),可以輕松地將圖像處理和 OCR(可識(shí)別、可搜索的文本)應(yīng)用于現(xiàn)有 PDF,通過(guò)向掃描的 PDF 文件添加 OCR 文本層,使你可以搜索或復(fù)制粘貼它們。

鏡像下載

在群暉上以 Docker 方式安裝。

在注冊(cè)表中搜索 ocrmypdf ,選擇第一個(gè) jbarlow83/ocrmypdf,版本選擇 latest。

本文寫(xiě)作時(shí), latest 版本對(duì)應(yīng)為 v15.4.2;

你也可以使用命令行,用 SSH 客戶端登錄到群暉后,依次執(zhí)行下面的命令

# 拉取鏡像
docker pull jbarlow83/ocrmypdf:latest

如果拉不動(dòng),可以試試 docker 代理網(wǎng)站:https://dockerproxy.com/,但是會(huì)多幾個(gè)步驟

# 如果拉不動(dòng)的話加個(gè)代理
docker pull dockerproxy.com/jbarlow83/ocrmypdf:latest
# 重命名鏡像(如果是通過(guò)代理下載的)
docker tag dockerproxy.com/jbarlow83/ocrmypdf:latest jbarlow83/ocrmypdf:latest
# 刪除代理鏡像(如果是通過(guò)代理下載的)
docker rmi dockerproxy.com/jbarlow83/ocrmypdf:latest

下載完成后,可以在 映像 中找到

準(zhǔn)備工作

【說(shuō)明】:

  1. 與典型的 Docker 容器不同,OCRmyPDF Docker 容器是短暫的,它為一個(gè) OCR 作業(yè)運(yùn)行并終止,就像命令行程序一樣。因此,我們通常使用 --rm 參數(shù)在容器退出時(shí)將其刪除。
  2. 默認(rèn)情況下,Docker 鏡像包括英語(yǔ)、德語(yǔ)、簡(jiǎn)體中文、法語(yǔ)、葡萄牙語(yǔ)和西班牙語(yǔ),所以中文用戶不需要添加語(yǔ)言包。

在 docker 文件夾中,創(chuàng)建一個(gè)新文件夾 ocrmypdf

# 新建文件夾 ocrmypdf 
mkdir -p /volume1/docker/ocrmypdf
# 進(jìn)入 ocrmypdf 目錄
cd /volume1/docker/ocrmypdf

準(zhǔn)備一個(gè)文檔用于測(cè)試,這是網(wǎng)頁(yè)上打印生成的 pdf 文件,直接搜索 sam 是沒(méi)有 沒(méi)有匹配項(xiàng)

將這個(gè)文檔放入 ocrmypdf,命名為 input.pdf

測(cè)試驗(yàn)證

為了方便起見(jiàn),創(chuàng)建一個(gè) shell 別名來(lái)隱藏 Docker 命令。通過(guò)使用 alias 命令,為長(zhǎng)或復(fù)雜的命令創(chuàng)建簡(jiǎn)短且易記的別名,以便更快地執(zhí)行常用操作或減少輸入的工作量

# 創(chuàng)建別名
alias docker_ocrmypdf='docker run --rm  -i --user "$(id -u):$(id -g)" --workdir /data -v "$PWD:/data" jbarlow83/ocrmypdf:latest'
# 運(yùn)行 OCR
docker_ocrmypdf /data/input.pdf /data/output.pdf

其中:

  • -- rm:表示在容器退出時(shí),會(huì)將其刪除;
  • --user "$(id -u):$(id -g)":用于指定在容器內(nèi)運(yùn)行的用戶和組,確保容器內(nèi)的進(jìn)程以與宿主機(jī)相同的用戶權(quán)限運(yùn)行,以防止權(quán)限問(wèn)題;
  • --workdir /data:指定容器內(nèi)的工作目錄;
  • -v "$PWD:/data":將 /volume1/docker/ocrmypdf 映射到了容器內(nèi)的 /data ;

運(yùn)行完成后,會(huì)在 ocrmypdf 中看到多出了一個(gè)文件 output.pdf

下載到本地后,用 pdf 閱讀器打開(kāi)后,繼續(xù)搜索 sam 顯示有 2 處匹配

第二處

OCRmyPDF 不僅提供了基本的 OCR 功能,還包括一些高級(jí)功能,如自動(dòng)旋轉(zhuǎn)、自動(dòng)裁剪、去除文本陰影、增強(qiáng)圖像質(zhì)量等。它使用了一些優(yōu)秀的開(kāi)源工具和庫(kù),如 Tesseract OCR 引擎、Ghostscript 和 ImageMagick,以提供強(qiáng)大的 OCR和 PDF處理功能,當(dāng)然,OCRmyPDF 無(wú)法打開(kāi)使用數(shù)字證書(shū)加密的文檔。

參考文檔

ocrmypdf/OCRmyPDF: OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched
地址:https://github.com/ocrmypdf/OCRmyPDF

OCRmyPDF documentation
地址:https://ocrmypdf.readthedocs.io

jbarlow83/ocrmypdf - Docker Image | Docker Hub
地址:https://hub.docker.com/r/jbarlow83/ocrmypdf


該文章在 2025/2/5 17:14:28 編輯過(guò)
關(guān)鍵字查詢
相關(guān)文章
正在查詢...
點(diǎn)晴ERP是一款針對(duì)中小制造業(yè)的專(zhuān)業(yè)生產(chǎn)管理軟件系統(tǒng),系統(tǒng)成熟度和易用性得到了國(guó)內(nèi)大量中小企業(yè)的青睞。
點(diǎn)晴PMS碼頭管理系統(tǒng)主要針對(duì)港口碼頭集裝箱與散貨日常運(yùn)作、調(diào)度、堆場(chǎng)、車(chē)隊(duì)、財(cái)務(wù)費(fèi)用、相關(guān)報(bào)表等業(yè)務(wù)管理,結(jié)合碼頭的業(yè)務(wù)特點(diǎn),圍繞調(diào)度、堆場(chǎng)作業(yè)而開(kāi)發(fā)的。集技術(shù)的先進(jìn)性、管理的有效性于一體,是物流碼頭及其他港口類(lèi)企業(yè)的高效ERP管理信息系統(tǒng)。
點(diǎn)晴WMS倉(cāng)儲(chǔ)管理系統(tǒng)提供了貨物產(chǎn)品管理,銷(xiāo)售管理,采購(gòu)管理,倉(cāng)儲(chǔ)管理,倉(cāng)庫(kù)管理,保質(zhì)期管理,貨位管理,庫(kù)位管理,生產(chǎn)管理,WMS管理系統(tǒng),標(biāo)簽打印,條形碼,二維碼管理,批號(hào)管理軟件。
點(diǎn)晴免費(fèi)OA是一款軟件和通用服務(wù)都免費(fèi),不限功能、不限時(shí)間、不限用戶的免費(fèi)OA協(xié)同辦公管理系統(tǒng)。
Copyright 2010-2025 ClickSun All Rights Reserved

黄频国产免费高清视频,久久不卡精品中文字幕一区,激情五月天AV电影在线观看,欧美国产韩国日本一区二区
日本一道本高清一区二区 | 亚洲日韩制服丝袜AV在线 | 亚洲欧美蜜芽tv在线一区 | 一级亚洲欧洲国产网站 | 亚洲国产小电影在线观看高清 | 丝袜美腿国产综合久久 |