OCRmyPDF 逆天開(kāi)源!GitHub狂攬15萬(wàn)+星,模糊掃描PDF秒變高清可搜文檔!
什么是 OCRmyPDF ?
PDF
是存儲(chǔ)和交換掃描文檔的最佳格式。不幸的是,PDF
可能很難修改。OCRmyPDF
是一個(gè) Python
應(yīng)用程序和庫(kù),可以輕松地將圖像處理和 OCR
(可識(shí)別、可搜索的文本)應(yīng)用于現(xiàn)有 PDF
,通過(guò)向掃描的 PDF
文件添加 OCR
文本層,使你可以搜索或復(fù)制粘貼它們。
鏡像下載
在群暉上以 Docker 方式安裝。
在注冊(cè)表中搜索 ocrmypdf
,選擇第一個(gè) jbarlow83/ocrmypdf
,版本選擇 latest
。
本文寫(xiě)作時(shí), latest
版本對(duì)應(yīng)為 v15.4.2
;
你也可以使用命令行,用 SSH
客戶端登錄到群暉后,依次執(zhí)行下面的命令
docker pull jbarlow83/ocrmypdf:latest
如果拉不動(dòng),可以試試 docker
代理網(wǎng)站:https://dockerproxy.com/,但是會(huì)多幾個(gè)步驟
docker pull dockerproxy.com/jbarlow83/ocrmypdf:latest
docker tag dockerproxy.com/jbarlow83/ocrmypdf:latest jbarlow83/ocrmypdf:latest
docker rmi dockerproxy.com/jbarlow83/ocrmypdf:latest
下載完成后,可以在 映像
中找到
準(zhǔn)備工作
【說(shuō)明】:
- 與典型的
Docker
容器不同,OCRmyPDF Docker
容器是短暫的,它為一個(gè) OCR
作業(yè)運(yùn)行并終止,就像命令行程序一樣。因此,我們通常使用 --rm
參數(shù)在容器退出時(shí)將其刪除。 - 默認(rèn)情況下,
Docker
鏡像包括英語(yǔ)、德語(yǔ)、簡(jiǎn)體中文、法語(yǔ)、葡萄牙語(yǔ)和西班牙語(yǔ),所以中文用戶不需要添加語(yǔ)言包。
在 docker
文件夾中,創(chuàng)建一個(gè)新文件夾 ocrmypdf
mkdir -p /volume1/docker/ocrmypdf
cd /volume1/docker/ocrmypdf
準(zhǔn)備一個(gè)文檔用于測(cè)試,這是網(wǎng)頁(yè)上打印生成的 pdf
文件,直接搜索 sam
是沒(méi)有 沒(méi)有匹配項(xiàng)
將這個(gè)文檔放入 ocrmypdf
,命名為 input.pdf
測(cè)試驗(yàn)證
為了方便起見(jiàn),創(chuàng)建一個(gè) shell
別名來(lái)隱藏 Docker
命令。通過(guò)使用 alias
命令,為長(zhǎng)或復(fù)雜的命令創(chuàng)建簡(jiǎn)短且易記的別名,以便更快地執(zhí)行常用操作或減少輸入的工作量
alias docker_ocrmypdf='docker run --rm -i --user "$(id -u):$(id -g)" --workdir /data -v "$PWD:/data" jbarlow83/ocrmypdf:latest'
docker_ocrmypdf /data/input.pdf /data/output.pdf
其中:
-- rm
:表示在容器退出時(shí),會(huì)將其刪除;--user "$(id -u):$(id -g)"
:用于指定在容器內(nèi)運(yùn)行的用戶和組,確保容器內(nèi)的進(jìn)程以與宿主機(jī)相同的用戶權(quán)限運(yùn)行,以防止權(quán)限問(wèn)題;--workdir /data
:指定容器內(nèi)的工作目錄;-v "$PWD:/data"
:將 /volume1/docker/ocrmypdf
映射到了容器內(nèi)的 /data
;
運(yùn)行完成后,會(huì)在 ocrmypdf
中看到多出了一個(gè)文件 output.pdf
下載到本地后,用 pdf
閱讀器打開(kāi)后,繼續(xù)搜索 sam
顯示有 2
處匹配
第二處
OCRmyPDF
不僅提供了基本的 OCR
功能,還包括一些高級(jí)功能,如自動(dòng)旋轉(zhuǎn)、自動(dòng)裁剪、去除文本陰影、增強(qiáng)圖像質(zhì)量等。它使用了一些優(yōu)秀的開(kāi)源工具和庫(kù),如 Tesseract OCR
引擎、Ghostscript
和 ImageMagick
,以提供強(qiáng)大的 OCR
和 PDF
處理功能,當(dāng)然,OCRmyPDF
無(wú)法打開(kāi)使用數(shù)字證書(shū)加密的文檔。
參考文檔
ocrmypdf/OCRmyPDF: OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched
地址:https://github.com/ocrmypdf/OCRmyPDF
OCRmyPDF documentation
地址:https://ocrmypdf.readthedocs.io
jbarlow83/ocrmypdf - Docker Image | Docker Hub
地址:https://hub.docker.com/r/jbarlow83/ocrmypdf
該文章在 2025/2/5 17:14:28 編輯過(guò)