确定 PDF 中的文本方向

时间:2021-01-06 12:45:24

标签: javascript node.js pdfjs

有没有一种方法可以使用 JS 或任何库检测页面中的文本是横向还是纵向?我不能依赖宽度 > 高度,因为有些页面也会旋转。 Rotated Page with Portrait OrientationRotated Page with Landscape Orientation

我不能依靠比较宽度和高度,或检查页面是否旋转,因为这两个页面都旋转了 90 度,但我不知道如何检测文本的方向。

我还使用 Node.js 和 pdfjs 对 PDF 进行了一些预处理。因此,如果有任何 API/库可以帮助我获取所需的信息,我将不胜感激。

1 个答案:

答案 0 :(得分:1)

您可以使用主要用于 OCR 转换的 tesseract 来做到这一点。我在 PHP 中使用它,但你也可以在 JS 中使用它: https://ourcodeworld.com/articles/read/580/how-to-convert-images-to-text-with-pure-javascript-using-tesseract-js

Tesseract 可以检测方向。以下是有关使用 Python 的一些信息: Is it possible to check orientation of an image before passing it through pytesseract ocr module

您需要做的就是使用上面第一个链接的工具将其调整为 Javascript。