从扫描图像中读取文本文档

时间:2011-03-25 04:49:21

标签: programming-languages jpeg ocr

我们有什么办法可以用jpg jpeg或任何其他格式从扫描文档中获取文本?我使用ruby作为我的编程语言。但我想如果我能在其他编程语言的帮助下获得文本,那么整合就不会有什么问题了。

感谢。

3 个答案:

答案 0 :(得分:2)

是的,您可以使用OCR库。 https://stackoverflow.com/questions/1085/free-ocr-library还有其他详细信息。

简而言之,您可能希望考虑使用tessnet(http://www.pixel-technology.com/freeware/tessnet2/)。

答案 1 :(得分:1)

这项技术被称为光学字符识别(OCR)。

对于编程check out this question,建议使用tesseract-ocr

OCR for ruby? check out this question

如果只是几张图片,here's a site that supposedly does it for free

答案 2 :(得分:0)

OCR终端http://www.ocrterminal.com是我用过的至少十几个中最好的(最准确的)免费工具。它适用于格式化(表格)数据。