带文件插入的汉字OCR

时间:2014-07-25 08:38:39

标签: google-drive-api

我正在尝试将文件插入到Google云端硬盘中。插入的图像包含中文字符。在OCRing时,图像会像往常一样转换为Google Doc,但没有提取任何文本。

根据文档,您应该使用“ocrLanguage”,其值为ISO 639-1代码。但是没有提到支持哪种语言。

我尝试使用API​​拒绝的“zh”作为无效值。

我尝试使用旧版Google-Docs API文档中的“zh-Hans”。这样做 不会返回错误但不会发生OCR。

我尝试使用“”而不是OCR。

根据文档,这个参数只是一个提示,如果OCR引擎可以解决这个问题,它将被覆盖。

所以我的问题是:

  1. 有没有人成功地OCR包含中文字符的图像?
  2. 有没有人支持的语言列表?
  3. 注意:在浏览器中上传图像时,OCR语言下拉列表包含中文(简体和繁体),此方法成功提取文本。

1 个答案:

答案 0 :(得分:0)

  1. 我有一个中文OCR的脚本,大约写于2年前。它工作得很好,像这样的代码(使用PHP库):

    $ createdFile = $ service-> files-> insert($ file,array(     'data'=> $的数据,     'mimeType'=> '图像/ JPEG',     'ocr'=>真正,     'ocrLanguage'=> 'ZH-汉斯',     'convert'=>真正, ));

  2. 现在它不适用于“zh-Hans”,但通常是为“en”语言工作。 等待Google API响应大约需要10-15秒,因此Google试图完成OCR,但Google API似乎存在问题。

    1. 支持中文的语言是zh-Hans,zh-Hant as whitten here https://developers.google.com/google-apps/documents-list/(但这是旧文档)。 Web界面OCR html select中的语言是相同的:

      中文(简体) 中文(繁体)

    2. 您可以按照此处的建议https://developers.google.com/drive/support

      为此问题添加“google-drive-sdk”标记吗?