无法从pdf复制精确的印地文内容

时间:2015-06-10 12:19:54

标签: pdf hindi

我无法从pdf文件中复制印地文内容。 当我尝试复制/粘贴该内容时,它会更改为不同的印地文字符。

实施例 -

Original-निर्वाचक

粘贴后 - ननरररचक

它显示如下。

任何人都可以帮助我获得确切的印地语字符。

1 个答案:

答案 0 :(得分:5)

此问题类似于this answer中讨论的问题,sample document there的外观也提醒document here

简而言之

您的文档本身提供的信息包括:头条中的字形“निर्वाचक”代表文字“ननरररचक”。您应该向文档的来源询问文档版本,其中字体信息不会产生误导。如果那是不可能的,你应该去OCR。

详细

第一页的第一行是由页面内容流中的以下操作生成的:

/9 239 Tf
( !"#$%&) Tj 

第一行选择大小为 239 的名为 9 的字体(页面开头的操作将所有内容缩小)。第二行导致打印字形。括号中使用该字体的自定义编码引用这些字形。

PDF第一页上的字体 9 包含 ToUnicode 地图。这张地图特别是地图

<20> <20> <0928>
<21> <21> <0928>
<22> <22> <0930>
<23> <23> <0930>
<24> <24> <0930> 

即。代码0x20('')和0x21('!')都映射到Unicode代码点0x0928('न')和代码0x22('“'),0x23('#')和0x24('$' )全部到Unicode代码点0x0930('र')。

因此,( !"#$%&)的内容,显示为“निर्वाचक”,完全正确(根据文件中的信息)被提取/复制和粘贴为“ननरररचक”。