PDFBox输出问号而不是一些日文字符

时间:2015-03-23 05:49:49

标签: java pdf encoding pdfbox

几乎所有用日语编写的pdf文件,都得到了Apache Tika(1.7)和Apache PDFBox(1.8.8)的正确文本。 现在我遇到了一个pdf文件的问题,由于商业原因,我无法在此处上传。

问题

段落中的所有日文字符变为"?",但在其他段落中,日文字符是正确的。 在任何情况下,ASCII字符都是正确的。

PDF文件

PDF文档中的所有日文字符在我的Windows7桌面上的Adobe Acrobat中似乎都是正确的。 从Adobe Acrobat属性对话框中,PDF文档有几种日文字体信息。我不知道是谁/如何制作这个文件。

  • MS-Mincho类型:TrueType(CID)< - 几
  • HeiseiMin-W3类型:类型1(CID)编码:UniJIS-UCS2-HW-H实际字体:KozMinPr6N-常规实际字体类型:类型1(CID)
  • MSMincho类型:TrueType(CID)编码:UniJIS-UCS2-H实际字体:MS明朝实际字体类型:TrueType

PDF转换器:Acrobat Distiller 7.0(Windows) PDF版本:1.6(Acrobat 7.x)

书院

"?" s由PDFStreamEngine(第492行)制成,由PDType0Font中的查找失败引起(第202行)。 在这种情况下,cmap(PDFont类)的cmapName是" UniJIS-UCS2-HW-H"。 仔细查看CMap实现,isInCodeSpaceRanges方法在应该为true时返回true。 最后,因为char2CIDMappings没有条目而range.map失败在CMap中(第174行),lookupCID失败。 参数char []的值如[48,-120,48,-118,...]似乎是Unicode中的正确代码点...

有没有解决方法?感谢。

0 个答案:

没有答案