通过谷歌PDF到HTML?

时间:2013-05-01 13:48:00

标签: php html pdf

我一直在努力将IIHF PDF(例如:http://stats.iihf.com/Hydra/349/IHM349131_74_3_0.pdf)转换为可解析的形式。

现在我终于做到了,因为Google的缓存存储了一个HTML版本(http://webcache.googleusercontent.com/search?q=cache:http://stats.iihf.com/Hydra/349/IHM349131_74_3_0.pdf),并且可以轻松解析。

唯一的问题是,Google不会缓存他们拥有的所有PDF,即使他们缓存了文件,也可能需要数天时间才能显示。

有没有办法通过任何API甚至手动获取这些HTML版本?

编辑:这些PDF以某种方式损坏了字符映射,因此普通的PDF到HTML转换器无法转换它们。忘了说。

0 个答案:

没有答案
相关问题