使用Java从网站中提取元数据的最佳方法是什么?
我打算请求整个页面,然后找到元数据在该页面中的位置 - 这看起来很麻烦,有没有更好的方法来实现这一目标?
答案 0 :(得分:1)
虽然很麻烦,但据我所知,它实际上是唯一的方法。
你可以做的只是读取前几个字节,比如2000.这可能会节省一些时间,但不能保证所有元标记都会被读取。
另一种方法是读取块,扫描字符串</head>
,如果没有,继续阅读。但是,对于包含大<head>
标记的网页,这可能需要更长的时间。
原始HTML不应该太长,无论如何都不能处理。