Java网站元数据

时间:2011-03-29 05:45:16

标签: java metadata

使用Java从网站中提取元数据的最佳方法是什么?

我打算请求整个页面,然后找到元数据在该页面中的位置 - 这看起来很麻烦,有没有更好的方法来实现这一目标?

1 个答案:

答案 0 :(得分:1)

虽然很麻烦,但据我所知,它实际上是唯一的方法。

你可以做的只是读取前几个字节,比如2000.这可能会节省一些时间,但不能保证所有元标记都会被读取。

另一种方法是读取块,扫描字符串</head>,如果没有,继续阅读。但是,对于包含大<head>标记的网页,这可能需要更长的时间。

原始HTML不应该太长,无论如何都不能处理。

相关问题