从字符串中确定MimeType的最佳方法?

时间:2010-08-06 03:43:56

标签: java html mime-types

我有一个抓取工具,可以下载页面并尝试解析HTML。我遇到的一个问题是如何正确确定HTML文件的mimetype。

现在我正在使用

is = new ByteArrayInputStream( htmlResult.getBytes( "UTF-8" ) );
mimeType = URLConnection.guessContentTypeFromStream(is);

但它错过了这样的网站:http://www.artdaily.org/index.asp?int_sec%3D11%26int_new%3D39415,因为源标记中的doc标记和HTML标记之间有额外的空间。

有没有人知道确定字符串是否为HTML的好方法?搜索或其他标记不一定有效,因为文本嵌入在我可能遇到的二进制文件中。

感谢

1 个答案:

答案 0 :(得分:1)

您是否可以控制抓取工具使用的http连接?那么如何检查HTTP响应头“Content-type”。这是确定内容类型的一种方法。我刚刚对artdaily.com进行了快速测试,看看是否发送了内容类型标题。并且有一个值为text / html