Question

我正在编写一个快速（希望）C＃应用程序来爬行我本地硬盘上的一个软件包，需要打开树中的每个html文件并验证这些文件中的每个链接都是有效的。我可以想到从hrefs和目录/文件扫描的低级grep到打开Web浏览器并捕获404异常的一系列方法。我的问题更多的是效率问题，因为这必须发生在大量文件中。对于本地文件，我应该使用什么方法？

Answer 1

不要轻易说，这容易出错。不要打开网页浏览器，这很糟糕，而且很慢。

我只是用一些现有的库解析HTML，提取所有href，转换为文件路径并使用System.IO.File.Exists检查文件是否存在。

Answer 2

我的猜测是这个项目有点在你的控制之下。在这种情况下，您发现计划修复或修复某些错误。此外，如果您希望抓取文件并觉得可以为您带来一些好处，那么这就是全部或大多数是静态HTML。如果所有这些假设都是正确的话，冒着引起其他问题的人的愤怒的风险，他们说你不能用正则表达式“解析HTML”，我实际上建议使用正则表达式。恕我直言，你正在寻找href =“url”或src =“url”。这不应该特别容易出错。你有可能错过一些东西，但你不需要解析整个HTML DOM只是为了找到那两个相对简单的模式。

话虽如此，如果我这样做，我会遍历Regex.Matches，然后使用Path.Combine将相对路径与根文件夹合并，并使用File.Exists，如Sebastian建议。对于外部的绝对URL，我会使用HttpWebRequest。另外，我会排队所有请求并使响应异步。

Answer 3

使用HTMLAgilityPack：

HtmlDocument doc = new HtmlDocument(); 
doc.Load("file.htm"); 
foreach(HtmlNode link in doc.DocumentNode.SelectNodes("//a[@href]")) {
    if(System.IO.File.Exists(link.Attributes["href"].Value))
    {
       //your file exists
    }
}

上面代码的大部分内容来自their own example page。

您可能需要对href attr。

进行一些额外的工作

验证本地硬盘驱动器上的大型目录结构中的HTML链接

3 个答案: