如何从网站中提取某个文本块

时间:2010-08-12 07:24:22

标签: extract

我必须从网络中提取有用的信息

我可以使用c#

例如

标题:abc

我只得到“abc”

3 个答案:

答案 0 :(得分:1)

As,@ Oded♦推荐,Html Agility Pack会很有用。

这是html敏捷包的示例。

 HtmlDocument doc = new HtmlDocument();
 doc.Load("file.htm");
 foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"])
 {
    HtmlAttribute att = link["href"];
    att.Value = FixLink(att);
 }
 doc.Save("file.htm");

答案 1 :(得分:0)

如果您需要从网站提取文本,则需要使用HTML解析器,例如HTML Agility Pack

答案 2 :(得分:0)

使用DOM解析器,您可以提取所需的元素。如果你预先知道了块ID,或者你能够准备它,那么提取非常简单。