如何使用System.Xml.XmlDocument转换解析html

时间:2018-02-27 18:29:12

标签: c# xml xml-parsing xmldocument

我正在尝试用这个C#代码解析XML;

    htmltext = File.ReadAllText("index.html");
    var soup = new System.Xml.XmlDocument();
    soup.LoadXml(htmltext);
    var items = soup.SelectNodes("//[@class='repo-list-item']");

运行代码时出现此错误:

Unhandled Exception:
System.Xml.XmlException: Expected =, but found > [62]  Line 53, position 91.
  at Mono.Xml2.XmlTextReader.ExpectAfterWhitespace (Char c) [0x00000] in <filename unknown>:0 

所以我尝试添加Bash("tidy", "-asxhtml -m index.html");将其转换为xhtml,但我得到了这个:

第88行第52栏 - 警告:更换无效字符代码128第88行第53栏 - 警告:更换无效字符代码153第121行第9列 - 错误:无法识别!第121行第9栏 - 警告:丢弃意外第125行第9列 - 错误:无法识别!第125行第9列 - 警告:丢弃意外行125列126 - 错误:无法识别!第125行第126栏 - 警告:丢弃意外第125行第728行 - 警告:丢弃意外第131行第9列 - 错误:无法识别!第131栏第9栏 - 警告:丢弃意外的第156行第9列 - 警告:丢弃意外的第160行第9列 - 警告:在第162行第1列之前丢失 - 警告:插入隐含行166第9列 - 警告:丢弃意外行170第1列 - 警告:丢弃意外第188行第7行 - 错误:无法识别!第188行第7栏 - 警告:丢弃意外的第188行第119栏 - 错误:无法识别!警告117次,发现52次错误!并非所有警告/错误都显示出来。 在使用HTML Tidy生成整理版本之前,此文档存在必须修复的错误。

...

目前无法安装第三方库。有谁知道我怎么解决这个问题?

0 个答案:

没有答案