用于网络抓取的最佳技术

时间:2017-09-15 08:43:21

标签: c# xslt xpath

编辑2ND编辑:我想建议的图书馆必须是世界上最有效和最好的图书馆,没有改进的余地,因为没有人甚至试图回答有关技术的问题,只是投票,好像我还没有这是一个图书馆。

在他们的投票规则中非常清楚:

  

而不是投票:   如果帖子是垃圾邮件或令人反感,请举报。   如果问题是重复或偏离主题,请将其标记为主持人注意。   如果出现问题,请发表评论或编辑帖子进行更正。

编辑:不知道为什么要投票,但我得到了我想要的答案之一。

创建网络抓取工具的最佳技术,语言等等(在查找HTML内部的实际URI / URL方面)?

我考虑并尝试过的事情: - C#Substring方法(字符串操作) - 正则表达式 - Xslt转换/ XPath

这有什么标准吗? 是否已有此库?

还希望能够包含IP地址

1 个答案:

答案 0 :(得分:2)

Google c#webcrawler。找到执行此操作的项目:https://github.com/sjdirect/abot

查找描述设计问题并提供实施的文章:https://www.codeproject.com/Articles/1087859/Web-crawling-with-Csharp-part-one

从那里开始应该很好