按特定模式获取网站的部分或全部(子)页面URL

时间:2015-05-16 15:27:50

标签: regex url web-scraping query-string glob

假设我们有一个名为http://www.example.com的网站。我想得到一个URI页面列表(只是URL本身,而不是这些URL中的URL) - 要么全部(包括所有子域和所有子页面),要么只是其中一些提供它们遵循特定的globbing和/或正则表达式。

因此,例如,我正在寻找能够获得遵循http://*.example.com/*等模式的所有URL(只是URL地址本身)的内容。我知道Linux中的通配(例如通过shell)(大部分或完全?)仅限于本地文件和目录(如果我错了,请纠正我)。

我怎样才能做到这一点?

我想这里讨论了相关的东西(虽然不完全相同?):How to find all links / pages on a website

P.S。所有网址都是仅由静态网页构成的网站的一部分。我不确定是否可以对由动态网页构成的网站做同样的事情...另外,我不确定是否有任何带有查询字符串的网址(例如http://www.example.com/?=abc&xyz)可以是以这种方式捕获。

0 个答案:

没有答案
相关问题