regex - 按特定模式获取网站的部分或全部（子）页面URL

假设我们有一个名为http://www.example.com的网站。我想得到一个URI页面列表（只是URL本身，而不是这些URL中的URL） - 要么全部（包括所有子域和所有子页面），要么只是其中一些提供它们遵循特定的globbing和/或正则表达式。

因此，例如，我正在寻找能够获得遵循http://*.example.com/*等模式的所有URL（只是URL地址本身）的内容。我知道Linux中的通配（例如通过shell）（大部分或完全？）仅限于本地文件和目录（如果我错了，请纠正我）。

我怎样才能做到这一点？

我想这里讨论了相关的东西（虽然不完全相同？）：How to find all links / pages on a website。

P.S。所有网址都是仅由静态网页构成的网站的一部分。我不确定是否可以对由动态网页构成的网站做同样的事情...另外，我不确定是否有任何带有查询字符串的网址（例如http://www.example.com/?=abc&xyz）可以是以这种方式捕获。