我想构建一个抓取一些网站站点地图的网络漫画器。我曾经多次遇到过这种格式https://developer.mozilla.org/sitemap.xml。我想知道这是标准还是有标准。
如果没有一个什么是抓取站点地图的最佳方式?正则表达式,还是某个库?
答案 0 :(得分:2)
我认为您应该使用DOM API。并在那里解释了网站地图格式http://www.sitemaps.org/protocol.html
答案 1 :(得分:1)
如果您使用Java,那么Java Sitemap Parser可能有所帮助。讨论了使用PHP解析站点地图here。