web-scraping - 仅抓取文章/内容

我希望抓取工具能够识别（例如新闻网站）上的哪些页面是实际内容（即文章），而不是关于，联系人，类别列表等。

到目前为止，我没有找到任何优雅的方法，因为内容的标准似乎因网站而异（没有常见的标签/布局/协议等）。任何人都可以将我引导到图书馆或方法，以确定某个网站是否是一段内容？在抓取候选页面后，完全可以接受这种区别。

除非已存在任何内容，否则我也非常感谢该领域现有/正在进行的研究的任何起点。