html - 针对具有不同结构的多个网站进行网页抓取

取决于。

选项1：如果“多个网站”意味着少数，可能多达十个，您可以尝试为每个网站构建一个单独的抓取工具。

优势：您可以获得准确的结果并获得所有结果。

缺点：每当网站发生变化时，刮刀就会中断并需要调整，当有100多个网站或更多时，这将是太多工作。

选项2：如果“多个网站”意味着真的很多网站，那么为每个网站构建一个刮刀可能太贵了。在这种情况下，我能想到的唯一其他选项是构建一个通用爬虫，它可以抓取所有站点，然后在结果上运行NLP算法，以提取所需的数据。

我在最近的一个类似的问题中概述了这种基于NLP的处理流程是如何形成的：How to crawl thousands of pages using scrapy?

优势：一旦运行并进行微调，无论是否有100个或1000个站点需要处理，并且在站点发生变化时它非常强大。

缺点：启动和运行比编写刮刀更困难，你永远不会获得100％的结果，也不会100％准确。