使用链接和图像提取新闻文章内容

时间:2018-06-16 16:48:04

标签: python web-scraping nlp python-newspaper

我需要用Python从网上报纸上抓文章。

我已经为范围测试了很多Python库,它们似乎都运行得很好,只有一个例外:它们不会跟踪文本中的链接和图像。如果保存这些资源(与Newspaper3k一样),它们存储的是一个单独的变量,并且无法理解链接和图像在文本中的确切位置。

更好的解决方案是使用库将HTML转换为markdown(专门针对新闻),因为这也会保持粗体斜体< / em> text。

0 个答案:

没有答案