如何检查网页是否包含代码示例或纯文本?

时间:2016-11-21 11:26:33

标签: python html web-scraping

例如 - This_WebPage包含以下代码示例:enter image description here

如何检查网页中是否存在此类代码示例?

3 个答案:

答案 0 :(得分:1)

虽然我也会使用代码/前/源HTML标记,但您也可以分析内容。例如,你可以得到一个巨大的文本语料库,你知道它只是纯文本(英语维基百科,但预处理过滤代码标签)以及庞大的代码库(例如C语言的Linux内核 - 我不知道是什么你需要)。有了它,您可以在单词级别上构建一个原生贝叶斯分类器。

答案 1 :(得分:1)

你可以使用html.parser来解析html和关心,标签等。很久以前我需要做同样的事情并使用this片段作为参考来构建我的解析器以及文档从SO转储中提取代码。

机器学习分类是一种方法,另一种方法是,特别是在你正在挖掘一种或两种特定语言的情况下,抽象语法树方式。你可以通过AST extractor得到你的解析结果(这个是我用过的随机数,还有更多)并查看它是否产生任何有效的东西(即它是否像编译代码那样远程)。

答案 2 :(得分:0)

您可以检查是否存在<pre>元素。这用于预渲染内容,通常用作代码示例的容器(因此它不会在浏览器中运行/呈现)

相关问题