Question

我一直在尝试让DOMParser刮擦URL的innerText（开发用于搜索文章的Web刮擦器），但似乎无法正常工作。使用Chrome，获取选项卡的innerText非常容易，但是我似乎找不到任何与获取URL的innerText有关的文档。我也尝试过进行正则表达式并将HTML放入临时文档元素中，但这也不起作用。

这是DOMParser的代码，其中searchLink [x]是文章的URL，URLResult是我想在解析后存储文本的位置。

const Http = new XMLHttpRequest();
Http.open("GET", searchLink[x]);
Http.send();
Http.onreadystatechange=(e)=>{

urlResult = Http.responseText;
var parser = new DOMParser()
urlResult = parser.parseFromString(urlResult, 'text/html').body.innerText
console.log(urlResult)

}

我还将使用上面的代码（在pastebin上，因为我不想淹没页面）提供返回字符串的示例

https://pastebin.com/VXNXwTSC

编辑：从Http GET返回HTML https://pastebin.com/GzYD3CBk

编辑：Boilerpipe有一个很棒的API，强烈建议我用来获取Article文本。感谢您的帮助

使用DOMParser（）获取HTML页面的innerText吗？

0 个答案: