爬行时显示特殊字符

时间:2019-01-08 16:37:45

标签: web-crawler stormcrawler

使用Storm Crawler 1.13和Elastic Search 6.5.2。如何限制搜寻器不搜寻/索引特殊字符� � � � � ��� �� � •

1 个答案:

答案 0 :(得分:0)

执行此操作的一种简单方法是编写

这样的ParseFilter
        ParseData pd = parse.get(URL);
        String text = pd.getText();
        // remove chars
        pd.setText(text);

这将被JSoup或Tika解析的文档调用。 请查看存储库中的解析过滤器以获取示例。