我需要哪些工具才能找到术语与文本的交集

时间:2014-05-18 15:18:49

标签: java scala full-text-search

有一些文本来源,比如维基百科的文章,我想找到一些特定集合的所有子串。例如输入:

......我想得到:"对冲基金","基金","英国货币将下降"结果,或者"是" ,"是","是","否"。

我显然可以编写一些更少的智能算法来实现这一目标,但我宁愿有一些已经实现的库来获得我想要的东西(最好是在Java / Scala环境中)。有什么我可以用的吗?

1 个答案:

答案 0 :(得分:-1)

仅使用Java库,您可以执行以下操作:

  List<String> listOfWords = Arrays.asList("hedge funds", "fund", "british currency would drop");

  for (String searchWrd : listOfWords) {
      URL url = new URL("http://en.wikipedia.org/wiki/Quantum_Group_of_Funds");
      Scanner scan = new Scanner(url.openStream());
      scan.useDelimiter("\\s+");
      while(scan.hasNext())
          if(searchWrd.equals(scan.next())) {
              containsString=true;
              break;
          }
      if(containsString)
          System.out.println("Contains: " + searchWrd);
      else 
          System.out.println("Does't contain: " + searchWrd);
  }