Lucidworks Hadoop Solr-将文本拆分成段落

时间:2016-10-14 18:20:06

标签: hadoop solr lucidworks bigdata

我正在使用这个项目:https://github.com/lucidworks/hadoop-solr和 我试图将一些文本拆分成段落并在其中搜索单词。但是作为回归,我采取了这个词所在的界限。是否有可能做出类似的事情?

我正在使用它:

hadoop jar solr-hadoop-job-2.2.5.jar com.lucidworks.hadoop.ingest.IngestJob 
-Dlww.commit.on.close=true 
-Dcom.lucidworks.hadoop.ingest.RegexIngestMapper.regex="(?sm)^.*?\.\s*$"  
-Dcom.lucidworks.hadoop.ingest.RegexIngestMapper.groups_to_fields=0=match1_ss
-cls com.lucidworks.hadoop.ingest.RegexIngestMapper -c test2 -i /usr/local/hadoop/input
-s http://127.0.1.1:8983/solr -of com.lucidworks.hadoop.io.LWMapRedOutputFormat 

0 个答案:

没有答案