有没有好的开源或免费提供的中文分词算法?

时间:2011-04-29 15:59:10

标签: algorithm open-source cjk text-segmentation

正如问题所述,我正在为中文寻找一个免费和/或开源的文本分割算法,我确实理解这是一项非常困难的任务,因为有许多含糊不清的问题。我知道有谷歌的API,但它确实是一个黑盒子,即没有太多关于它正在做什么的信息正在通过。

4 个答案:

答案 0 :(得分:30)

关键字text-segmentation for Chinese应为中文中文分词

良好且活跃的开源文本分割算法

  1. 盘古分词(Pan Gu Segment) C#Snapshot
  2. ik-analyzer Java
  3. ICTCLAS C/C++, Java, C#Demo
  4. NlpBamboo C, PHP, PostgreSQL
  5. HTTPCWS :基于ICTCLASDemo
  6. mmseg4j Java
  7. fudannlp JavaDemo
  8. smallseg Python, JavaDemo
  9. nseg :NodeJS
  10. mini-segmenter python
  11. 其他

    1. Google代码http://code.google.com/query/#q=中文分词
    2. OSChina (Open Source China)
    3. <强>示例

      1. Google Chrome (Chromium) srccc_cedict.txt (73,145 Chinese words/pharases)

        • 谷歌浏览器text fieldtextarea中有中文句子,请按 Ctrl + Ctrl +

        • Double click

        • 中文分词指的是将一个汉字序列切分成一个一个单独的词

答案 1 :(得分:8)

使用CRF算法的斯坦福段。

它属于GPL

链接页面为:http://nlp.stanford.edu/software/segmenter.shtml

答案 2 :(得分:1)

ICU详细介绍了通用文字细分 - http://userguide.icu-project.org/boundaryanalysis

答案 3 :(得分:0)

Cursory谷歌搜索“文本分割中文开源”揭示了这个图书馆,可能是也可能不是你想要的......:

http://sourceforge.net/projects/ktdictseg/

结果暗示了几个替代场所也在寻找一个开源库:

  • 搜索可能适用于中文的开源搜索实现。
  • 寻找可能与中文有关的开源抄袭检测实施。