运行CRFSuite示例

时间:2011-12-03 19:33:46

标签: python machine-learning nlp crfsuite

我正在尝试使用CRFSuite,但我无法弄清楚如何使用示例/ ner.py和pos.py

准确地说,我如何输入表格:

# Ner.py
fields = 'y w pos chk'

# Pos.py
fields = 'w num cap sym p1 p2 p3 p4 s1 s2 s3 s4 y'

“y w pos”我可以从CoNNL模型获得,例如,但是“chk”部分和pos.py中的所有那些字段我都没有真正得到。

另外,有没有办法用CRFSuite处理原始文本(没有所有这些标签),因为我有一个训练有素的模型?

3 个答案:

答案 0 :(得分:2)

@michele是对的。此任务需要另一个数据集。我相信数据集在这里:http://www.cnts.ua.ac.be/conll2003/ner/

答案 1 :(得分:1)

您不能将ner.pypos.py与本教程作者提供的数据一起使用。您需要一个合适的CoNLL-2000数据集。 :)

举个例子,你可以找到here

我希望我已正确回答了你的问题。

答案 2 :(得分:0)

事实证明,稍微修改pos.py文件以执行它应该执行的操作更简单。现在pos.py的输入格式为'w y',而功能'num cap sym p1 p2 p3 p4 s1 s2 s3 s4'全部由脚本本身生成。这应解决pos.py问题。这是要点:

https://gist.github.com/fnl/21116fa57527946c5dbe

至于ner.py脚本,正如@Legend已经回答的那样,可以找到相关的输入数据格式,例如:

http://www.cnts.ua.ac.be/conll2003/ner/