训练没有句子边界的CRF

时间:2017-07-17 20:38:13

标签: machine-learning crf crfsuite python-crfsuite

我需要在HTML文档中标记部分文本。但是,它主要由日期,公司名称,地址等形式的文本组成。我计划使用CRF(sklearn-crfsuite)

我的问题是很难将数据集分成句子。我们能否训练一个没有句子边界的CRF模型将所有内容视为一个单一的序列? CRFSuite或sklearn-crfsuite中的教程没有谈到这一点。

如果没有句子分割就无法完成,有关如何将这些文本划分为句子的任何提示吗?

数据是这样的:(我不能分享实际数据) enter image description here

1 个答案:

答案 0 :(得分:0)

是的,您可以在不将输入序列划分为句子的情况下进行训练 - 只需对所有内容使用大序列。例如,https://github.com/scrapinghub/webstruct为HTML页面执行此操作。

句子中的拆分序列提供了额外的信息(硬边界),但CRF可以在没有它的情况下工作。另见:https://stats.stackexchange.com/questions/197291/sequence-length-when-training-a-conditional-random-field-crf

相关问题