spaCy句子分段在引号

时间:2017-06-30 18:51:05

标签: python nlp spacy

我正在使用spaCy解析一些新闻数据,并注意到有关引用的句子分段的一致失败。还有其他人解决了这个问题吗?

这是一个可重复的例子 - 下面输出中的注释句子4。 spaCy在报价开头没有拆分,这与我正在使用的其他新闻文章一致。

非常感谢。

示例:

原始数据:

  

你'你' \ n伦敦11月4日英国金融危机后收入减少和食品价格上涨对英国水果和蔬菜的削减以及转向脂肪,含糖,加工后受到影响周一进行的一项学术研究表明,英国的食品价格在2005年至2012年期间比大多数其他发达经济体的价格上涨幅度更大,而工资增长率一直很低,失业率也在上升。净效应一直是英国人花费8.5%与在经济衰退之前购买的食品相比,实际购买的食品实际上更少 - 养老金领取者和有小孩的家庭的趋势更为明显。在英国保守党领导的政府时期,研究可能具有政治敏感性。受到反对党工党的压力,生活水平下降,食品银行的需求急剧上升,向最贫穷的英国人提供免费食品。人们通过购买较少的食物(以卡路里的数量来衡量)来节约,而且还考虑其质量,选择营养较少且饱和脂肪和糖含量较高的产品。"在此期间,各种营养质量指标均有所下降养老金领取者家庭和有小孩的家庭减少了,#34;经济研究机构财政研究所说。这项研究显示,有孩子的家庭很容易转向更多的含糖食物,而养老金领取者则喜欢高饱和脂肪的食物。这两个群体的收入往往较低。尽管经济在2008 - 09年经济衰退期间创纪录的经济增长受到最大打击后开始出现增长迹象,但家庭的经济增长仍然显示出增长的迹象。可支配收入不超过十年前。然而,IFS表示,低质量的饮食并不是减少钱的必然结果,而且有些家庭能够像以前一样健康饮食,同时花费更少。研究人员补充说,需要更多的研究来了解为什么其他家庭的情况并非如此。该研究调查了超过15,000户家庭的数据。市场研究公司Kantar Worldpanel在2005年至2012年间收集的购物习惯。这些数字不包括在家购买或提供的餐饮,例如在餐馆或学校,在英格兰为较贫困的学生提供免费午餐。研究报告同时发布来自IFS的一项长期研究显示,尽管肥胖率较高可能是由于较少的体力活动,但英国现在消耗的卡路里比1980年减少了15-30%。这与美国相比,卡路里消费量增加了以及肥胖。 IFS表示正在进一步研究英国人的趋势。这期间的身体活动。',

要拆分的代码:

from __future__ import unicode_literals
import spacy
nlp = spacy.load('en')
doc1 = nlp(article_to_json['body'].decode('utf-8'), parse=True)

for number, sent in enumerate(doc1.sents):
    print number, sent, "\n"

输出:

  

0伦敦11月4日英国人受到收入减少和食物增加的影响   金融危机后的价格已经削减了成果   蔬菜,而不是脂肪,含糖,加工食品,一个   学术研究周一显示。

     

1英国的食品价格上涨幅度远大于其他大多数   2005年至2012年间发达的经济体,而工资增长一直是   低和失业率上升。

     

2净效应是英国人的支出减少了8.5%   对于在家购买的食品而言,实际上比经济衰退前 -   养老金领取者和有年轻人的家庭的趋势更加明显   儿童。

     

3此时的研究可能具有政治敏感性   英国保守党领导的政府面临着来自英国的压力   反对党工党,生活水平和生活水平下降   食品银行的需求急剧上升,向中国提供免费食品   最贫穷的英国人。

     

4人们通过购买较少的食物(以卡路里的数量来衡量)以及质量,选择较少的产品来节省开支   营养丰富,富含饱和脂肪和糖。"各种措施   营养质量在此期间下降,下降幅度更大   对于领取养老金的家庭和有小孩的家庭,"说   经济研究机构财政研究所。

     

5肥胖有孩子的家庭   当养老金领取者青睐时,他们很容易转向更多的含糖食品   研究显示,饱和脂肪含量高的食物。

     

6这两个群体的收入往往较低。

     

7经济开始出现增长迹象   自记录开始以来遭受经济增长的最大打击   在2008 - 09年经济衰退期间,家庭'可支配收入是否定的   高于十年前。

     

8然而,IFS表示低质量的饮食并非不可避免   拥有较少资金的后果,以及一些家庭   能够像以前一样健康地吃,同时少花钱。

     

9需要进行更多研究,以了解为什么其他情况并非如此   家庭,研究人员补充说。

     

10该研究调查了超过15,000个家庭的数据。购物   市场研究公司Kantar Worldpanel收集的习惯   2005年和2012年。数字不包括购买或提供的膳食   远离家乡,例如在餐馆或学校里   英格兰为较贫困的学生提供免费午餐。

     该研究与一项长期研究一起发布   来自IFS,显示英语现在减少了15-30%   卡路里比1980年,尽管肥胖率可能更高   减少身体活动。

     

12这与卡路里消费的美国形成鲜明对比   既肥胖也起了肥胖。

     

13 IFS表示正在进一步研究趋势   英国人'这段时期的身体活动。

1 个答案:

答案 0 :(得分:3)

我搜索了原始新闻文章,试图弄清楚为什么你的数据看起来像这样(在正式新闻文章中我不会期望它的句子之间缺少空格),看起来原来的问题是HTML段落之间没有插入空格。如果您可以解决从原始HTML中提取文章的问题(当您遇到< p>或< / p>时插入空格),那么您就不会遇到spacy或其他工具的问题。

标准工具中可用的模型通常会接受新闻数据的培训,期望它们能够很好地处理这类数据,但是它们期望句子之间有空格,这是合理的。除非您使用包含句子之间缺少空格的数据重新训练模型(或按照评论中的建议预处理数据),否则您将遇到这类问题。