使用Spacy或NLTK在文章中搜索职称

时间:2016-12-30 18:27:07

标签: nlp named-entity-recognition spacy

我是NLP的新手,最近一直在玩NTLK和Spacy。但是,我找不到在文章中搜索职称的方法(例如:产品经理,首席营销官等)。

示例,我有1000篇文章,我想获得所有我感兴趣的职位的文章。

此外,职称属于哪种实体类型?我检查https://spacy.io/docs/usage/entity-recognition并没有在那里看到它。我有计划添加它吗?

感谢。

2 个答案:

答案 0 :(得分:7)

"职位名称"如Nathan所述,Spacy NER不支持实体。但您可以为您的用例创建自定义命名实体。这是官方文档link。你可以找到一步一步的指南,在那里训练Spacy NER。

您需要标记数据来训练您的NER。一般来说,您需要至少4000-5000列车和2000例测试示例。您拥有的训练数据越多,NER表现就越好。

以下是一些示例培训数据。

TRAIN_DATA = [
    ('Who is Shaka Khan?', {
        'entities': [(7, 17, 'PERSON')]
    }),
    ('I like London and Berlin.', {
        'entities': [(7, 13, 'LOC'), (18, 24, 'LOC')]
    }),
    ('I work as software engineer.', {
        'entities': [(9, 18, 'JOBTITLE')]
    }),

]

答案 1 :(得分:1)

Stanford NER支持标题(尽管不完美)。请参见http://corenlp.run/

上的演示页面