这是“语料库”的正确定义吗?

时间:2011-07-14 22:22:45

标签: nlp computer-science nltk

我有一大串原始文本长约200,000字。这是一本书。

我想用这些词来分析单词关系,这样我就可以将这些关系应用到其他应用程序中。

这被称为“语料库”吗?

3 个答案:

答案 0 :(得分:5)

语言学中的语料库是正在研究的任何现实生活(*)文本或语音的连贯体。所以,是的,一本书是一个语料库。只要你不随机改变角色,它在一个字符串中的事实并不重要。

(*)与一系列用于测试受试者测量其反应的组成短语相反,正如心理语言学中常见的那样。

答案 1 :(得分:1)

是。 http://en.wikipedia.org/wiki/Text_corpus 具体来说,因为它用于统计

答案 2 :(得分:0)

通常,“语料库”用于指代结构化集合,但语言学家会知道您在谈论什么。