我有一大串原始文本长约200,000字。这是一本书。
我想用这些词来分析单词关系,这样我就可以将这些关系应用到其他应用程序中。
这被称为“语料库”吗?
答案 0 :(得分:5)
语言学中的语料库是正在研究的任何现实生活(*)文本或语音的连贯体。所以,是的,一本书是一个语料库。只要你不随机改变角色,它在一个字符串中的事实并不重要。
(*)与一系列用于测试受试者测量其反应的组成短语相反,正如心理语言学中常见的那样。
答案 1 :(得分:1)
是。 http://en.wikipedia.org/wiki/Text_corpus 具体来说,因为它用于统计。
答案 2 :(得分:0)
通常,“语料库”用于指代结构化集合,但语言学家会知道您在谈论什么。