寻找数据集来测试FULLTEXT样式搜索

时间:2010-06-22 18:08:15

标签: mysql database core-data dataset corpus

我正在寻找一个文本语料库来运行一些试验全文风格的数据搜索。我可以下载的东西,或者生成它的系统。更随机的东西会更好,例如1,000,000个维基百科文章,格式易于插入2列数据库(id,text)。

有任何想法或建议吗?

3 个答案:

答案 0 :(得分:3)

古腾堡计划有32000本书。

修改 截至目前(17.06.16),有52,284本免费电子书可以下载作为UTF-8中的纯文本文件,涵盖各种主题(从科学到宗教)。 还有格式EPUB,Kindle或html格式。 查看here Project Gutenberg

答案 1 :(得分:1)

为什么不使用Wikipedia dump

答案 2 :(得分:1)

我会把它扔出去,因为我很熟悉它 - Prosper.com使他们的会员贷款清单可用于分析through an XML export。出口将有大约50,000个贷款请求和超过1,000,000个成员资料(尽管其中许多是空的)。