Question

有谁知道在哪里可以找到各种主题的大量样本文件库？我正在寻找至少几千个文件（办公室或PDF应该没问题）以便测试一些算法......文件应该有一些共同点 - 例如，一千个与编程有关的文档，另外一千个与编程相关的文档生态学等......

任何人都知道我能在哪里得到它？

Answer 1

您是否尝试过使用维基百科？创建一个脚本：

致电http://en.wikipedia.org/wiki/Special:Random获取随机页面
跟随生成的重定向，将？printable = yes附加到url的末尾（以便删除布局crud） - 使用wget执行这两个步骤，或者等效，它将执行重定向你。
通过html-＆gt; pdf转换器管理生成的html内容。
重复1000次。

这应该可以为您提供各种各样的内容。

Answer 2

您可以使用Yahoo Search API上的高级搜索来指定您要查找的文档类型。

http://developer.yahoo.com/search/boss/boss_guide/Web_Search.html#optional_args_web

如果您需要大量的Word文档，请指定所需的文档类型，然后根据某些预先选择的关键字进行搜索。这应该会给你一堆文件。

您还可以通过指定fileType（来自随机列表）抓取高级Google搜索并以此方式获取文档链接，例如：

http://www.google.co.in/search?q=monkey+badger+filetype%3Apdf

Answer 3

On the internetzzz?

编辑：我？没有帮助？：）

import mechanize, urllib, os

template = r"http://www.google.com/search?q=filetype:pdf&hl=en&start=%s&sa=N"
links = []

br = mechanize.Browser()
br.set_handle_robots(False)
br.addheaders = [('User-agent', 'Firefox')]
for i in xrange(0, 30, 10):
    br.open(template % i)
    links.extend((link.url for link in br.links(url_regex="^http.+pdf$"))
for url in links:
    urllib.urlretrieve(url, os.path.basename(url))

大量的样本文件

3 个答案: