大量的样本文件

时间:2009-07-14 22:22:28

标签: sample

有谁知道在哪里可以找到各种主题的大量样本文件库? 我正在寻找至少几千个文件(办公室或PDF应该没问题)以便测试一些算法......文件应该有一些共同点 - 例如,一千个与编程有关的文档,另外一千个与编程相关的文档生态学等......

任何人都知道我能在哪里得到它?

3 个答案:

答案 0 :(得分:6)

您是否尝试过使用维基百科?创建一个脚本:

  1. 致电http://en.wikipedia.org/wiki/Special:Random获取随机页面

  2. 跟随生成的重定向,将?printable = yes附加到url的末尾(以便删除布局crud) - 使用wget执行这两个步骤,或者等效,它将执行重定向你。

  3. 通过html-> pdf转换器管理生成的html内容。

  4. 重复1000次。

  5. 这应该可以为您提供各种各样的内容。

答案 1 :(得分:2)

您可以使用Yahoo Search API上的高级搜索来指定您要查找的文档类型。

http://developer.yahoo.com/search/boss/boss_guide/Web_Search.html#optional_args_web

如果您需要大量的Word文档,请指定所需的文档类型,然后根据某些预先选择的关键字进行搜索。这应该会给你一堆文件。

您还可以通过指定fileType(来自随机列表)抓取高级Google搜索并以此方式获取文档链接,例如:

http://www.google.co.in/search?q=monkey+badger+filetype%3Apdf

答案 2 :(得分:0)

On the internetzzz?

编辑:我?没有帮助? :)

import mechanize, urllib, os

template = r"http://www.google.com/search?q=filetype:pdf&hl=en&start=%s&sa=N"
links = []

br = mechanize.Browser()
br.set_handle_robots(False)
br.addheaders = [('User-agent', 'Firefox')]
for i in xrange(0, 30, 10):
    br.open(template % i)
    links.extend((link.url for link in br.links(url_regex="^http.+pdf$"))
for url in links:
    urllib.urlretrieve(url, os.path.basename(url))