WGet下载顺序的逻辑

时间:2011-10-15 23:01:14

标签: bash wget

这是一个更普遍的问题,但它对我正在运行的数据挖掘项目有更广泛的影响。我一直在使用wget镜像归档网页进行分析。这是一个大量的数据,我目前的镜像过程已经持续了将近一个星期。这给了我很多时间来观看读数。

wget如何确定下载页面的顺序?我似乎无法辨别其决策制定过程的一致性逻辑(它不按字母顺序,按原始网站创建日期或文件类型进行)。当我开始处理数据时,这将非常有助于掌握。

FWIW,这是我正在使用的命令(它需要cookie,而网站的TOS确实允许以任何方式访问'我不想冒任何机会) - 其中SITE = URL:

wget -m --cookies=on --keep-session-cookies --load-cookies=cookie3.txt --save-cookies=cookie4.txt --referer=SITE --random-wait --wait=1 --limit-rate=30K --user-agent="Mozilla 4.0" SITE

编辑添加:在对Chown的有用答案的评论中,我稍微改进了我的问题,所以在这里。对于较大的网站 - 比如epe.lac-bac.gc.ca/100/205/301/ic/cdc/E/Alphabet.asp - 我发现它最初创建了一个目录结构和一些index.html / default.html页面,但后来又回到了不同的网站几次(抓住了一个例如,每次传递的图像和子页面数量更少

1 个答案:

答案 0 :(得分:4)

来自gnu.org wget Recursive Download

  
      
  • 递归下载
  •   
     

GNU Wget能够遍历Web的一部分(或单个http   或者ftp服务器),遵循链接和目录结构。我们指的是   这就是递归检索或递归。

     

使用http urls,Wget从中检索并解析html或css   给定URL,通过标记检索文档引用的文件   像href或src,或使用'url()'指定的css uri值   功能表示法。如果新下载的文件也是类型   text / html,application / xhtml + xml或text / css,它将被解析和   紧接着。

     

http和html / css内容的递归检索是广度优先。   这意味着Wget首先下载所请求的文档,然后是   从该文档链接的文档,然后链接的文档   他们,等等。换句话说,Wget首先下载文件   深度1,然后深度为2,依此类推,直到指定的最大值   深度。

     

指定检索可以下降的最大深度   '-l'选项。默认的最大深度为五层。

     

以递归方式检索ftp网址时,Wget将检索所有网址   来自给定目录树的数据(包括子目录,直到   远程服务器上的指定深度),创建其镜像   本地。 ftp检索也受深度参数的限制。不像   http递归,ftp递归以深度优先的方式执行。

     

默认情况下,Wget将创建一个本地目录树,对应于   在远程服务器上找到的那个。

     

.... snip ....

     

应谨慎使用递归检索。不要说你不是   警告。


从我自己的基本测试开始,当结构深度为1时,它按照从页面顶部到底部的外观顺序排列:

[ 16:28 root@host /var/www/html ]# cat index.html
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
<html lang="en-US">
    <head>
        <link rel="stylesheet" type="text/css" href="style.css">
    </head>
    <body>
        <div style="text-align:center;">
            <h2>Mobile Test Page</h2>
        </div>
        <a href="/c.htm">c</a>
        <a href="/a.htm">a</a>
        <a href="/b.htm">b</a>
    </body>
</html>



[ 16:28 jon@host ~ ]$ wget -m http://98.164.214.224:8000
--2011-10-15 16:28:51--  http://98.164.214.224:8000/
Connecting to 98.164.214.224:8000... connected.
HTTP request sent, awaiting response... 200 OK
Length: 556 [text/html]
Saving to: "98.164.214.224:8000/index.html"

100%[====================================================================================================================================================================================================>] 556         --.-K/s   in 0s

2011-10-15 16:28:51 (19.7 MB/s) - "98.164.214.224:8000/index.html" saved [556/556]

--2011-10-15 16:28:51--  http://98.164.214.224:8000/style.css
Connecting to 98.164.214.224:8000... connected.
HTTP request sent, awaiting response... 200 OK
Length: 221 [text/css]
Saving to: "98.164.214.224:8000/style.css"

100%[====================================================================================================================================================================================================>] 221         --.-K/s   in 0s

2011-10-15 16:28:51 (777 KB/s) - "98.164.214.224:8000/style.css" saved [221/221]

--2011-10-15 16:28:51--  http://98.164.214.224:8000/c.htm
Connecting to 98.164.214.224:8000... connected.
HTTP request sent, awaiting response... 200 OK
Length: 0 [text/html]
Saving to: "98.164.214.224:8000/c.htm"

    [ <=>                                                                                                                                                                                                 ] 0           --.-K/s   in 0s

2011-10-15 16:28:51 (0.00 B/s) - "98.164.214.224:8000/c.htm" saved [0/0]

--2011-10-15 16:28:51--  http://98.164.214.224:8000/a.htm
Connecting to 98.164.214.224:8000... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2 [text/html]
Saving to: "98.164.214.224:8000/a.htm"

100%[====================================================================================================================================================================================================>] 2           --.-K/s   in 0s

2011-10-15 16:28:51 (102 KB/s) - "98.164.214.224:8000/a.htm" saved [2/2]

--2011-10-15 16:28:51--  http://98.164.214.224:8000/b.htm
Connecting to 98.164.214.224:8000... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2 [text/html]
Saving to: "98.164.214.224:8000/b.htm"

100%[====================================================================================================================================================================================================>] 2           --.-K/s   in 0s

2011-10-15 16:28:51 (85.8 KB/s) - "98.164.214.224:8000/b.htm" saved [2/2]

FINISHED --2011-10-15 16:28:51--
Downloaded: 5 files, 781 in 0s (2.15 MB/s)