从远程页面获取URL,然后下载到txt文件

时间:2015-07-13 19:21:45

标签: url wget

我尝试了很多建议,但我无法找到解决方案(我不知道是否可行)我使用的是Ubuntu 15.04的终端

我需要在文本文件中下载mywebsite.com/links_的所有内部和外部链接(所有链接都以links_开头)例如http://www.mywebsite.com/links_sony.aspx我不需要所有其他链接前mywebsite.com/index.aspx或conditions.asp等我用 wget --spider --recursive --no-verbose --output-file="links.csv" http://www.mywebsite.com

你能帮帮我吗?提前致谢

1 个答案:

答案 0 :(得分:0)

如果你不介意使用其他几个工具来哄骗wget,那么你可以试试这个使用awk,grep,wget和lynx的bash脚本:

#! /bin/bash
lynx --dump $1 | awk '/http/{print $2}' | grep $2 > /tmp/urls.txt
for i in $( cat /tmp/urls.txt ); do wget $i; done

将上述脚本保存为getlinks,然后将其作为

运行
./getlinks 'http://www.mywebsite.com' 'links_' > mycollection.txt

这种方法不会加载/需要太多其他工具;而是重用常用的工具。

您可能需要根据您使用的shell来进行引用。以上工作在标准bash中,并不依赖于这些工具的特定版本。

您可以自定义零件

do wget $1

使用适当的开关来满足您的特定需求,例如递归,蜘蛛,冗长等。在wget和$ 1之间插入这些开关。