Question

我尝试了很多建议，但我无法找到解决方案（我不知道是否可行）我使用的是Ubuntu 15.04的终端

我需要在文本文件中下载mywebsite.com/links_的所有内部和外部链接（所有链接都以links_开头）例如http://www.mywebsite.com/links_sony.aspx我不需要所有其他链接前mywebsite.com/index.aspx或conditions.asp等我用 wget --spider --recursive --no-verbose --output-file="links.csv" http://www.mywebsite.com

你能帮帮我吗？提前致谢

Answer 1

如果你不介意使用其他几个工具来哄骗wget，那么你可以试试这个使用awk，grep，wget和lynx的bash脚本：

#! /bin/bash
lynx --dump $1 | awk '/http/{print $2}' | grep $2 > /tmp/urls.txt
for i in $( cat /tmp/urls.txt ); do wget $i; done

将上述脚本保存为getlinks，然后将其作为

运行

./getlinks 'http://www.mywebsite.com' 'links_' > mycollection.txt

这种方法不会加载/需要太多其他工具;而是重用常用的工具。

您可能需要根据您使用的shell来进行引用。以上工作在标准bash中，并不依赖于这些工具的特定版本。

您可以自定义零件

do wget $1

使用适当的开关来满足您的特定需求，例如递归，蜘蛛，冗长等。在wget和$ 1之间插入这些开关。

从远程页面获取URL，然后下载到txt文件

1 个答案: