如何从下载的网页中提取信息?

时间:2014-11-23 14:13:09

标签: linux bash scripting grep wget

我必须从数千个网页中系统地提取大学名称,联系电话,电子邮件ID等信息。这样做有什么脚本吗?

完成方案:我使用wget下载了包含各个学院信息的网页。每个大学有大约5000个网页,其中包含有关他们的信息,但我只关心他们的名字,电子邮件ID,网站和联系电话。我需要将提取的信息以系统的顺序保存在合适的文件中。 如何提取信息?我怎么用grep来做呢?有没有更好的方法呢?哪些脚本可用于提取信息? PS:我使用Ubuntu和Kali linux。我是新手。需要专家的帮助。

1 个答案:

答案 0 :(得分:0)

我假设你有一个目录中的所有文件,“cd”到那个和:

grep -i -e "Name" -e "email" -e "http" ./*

并在看到结果时进行改进。这将写入你的屏幕,最后添加:

>> my_collected_things.txt

让它变得更好。