Question

我必须从数千个网页中系统地提取大学名称，联系电话，电子邮件ID等信息。这样做有什么脚本吗？

完成方案：我使用wget下载了包含各个学院信息的网页。每个大学有大约5000个网页，其中包含有关他们的信息，但我只关心他们的名字，电子邮件ID，网站和联系电话。我需要将提取的信息以系统的顺序保存在合适的文件中。如何提取信息？我怎么用grep来做呢？有没有更好的方法呢？哪些脚本可用于提取信息？ PS：我使用Ubuntu和Kali linux。我是新手。需要专家的帮助。

Answer 1

我假设你有一个目录中的所有文件，“cd”到那个和：

grep -i -e "Name" -e "email" -e "http" ./*

并在看到结果时进行改进。这将写入你的屏幕，最后添加：

>> my_collected_things.txt

让它变得更好。

如何从下载的网页中提取信息？

1 个答案: