将选择的更新数据点从外部网页保存到文本文件

时间:2011-08-30 20:30:09

标签: php python html

我正在尝试从不属于我的网站更新天气数据,并将其中的一大块每30分钟放入一个通用文本文件中。文本文件不应包含任何html标记或任何内容,但可以用逗号或句点或制表符分隔。生成数据的网站将数据放在没有类或id的表中。我需要的是来自一个标签的文本及其中的每个标签。无论更新的数据如何,标签每次都在相同的行号上。

这似乎有点愚蠢,因为获取数据的方法看起来并不理想。我愿意接受不同方法的建议,以获得更新的(每小时两次 - 每日两次)温度/露点/时间/等数据点,并将其放入文本文件中。

关于每30分钟左右自动化一次,我有一个可以在任何时间间隔下载网页的自动化程序。

我希望我对这个相当奇怪(至少对我来说)的挑战有足够的了解。我甚至不确定从哪里开始。我有很多关于html和Python,javascript,PHP和SQL基础知识的经验,但我愿意接受代码或学习其他语言的语法。

3 个答案:

答案 0 :(得分:0)

也许你可以在cronjob中使用它:

$file = file_get_contents ($url);
$onlyText = strip_tags ($file);
$fp = fopen('data.txt', 'w');
fwrite($fp, $onlyText);
fclose($fp);

答案 1 :(得分:0)

对于Python

  • 对于N分钟的定时任务,创建一个UNIX cron作业或Windows等效项,定期运行.py脚本

  • 使用.py脚本中的urllib2模块下载天气数据

  • 使用BeautifulSoup或lxml库解析HTML

  • 使用XPath选择器或CSS选择器(lxml)选择HTML的相关位

  • 处理数据并将其写入文本文件

实际的实现留给了读者:)

答案 2 :(得分:0)

这称为screen-scraping,但这常常令人不悦,如果您只是想要天气数据several APIs,可能会根据您的具体需求提供更好的解决方案。

除此之外,我们需要更多细节,例如页面代码,以帮助您解决这个问题。