有一种从网页中提取内容的简单方法吗?

时间:2013-06-21 17:07:00

标签: perl parsing scripting

我们的构建软件在构建失败时生成一个网页,并列出自上次构建以来已提交的用户。我想有办法解析我的团队成员的页面。例如:

   Commit
              18e1bc67b7e3123987daf8c219a4fbe2003de4
              by <a href="/user/bob.dole/">bob.dole</a></b><pre>1112233- Description on header is not carried forward to BD doc after PCPROJBILL is ran<br></pre></div></td></tr><tr><td width="16"><img title="The file was modified" height="16" alt="The file was modified" width="16" src="/static/fbfd5d7f/images/16x16/document_edit.png" /></td><td><a>pcbatch/projbill.cpp</a></td></tr><tr class="pane"><td colspan="2" class="changeset"><a name="detail54"></a><div class="changeset-message"><b>

因此脚本会将URL作为输入并在文件中搜索“bob.dole”并将与其相关的所有详细信息输出到文件中(提交哈希,预数据等)

有人可以告诉我最简单的方法吗?我在考虑使用perl,但我不确定是否有更直接的东西。

2 个答案:

答案 0 :(得分:2)

如果我问你的问题,你想获取网页内容并解析它以找到用户名。如果是这种情况,我会使用php

使用get_file_content(“your_website”),这将返回一个字符串供您解析。
然后,您可以使用strpos()查找子串的各个部分。稍后这将帮助您使用substr()函数提取用户名。

希望它有所帮助。

答案 1 :(得分:0)

您正在寻找的Perl模块可帮助您基于节点进行搜索Mojo::DOM