Question

我们的构建软件在构建失败时生成一个网页，并列出自上次构建以来已提交的用户。我想有办法解析我的团队成员的页面。例如：

   Commit
              18e1bc67b7e3123987daf8c219a4fbe2003de4
              by <a href="/user/bob.dole/">bob.dole</a></b><pre>1112233- Description on header is not carried forward to BD doc after PCPROJBILL is ran<br></pre></div></td></tr><tr><td width="16"><img title="The file was modified" height="16" alt="The file was modified" width="16" src="/static/fbfd5d7f/images/16x16/document_edit.png" /></td><td><a>pcbatch/projbill.cpp</a></td></tr><tr class="pane"><td colspan="2" class="changeset"><a name="detail54"></a><div class="changeset-message"><b>

因此脚本会将URL作为输入并在文件中搜索“bob.dole”并将与其相关的所有详细信息输出到文件中（提交哈希，预数据等）

有人可以告诉我最简单的方法吗？我在考虑使用perl，但我不确定是否有更直接的东西。

Answer 1

如果我问你的问题，你想获取网页内容并解析它以找到用户名。如果是这种情况，我会使用php

使用get_file_content（“your_website”），这将返回一个字符串供您解析。
然后，您可以使用strpos()查找子串的各个部分。稍后这将帮助您使用substr()函数提取用户名。

希望它有所帮助。

Answer 2

您正在寻找的Perl模块可帮助您基于节点进行搜索Mojo::DOM。

有一种从网页中提取内容的简单方法吗？

2 个答案: