Question

我有一个相当大的日志文件，想要查看所请求的网站类型。为此我使用grep表达式

grep -o 'http://[a-ZA-Z.-]*/' text.log

它提供了文档中的所有网址。我想获得看起来像这样的唯一网址 http://url/ 像http://url/somethingAfterslash这样的网址不应该是输出的一部分。

Answer 1

您要查找的是单个字符串，因此您可能希望通过空格将其与其余字符串分开（这是正则表达式中的技术术语;请参阅下文）。我会尝试 grep -o 'http://[a-zA-Z.-]*/[[:space:]]' text.log 这匹配单词末尾的任何空格，还有制表符和换行符。

此外，某些网址可能包含数字或下划线，因此您可能需要进一步调整模式。包括这两个 grep -o 'http://[0-9a-zA-Z.-_]*/[[:space:]]' text.log