我有一个相当大的日志文件,想要查看所请求的网站类型。 为此我使用grep表达式
grep -o 'http://[a-ZA-Z.-]*/' text.log
它提供了文档中的所有网址。我想获得看起来像这样的唯一网址
http://url/
像http://url/somethingAfterslash
这样的网址不应该是输出的一部分。
答案 0 :(得分:0)
您要查找的是单个字符串,因此您可能希望通过空格将其与其余字符串分开(这是正则表达式中的技术术语;请参阅下文)。我会尝试
grep -o 'http://[a-zA-Z.-]*/[[:space:]]' text.log
这匹配单词末尾的任何空格,还有制表符和换行符。
此外,某些网址可能包含数字或下划线,因此您可能需要进一步调整模式。包括这两个
grep -o 'http://[0-9a-zA-Z.-_]*/[[:space:]]' text.log