Question

所以我没有什么问题，因为我需要打印主题名称，例如：＃?;（？@）＆＃34;，

Apr 17 23:39:02 test pure-ftpd: (?@researchscan425.eecs.umich.edu) [INFO] New connection from researchscan425.eecs.umich.edu

我需要打印＆＃34; researchscan425.eecs.umich.edu＆＃34;。

我尝试过类似的事情：

if(my ($test) = $linelist =~ /\b\(\?\@(\S*)/)
{
   print "$test\n";
}

但它并没有给我打印任何东西。

Answer 1

您可以使用此正则表达式：

\(\?@(.*?)\)

researchscan425.eecs.umich.edu将被捕获到第1组。

请参阅demo

Sample code：

my $linelist = 'Apr 17 23:39:02 test pure-ftpd: (?@researchscan425.eecs.umich.edu) [INFO] New connection from researchscan425.eecs.umich.edu';
if(my ($test) = $linelist =~ /\(\?@(.*?)\)/)
{
   print "$test\n";
}

Answer 2

怎么样：

if(my ($test) = $linelist =~ /\(\?\@([^\s)]+)/)

Answer 3

您需要删除\b之前存在的(。因为在(（非单词字符）之前和空格之后（非单词charcater ）之前不存在单词边界。

my $linelist = 'Apr 17 23:39:02 test pure-ftpd: (?@researchscan425.eecs.umich.edu) [INFO] New connection from researchscan425.eecs.umich.edu';
if(my ($test) = $linelist =~ /\(\?\@([^)]*)/)
{
   print "$test\n";
}

Answer 4

这里的问题是\b的定义。

它＆＃34;字边界＆＃34; - 在regex101上，这意味着：

(^\w|\w$|\W\w|\w\W)

现在，为什么这会导致您出现问题 - (不是word character。因此，从space到bracket的转换不会触发此模式。

将您的模式切换为：

\s\(\?\@(\S+)

它会起作用。（注意 - 我已将*更改为+，因为您可能需要一个或多个，而不是零或更多。

Answer 5

使用日志记录工具或使用perl作为日志服务本身的部分，您可以做些什么（ cf {{3} }），但即使你只是在写一个＆＃34;快速脚本＆＃34;解析报告的日志（即你或其他人赢得的东西，再过几个月或几年），这有助于使它们易于维护。

执行此操作的一种方法是使用Ubic处理日志文件行的行。一个优点是RX::Common实际匹配＆＃34;自我文件＆＃34;你在做什么。例如，要匹配特定的＆＃34; RFC兼容＆＃34;构成＆＃34;域的定义＆＃34;使用您发布的$linelist：

use Regexp::Common qw /net/;
if ( $line =~ /\?\@$RE{net}{domain}{-keep}/ ) { say $1 }

然后，如果您需要，可以添加其他匹配例如＆＃34;数字＆＃34; IPv4或IPv6地址，分配它们以供稍后在脚本中使用等。（Regexp::Common和Perl6::Form仅用于演示目的 - 试用它们！）：

use IO::All ;
use Regexp::Common qw/net/;
use Perl6::Form;

my $purelog = io 'logfile.lines.txt' ;

sub _get_ftphost_names {
  my @hosts = () ;
  while ($_ = $purelog->getline) {
     /\(\?\@$RE{net}{IPv6}{-sep => ":" }{-keep}/    || 
     /\(\?\@$RE{net}{IPv4}{-keep}/                  || 
     /\(\?\@$RE{net}{domain}{-keep}/ and push @hosts , $1 ; 
   }
   return \@hosts ;
}

sub _get_bytes_transfered {
  ... ;
}

my @host_list = _get_ftphost_names ;

print form 
"{[[[[[[[[[[(30+)[[[[[[[[[[[[[}", @host_list ;

关于Regexp::Common（除了从源代码中窃取正则表达式的想法之外）的一个好处是，它还可以很容易地滚动你自己的匹配，你可以使用它们来捕获文件的其他部分。容易理解的方式逐个添加它们。然后，随着您的四行脚本的增长并将其转换为符合ITIL标准的公司报告工具，您和您的职业生涯可以快速发展： - ）

使用正则表达式查找主机名

5 个答案: