正则表达式匹配DNS主机名或IP地址?

时间:2008-09-19 22:38:02

标签: regex dns

是否有人能够使用符合任何合法DNS主机名或IP地址的正则表达式?

很容易编写一个可以在95%的时间内工作的程序,但是我希望得到一些经过充分测试的内容,以完全匹配最新的DNS主机名RFC规范。

21 个答案:

答案 0 :(得分:509)

您可以单独使用以下正则表达式,也可以将它们组合在一个联合OR表达式中。

ValidIpAddressRegex = "^(([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])$";

ValidHostnameRegex = "^(([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z0-9]|[A-Za-z0-9][A-Za-z0-9\-]*[A-Za-z0-9])$";

ValidIpAddressRegex 匹配有效的IP地址和 ValidHostnameRegex 有效的主机名。根据您使用的语言\可能必须使用\。

进行转义

ValidHostnameRegex 根据RFC 1123有效。最初,RFC 952指定主机名段不能以数字开头。

http://en.wikipedia.org/wiki/Hostname

  

原始规格   RFC 952中的主机名,   要求标签无法启动   用数字或连字符,和   不能以连字符结尾。但是,一个   后续规范(RFC 1123)   允许的主机名标签开始   用数字。

Valid952HostnameRegex = "^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$";

答案 1 :(得分:60)

smink 的主机名正则表达不遵守主机名中单个标签长度的限制。 有效主机名中的每个标签长度不得超过63个八位字节。

ValidHostnameRegex="^([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9])\
(\.([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9]))*$"

请注意,第一行末尾的反斜杠(上图)是用于拆分长行的Unix shell语法。它不是正则表达式本身的一部分。

这里只是单行的正则表达式:

^([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9])(\.([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9]))*$

您还应该单独检查主机名的总长度不得超过255个字符。有关更多信息,请参阅RFC-952和RFC-1123。

答案 2 :(得分:30)

要匹配有效的 IP地址,请使用以下正则表达式:

(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)(\.(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)){3}

而不是:

([01]?[0-9][0-9]?|2[0-4][0-9]|25[0-5])(\.([01]?[0-9][0-9]?|2[0-4][0-9]|25[0-5])){3}

解释

许多正则表达式引擎匹配OR序列中的第一种可能性。例如,尝试以下正则表达式:

10.48.0.200

测试

测试goodbad

之间的差异

答案 3 :(得分:4)

我似乎无法编辑热门帖子,所以我会在这里添加我的答案。

对于主机名 - 简单回答,请参阅egrep示例 - http://www.linuxinsight.com/how_to_grep_for_ip_addresses_using_the_gnu_egrep_utility.html

egrep '([[:digit:]]{1,3}\.){3}[[:digit:]]{1,3}'

虽然案例没有考虑第一个八位字节中0的值,以及大于254(ip addres)或255(网络掩码)的值。也许额外的if语句会有所帮助。

至于法律dns主机名,如果你只检查互联网主机名(而不是内联网),我写了下面的剪辑,混合了shell / php,但它应该适用于任何正则表达式。

首先访问ietf网站,下载并解析法律级别1域名列表:

tld=$(curl -s http://data.iana.org/TLD/tlds-alpha-by-domain.txt |  sed 1d  | cut -f1 -d'-' | tr '\n' '|' | sed 's/\(.*\)./\1/')
echo "($tld)"

这应该会给你一个很好的代码来检查顶级域名的合法性,例如.com .org或.ca

然后根据此处的指南添加表达式的第一部分 - http://www.domainit.com/support/faq.mhtml?category=Domain_FAQ&question=9(任何字母数字组合和' - '符号,破折号不应该在八位字节的开头或结尾。

(([a-z0-9]+|([a-z0-9]+[-]+[a-z0-9]+))[.])+

然后将它们放在一起(PHP preg_match示例):

$pattern = '/^(([a-z0-9]+|([a-z0-9]+[-]+[a-z0-9]+))[.])+(AC|AD|AE|AERO|AF|AG|AI|AL|AM|AN|AO|AQ|AR|ARPA|AS|ASIA|AT|AU|AW|AX|AZ|BA|BB|BD|BE|BF|BG|BH|BI|BIZ|BJ|BM|BN|BO|BR|BS|BT|BV|BW|BY|BZ|CA|CAT|CC|CD|CF|CG|CH|CI|CK|CL|CM|CN|CO|COM|COOP|CR|CU|CV|CX|CY|CZ|DE|DJ|DK|DM|DO|DZ|EC|EDU|EE|EG|ER|ES|ET|EU|FI|FJ|FK|FM|FO|FR|GA|GB|GD|GE|GF|GG|GH|GI|GL|GM|GN|GOV|GP|GQ|GR|GS|GT|GU|GW|GY|HK|HM|HN|HR|HT|HU|ID|IE|IL|IM|IN|INFO|INT|IO|IQ|IR|IS|IT|JE|JM|JO|JOBS|JP|KE|KG|KH|KI|KM|KN|KP|KR|KW|KY|KZ|LA|LB|LC|LI|LK|LR|LS|LT|LU|LV|LY|MA|MC|MD|ME|MG|MH|MIL|MK|ML|MM|MN|MO|MOBI|MP|MQ|MR|MS|MT|MU|MUSEUM|MV|MW|MX|MY|MZ|NA|NAME|NC|NE|NET|NF|NG|NI|NL|NO|NP|NR|NU|NZ|OM|ORG|PA|PE|PF|PG|PH|PK|PL|PM|PN|PR|PRO|PS|PT|PW|PY|QA|RE|RO|RS|RU|RW|SA|SB|SC|SD|SE|SG|SH|SI|SJ|SK|SL|SM|SN|SO|SR|ST|SU|SV|SY|SZ|TC|TD|TEL|TF|TG|TH|TJ|TK|TL|TM|TN|TO|TP|TR|TRAVEL|TT|TV|TW|TZ|UA|UG|UK|US|UY|UZ|VA|VC|VE|VG|VI|VN|VU|WF|WS|XN|XN|XN|XN|XN|XN|XN|XN|XN|XN|XN|YE|YT|YU|ZA|ZM|ZW)[.]?$/i';

    if (preg_match, $pattern, $matching_string){
    ... do stuff
    }

您可能还想添加一个if语句来检查您检查的字符串是否短于256个字符 - http://www.ops.ietf.org/lists/namedroppers/namedroppers.2003/msg00964.html

答案 4 :(得分:2)

def isValidHostname(hostname):

    if len(hostname) > 255:
        return False
    if hostname[-1:] == ".":
        hostname = hostname[:-1]   # strip exactly one dot from the right,
                                   #  if present
    allowed = re.compile("(?!-)[A-Z\d-]{1,63}(?<!-)$", re.IGNORECASE)
    return all(allowed.match(x) for x in hostname.split("."))

答案 5 :(得分:2)

值得注意的是,大多数语言的库都可以为您执行此操作,通常内置于标准库中。这些库可能比四年前从Stack Overflow回复中复制并忘记的代码更频繁地更新。当然,他们通常也会将地址解析为一些可用的形式,而不仅仅是让你与一群人进行匹配。

例如,在(POSIX)C中检测和解析IPv4:

#include <arpa/inet.h>
#include <stdio.h>

int main(int argc, char *argv[]) {
  for (int i=1; i!=argc; ++i) {
    struct in_addr addr = {0};
    printf("%s: ", argv[i]);
    if (inet_pton(AF_INET, argv[i], &addr) != 1)
      printf("invalid\n");
    else
      printf("%u\n", addr.s_addr);
  }
  return 0;
}

显然,如果你试图在聊天消息中找到所有有效地址,这些功能将不起作用 - 但即使在那里,使用简单但过于热心的正则表达式找到潜在的匹配可能更容易,并且然后使用库来解析它们。

例如,在Python中:

>>> import ipaddress
>>> import re
>>> msg = "My address is 192.168.0.42; 192.168.0.420 is not an address"
>>> for maybeip in re.findall(r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}', msg):
...     try:
...         print(ipaddress.ip_address(maybeip))
...     except ValueError:
...         pass

答案 6 :(得分:1)

我认为这是最好的Ip验证正则表达式。请检查一次!

^(([01]?[0-9]?[0-9]|2([0-4][0-9]|5[0-5]))\.){3}([01]?[0-9]?[0-9]|2([0-4][0-9]|5[0-5]))$

答案 7 :(得分:1)

/^(?:[a-zA-Z0-9]+|[a-zA-Z0-9][-a-zA-Z0-9]+[a-zA-Z0-9])(?:\.[a-zA-Z0-9]+|[a-zA-Z0-9][-a-zA-Z0-9]+[a-zA-Z0-9])?$/

localhostжеесть

答案 8 :(得分:1)

"^((\\d{1,2}|1\\d{2}|2[0-4]\\d|25[0-5])\.){3}(\\d{1,2}|1\\d{2}|2[0-4]\\d|25[0-5])$"

答案 9 :(得分:1)

这适用于有效的IP地址:

regex = '^([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])[.]([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])[.]([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])[.]([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])$'

答案 10 :(得分:0)

我发现这对IP地址非常有效。它像最佳答案一样验证,但它也确保ip被隔离,因此在ip之前或之前没有文本或更多的数字/小数。

  
    
      

(小于\ S!)(?:?(:\ d | [1-9] \ d | 1 \ d \ d | 2 [0-4] \ d | 25 [0-5]) \ C |。?!\ b){7}(\ S)

    
  

答案 11 :(得分:0)

新的网络框架为struct IPv4Address和struct IPv6Address提供了失败的初始化程序,它们很容易处理IP地址部分。对于所有缩短规则,使用正则表达式在IPv6中执行此操作都很困难。

不幸的是,我对主机名没有一个很好的答案。

请注意,网络框架是最新的,因此可能会迫使您为最新的OS版本进行编译。

import Network
let tests = ["192.168.4.4","fkjhwojfw","192.168.4.4.4","2620:3","2620::33"]

for test in tests {
    if let _ = IPv4Address(test) {
        debugPrint("\(test) is valid ipv4 address")
    } else if let _ = IPv6Address(test) {
        debugPrint("\(test) is valid ipv6 address")
    } else {
        debugPrint("\(test) is not a valid IP address")
    }
}

output:
"192.168.4.4 is valid ipv4 address"
"fkjhwojfw is not a valid IP address"
"192.168.4.4.4 is not a valid IP address"
"2620:3 is not a valid IP address"
"2620::33 is valid ipv6 address"

答案 12 :(得分:0)

>>> my_hostname = "testhostn.ame"
>>> print bool(re.match("^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$", my_hostname))
True
>>> my_hostname = "testhostn....ame"
>>> print bool(re.match("^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$", my_hostname))
False
>>> my_hostname = "testhostn.A.ame"
>>> print bool(re.match("^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$", my_hostname))
True

答案 13 :(得分:0)

关于IP地址,似乎存在关于是否包括前导零的争论。它曾经是常见的做法并且被普遍接受,所以我认为无论目前的偏好如何,都应被标记为有效。关于字符串之前和之后的文本是否应该被验证还有一些含糊不清的地方,我认为应该这样做。 1.2.3.4是有效的IP,但1.2.3.4.5不是,1.2.3.4部分和2.3.4.5部分都不应导致匹配。可以使用以下表达式处理一些问题:

grep -E '(^|[^[:alnum:]+)(([0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5])\.){3}([0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5])([^[:alnum:]]|$)' 

这里不幸的部分是,在许多提供的解决方案中,重复验证八位字节的正则表达式部分。虽然这比模式的实例更好,但如果正在使用的正则表达式支持子程序,则可以完全消除重复。下一个示例启用-P grep开关grep -P '(?<![\d\w\.])(?<o>([0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5]))(\.\g<o>){3}(?![\d\w\.])' 的那些函数,并利用前瞻和后瞻功能。 (我选择的函数名是&#39; o&#39;对于八位字节。我可以使用&#39; octet&#39;作为名称,但想要简洁。)

grep -P '(?<![\d\w\.])(?<x>([0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5]))(\.\g<x>){3}(?!([\d\w]|\.\d))'

如果IP地址位于带有句子形式文本的文件中,则点的处理实际上可能会产生错误否定,因为一段时间可能会跟随而不是点缀符号的一部分。以上的变体将解决这个问题:

    Traceback (most recent call last):
  File "manage.py", line 10, in <module>
    execute_from_command_line(sys.argv)
  File "C:\Python34\lib\site-packages\django\core\management\__init__.py", line
338, in execute_from_command_line
    utility.execute()
  File "C:\Python34\lib\site-packages\django\core\management\__init__.py", line
330, in execute
    self.fetch_command(subcommand).run_from_argv(self.argv)
  File "C:\Python34\lib\site-packages\django\core\management\base.py", line 390,
 in run_from_argv
    self.execute(*args, **cmd_options)
  File "C:\Python34\lib\site-packages\django\core\management\base.py", line 441,
 in execute
    output = self.handle(*args, **options)
  File "C:\Python34\lib\site-packages\django\core\management\commands\makemigrat
ions.py", line 98, in handle
    loader.project_state(),
  File "C:\Python34\lib\site-packages\django\db\migrations\loader.py", line 326,
 in project_state
    return self.graph.make_state(nodes=nodes, at_end=at_end, real_apps=list(self
.unmigrated_apps))
  File "C:\Python34\lib\site-packages\django\db\migrations\graph.py", line 231,
in make_state
    project_state = self.nodes[node].mutate_state(project_state, preserve=False)

  File "C:\Python34\lib\site-packages\django\db\migrations\migration.py", line 8
3, in mutate_state
    operation.state_forwards(self.app_label, new_state)
  File "C:\Python34\lib\site-packages\django\db\migrations\operations\fields.py"
, line 51, in state_forwards
    state.reload_model(app_label, self.model_name_lower)
  File "C:\Python34\lib\site-packages\django\db\migrations\state.py", line 152,
in reload_model
    self.apps.render_multiple(states_to_be_rendered)
  File "C:\Python34\lib\site-packages\django\db\migrations\state.py", line 262,
in render_multiple
    model.render(self)
  File "C:\Python34\lib\site-packages\django\db\migrations\state.py", line 546,
in render
    body,
  File "C:\Python34\lib\site-packages\django\db\models\base.py", line 189, in __
new__
    new_class.add_to_class(obj_name, obj)
  File "C:\Python34\lib\site-packages\django\db\models\base.py", line 324, in ad
d_to_class
    value.contribute_to_class(cls, name)
  File "C:\Python34\lib\site-packages\django\db\models\fields\__init__.py", line
 989, in contribute_to_class
    "A model can't have more than one AutoField."
AssertionError: A model can't have more than one AutoField.

答案 14 :(得分:0)

试试这个:

((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)

它适用于我的情况。

答案 15 :(得分:0)

AddressRegex = "^(ftp|http|https):\/\/([0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}:[0-9]{1,5})$";

HostnameRegex =  /^(ftp|http|https):\/\/([a-z0-9]+\.)?[a-z0-9][a-z0-9-]*((\.[a-z]{2,6})|(\.[a-z]{2,6})(\.[a-z]{2,6}))$/i

此re仅用于此类型验证

仅在时才有效 http://www.kk.com http://www.kk.co.in

不适用于

http://www.kk.com/ http://www.kk.co.in.kk

http://www.kk.com/dfas http://www.kk.co.in/

答案 16 :(得分:0)

这是我在Ant中用于从ANT_OPTS获取代理主机IP或主机名的正则表达式。这用于获取代理IP,以便在为分叉JVM配置代理之前运行Ant“isreachable”测试。

^.*-Dhttp\.proxyHost=(\w{1,}\.\w{1,}\.\w{1,}\.*\w{0,})\s.*$

答案 17 :(得分:-1)

在php上:filter_var(gethostbyname($dns), FILTER_VALIDATE_IP) == true ? 'ip' : 'not ip'

答案 18 :(得分:-1)

怎么样?

([0-9]{1,3}\.){3}[0-9]{1,3}

答案 19 :(得分:-2)

我想到了这个简单的正则表达式匹配模式,用于IP地址匹配 \ d + [。] \ d + [。] \ d + [。] \ d +

答案 20 :(得分:-2)

检查主机名,例如... mywebsite.co.in,thangaraj.name,18thangaraj.in,thangaraj106.in等,

[a-z\d+].*?\\.\w{2,4}$