获取URL的一部分(正则表达式)

时间:2008-08-26 11:01:37

标签: regex language-agnostic url

给定URL(单行):
http://test.example.com/dir/subdir/file.html

如何使用正则表达式提取以下部分:

  1. 子域名(测试)
  2. 域名(example.com)
  3. 没有文件的路径(/ dir / subdir /)
  4. 文件(file.html)
  5. 文件的路径(/dir/subdir/file.html)
  6. 没有路径(http://test.example.com
  7. 的网址
  8. (添加您认为有用的任何其他内容)
  9. 即使我输入以下网址,正则表达式也能正常工作:

    http://example.example.com/example/example/example.html
    

29 个答案:

答案 0 :(得分:132)

  

单个正则表达式解析和分解a   完整的URL包括查询参数   和锚点,例如。

     

https://www.google.com/dir/1/2/search.html?arg=0-a&arg1=1-b&arg3-c#hash

     

^((http[s]?|ftp):\/)?\/?([^:\/\s]+)((\/\w+)*\/)([\w\-\.]+[^#?\s]+)(.*)?(#[\w\-]+)?$

     

RexEx职位:

     

url:RegExp ['$&'],

     

协议:正则表达式$ 2,

     

主持人:RegExp。$ 3,

     

路径:正则表达式$ 4

     

file:RegExp。$ 6,

     

查询:正则表达式$ 7,

     

散列:正则表达式$ 8

然后你可以很容易地进一步解析主机('。'分隔符)。

会做的是使用以下内容:

/*
    ^(.*:)//([A-Za-z0-9\-\.]+)(:[0-9]+)?(.*)$
*/
proto $1
host $2
port $3
the-rest $4

进一步解析“其余”尽可能具体。在一个正则表达式中执行它有点疯狂。

答案 1 :(得分:76)

我意识到我迟到了,但有一种简单的方法让浏览器在没有正则表达式的情况下为你解析网址:

var a = document.createElement('a');
a.href = 'http://www.example.com:123/foo/bar.html?fox=trot#foo';

['href','protocol','host','hostname','port','pathname','search','hash'].forEach(function(k) {
    console.log(k+':', a[k]);
});

/*//Output:
href: http://www.example.com:123/foo/bar.html?fox=trot#foo
protocol: http:
host: www.example.com:123
hostname: www.example.com
port: 123
pathname: /foo/bar.html
search: ?fox=trot
hash: #foo
*/

答案 2 :(得分:52)

我迟到了几年,但我很惊讶没有人提到统一资源标识符规范有section on parsing URIs with a regular expression。伯纳斯 - 李等人撰写的正则表达式是:

^(([^:/?#]+):)?(//([^/?#]*))?([^?#]*)(\?([^#]*))?(#(.*))?
 12            3  4          5       6  7        8 9
     

上面第二行中的数字只是为了提高可读性;   它们表示每个子表达的参考点(即每个子表达式)   配对括号)。我们引用子表达式匹配的值    作为$。例如,将上述表达式与

匹配      

http://www.ics.uci.edu/pub/ietf/uri/#Related

     

导致以下子表达式匹配:

$1 = http:
$2 = http
$3 = //www.ics.uci.edu
$4 = www.ics.uci.edu
$5 = /pub/ietf/uri/
$6 = <undefined>
$7 = <undefined>
$8 = #Related
$9 = Related

对于它的价值,我发现我必须在JavaScript中逃避正斜杠:

^(([^:\/?#]+):)?(\/\/([^\/?#]*))?([^?#]*)(\?([^#]*))?(#(.*))?

答案 3 :(得分:31)

我发现最高投票答案(hometoast的答案)对我来说并不完美。两个问题:

  1. 无法处理端口号。
  2. 哈希部分已损坏。
  3. 以下是修改后的版本:

    ^((http[s]?|ftp):\/)?\/?([^:\/\s]+)(:([^\/]*))?((\/\w+)*\/)([\w\-\.]+[^#?\s]+)(\?([^#]*))?(#(.*))?$
    

    零件的位置如下:

    int SCHEMA = 2, DOMAIN = 3, PORT = 5, PATH = 6, FILE = 8, QUERYSTRING = 9, HASH = 12
    

    由anon用户发布的编辑:

    function getFileName(path) {
        return path.match(/^((http[s]?|ftp):\/)?\/?([^:\/\s]+)(:([^\/]*))?((\/[\w\/-]+)*\/)([\w\-\.]+[^#?\s]+)(\?([^#]*))?(#(.*))?$/i)[8];
    }
    

答案 4 :(得分:11)

我需要一个正则表达式来匹配所有网址并制作这个网址:

/(?:([^\:]*)\:\/\/)?(?:([^\:\@]*)(?:\:([^\@]*))?\@)?(?:([^\/\:]*)\.(?=[^\.\/\:]*\.[^\.\/\:]*))?([^\.\/\:]*)(?:\.([^\/\.\:]*))?(?:\:([0-9]*))?(\/[^\?#]*(?=.*?\/)\/)?([^\?#]*)?(?:\?([^#]*))?(?:#(.*))?/

它匹配所有网址,任何协议,甚至是

等网址
ftp://user:pass@www.cs.server.com:8080/dir1/dir2/file.php?param1=value1#hashtag

结果(在JavaScript中)如下所示:

["ftp", "user", "pass", "www.cs", "server", "com", "8080", "/dir1/dir2/", "file.php", "param1=value1", "hashtag"]

这样的网址
mailto://admin@www.cs.server.com

看起来像这样:

["mailto", "admin", undefined, "www.cs", "server", "com", undefined, undefined, undefined, undefined, undefined] 

答案 5 :(得分:7)

我试图在javascript中解决这个问题,应该通过以下方式解决:

var url = new URL('http://a:b@example.com:890/path/wah@t/foo.js?foo=bar&bingobang=&king=kong@kong.com#foobar/bing/bo@ng?bang');

因为(至少在Chrome中)它解析为:

{
  "hash": "#foobar/bing/bo@ng?bang",
  "search": "?foo=bar&bingobang=&king=kong@kong.com",
  "pathname": "/path/wah@t/foo.js",
  "port": "890",
  "hostname": "example.com",
  "host": "example.com:890",
  "password": "b",
  "username": "a",
  "protocol": "http:",
  "origin": "http://example.com:890",
  "href": "http://a:b@example.com:890/path/wah@t/foo.js?foo=bar&bingobang=&king=kong@kong.com#foobar/bing/bo@ng?bang"
}

但是,这不是跨浏览器(https://developer.mozilla.org/en-US/docs/Web/API/URL),所以我将这些拼凑在一起以拉出与上面相同的部分:

^(?:(?:(([^:\/#\?]+:)?(?:(?:\/\/)(?:(?:(?:([^:@\/#\?]+)(?:\:([^:@\/#\?]*))?)@)?(([^:\/#\?\]\[]+|\[[^\/\]@#?]+\])(?:\:([0-9]+))?))?)?)?((?:\/?(?:[^\/\?#]+\/+)*)(?:[^\?#]*)))?(\?[^#]+)?)(#.*)?

此正则表达式的归功于https://gist.github.com/rpflorence发布此jsperf http://jsperf.com/url-parsing(最初在此处找到:https://gist.github.com/jlong/2428561#comment-310066)谁提出了最初基于的正则表达式。

部件按此顺序排列:

var keys = [
    "href",                    // http://user:pass@host.com:81/directory/file.ext?query=1#anchor
    "origin",                  // http://user:pass@host.com:81
    "protocol",                // http:
    "username",                // user
    "password",                // pass
    "host",                    // host.com:81
    "hostname",                // host.com
    "port",                    // 81
    "pathname",                // /directory/file.ext
    "search",                  // ?query=1
    "hash"                     // #anchor
];

还有一个小型库,它包装它并提供查询参数:

https://github.com/sadams/lite-url(也可在凉亭上使用)

如果您有改进,请创建一个包含更多测试的拉取请求,我将接受并合并谢谢。

答案 6 :(得分:6)

提出一个更易读的解决方案(在Python中,但适用于任何正则表达式):

def url_path_to_dict(path):
    pattern = (r'^'
               r'((?P<schema>.+?)://)?'
               r'((?P<user>.+?)(:(?P<password>.*?))?@)?'
               r'(?P<host>.*?)'
               r'(:(?P<port>\d+?))?'
               r'(?P<path>/.*?)?'
               r'(?P<query>[?].*?)?'
               r'$'
               )
    regex = re.compile(pattern)
    m = regex.match(path)
    d = m.groupdict() if m is not None else None

    return d

def main():
    print url_path_to_dict('http://example.example.com/example/example/example.html')

打印:

{
'host': 'example.example.com', 
'user': None, 
'path': '/example/example/example.html', 
'query': None, 
'password': None, 
'port': None, 
'schema': 'http'
}

答案 7 :(得分:5)

尝试以下方法:

^((ht|f)tp(s?)\:\/\/|~/|/)?([\w]+:\w+@)?([a-zA-Z]{1}([\w\-]+\.)+([\w]{2,5}))(:[\d]{1,5})?((/?\w+/)+|/?)(\w+\.[\w]{3,4})?((\?\w+=\w+)?(&\w+=\w+)*)?

它支持HTTP / FTP,子域,文件夹,文件等。

我是通过快速谷歌搜索找到的:

http://geekswithblogs.net/casualjim/archive/2005/12/01/61722.aspx

答案 8 :(得分:5)

子域和域很难,因为子域可以包含多个部分,顶层域http://sub1.sub2.domain.co.uk/

也可以
 the path without the file : http://[^/]+/((?:[^/]+/)*(?:[^/]+$)?)  
 the file : http://[^/]+/(?:[^/]+/)*((?:[^/.]+\.)+[^/.]+)$  
 the path with the file : http://[^/]+/(.*)  
 the URL without the path : (http://[^/]+/)  

(Markdown对正则表达不是很友好)

答案 9 :(得分:5)

此改进版本应该像解析器一样可靠。

   // Applies to URI, not just URL or URN:
   //    http://en.wikipedia.org/wiki/Uniform_Resource_Identifier#Relationship_to_URL_and_URN
   //
   // http://labs.apache.org/webarch/uri/rfc/rfc3986.html#regexp
   //
   // (?:([^:/?#]+):)?(?://([^/?#]*))?([^?#]*)(?:\?([^#]*))?(?:#(.*))?
   //
   // http://en.wikipedia.org/wiki/URI_scheme#Generic_syntax
   //
   // $@ matches the entire uri
   // $1 matches scheme (ftp, http, mailto, mshelp, ymsgr, etc)
   // $2 matches authority (host, user:pwd@host, etc)
   // $3 matches path
   // $4 matches query (http GET REST api, etc)
   // $5 matches fragment (html anchor, etc)
   //
   // Match specific schemes, non-optional authority, disallow white-space so can delimit in text, and allow 'www.' w/o scheme
   // Note the schemes must match ^[^\s|:/?#]+(?:\|[^\s|:/?#]+)*$
   //
   // (?:()(www\.[^\s/?#]+\.[^\s/?#]+)|(schemes)://([^\s/?#]*))([^\s?#]*)(?:\?([^\s#]*))?(#(\S*))?
   //
   // Validate the authority with an orthogonal RegExp, so the RegExp above won’t fail to match any valid urls.
   function uriRegExp( flags, schemes/* = null*/, noSubMatches/* = false*/ )
   {
      if( !schemes )
         schemes = '[^\\s:\/?#]+'
      else if( !RegExp( /^[^\s|:\/?#]+(?:\|[^\s|:\/?#]+)*$/ ).test( schemes ) )
         throw TypeError( 'expected URI schemes' )
      return noSubMatches ? new RegExp( '(?:www\\.[^\\s/?#]+\\.[^\\s/?#]+|' + schemes + '://[^\\s/?#]*)[^\\s?#]*(?:\\?[^\\s#]*)?(?:#\\S*)?', flags ) :
         new RegExp( '(?:()(www\\.[^\\s/?#]+\\.[^\\s/?#]+)|(' + schemes + ')://([^\\s/?#]*))([^\\s?#]*)(?:\\?([^\\s#]*))?(?:#(\\S*))?', flags )
   }

   // http://en.wikipedia.org/wiki/URI_scheme#Official_IANA-registered_schemes
   function uriSchemesRegExp()
   {
      return 'about|callto|ftp|gtalk|http|https|irc|ircs|javascript|mailto|mshelp|sftp|ssh|steam|tel|view-source|ymsgr'
   }

答案 10 :(得分:4)

/^((?P<scheme>https?|ftp):\/)?\/?((?P<username>.*?)(:(?P<password>.*?)|)@)?(?P<hostname>[^:\/\s]+)(?P<port>:([^\/]*))?(?P<path>(\/\w+)*\/)(?P<filename>[-\w.]+[^#?\s]*)?(?P<query>\?([^#]*))?(?P<fragment>#(.*))?$/

从我对similar question的回答。比一些其他提到的更好用,因为它们有一些错误(例如不支持用户名/密码,不支持单字符文件名,片段标识符被破坏)。

答案 11 :(得分:2)

这是一个完整的,并且不依赖于任何协议。

function getServerURL(url) {
        var m = url.match("(^(?:(?:.*?)?//)?[^/?#;]*)");
        console.log(m[1]) // Remove this
        return m[1];
    }

getServerURL("http://dev.test.se")
getServerURL("http://dev.test.se/")
getServerURL("//ajax.googleapis.com/ajax/libs/jquery/1.8.3/jquery.min.js")
getServerURL("//")
getServerURL("www.dev.test.se/sdas/dsads")
getServerURL("www.dev.test.se/")
getServerURL("www.dev.test.se?abc=32")
getServerURL("www.dev.test.se#abc")
getServerURL("//dev.test.se?sads")
getServerURL("http://www.dev.test.se#321")
getServerURL("http://localhost:8080/sads")
getServerURL("https://localhost:8080?sdsa")

<强>打印

http://dev.test.se

http://dev.test.se

//ajax.googleapis.com

//

www.dev.test.se

www.dev.test.se

www.dev.test.se

www.dev.test.se

//dev.test.se

http://www.dev.test.se

http://localhost:8080

https://localhost:8080

答案 12 :(得分:2)

我喜欢在“Javascript:The Good Parts”中发布的正则表达式。 它不会太短,也不会太复杂。 github上的这个页面也有使用它的JavaScript代码。 但它适用于任何语言。 https://gist.github.com/voodooGQ/4057330

答案 13 :(得分:2)

以上都不适合我。这是我最终使用的内容:

/^(?:((?:https?|s?ftp):)\/\/)([^:\/\s]+)(?::(\d*))?(?:\/([^\s?#]+)?([?][^?#]*)?(#.*)?)?/

答案 14 :(得分:2)

您可以使用.NET中的Uri对象获取所有http / https,主机,端口,路径以及查询。 困难的任务是将主机分解为子域,域名和TLD。

没有标准可以这样做,也不能简单地使用字符串解析或RegEx来产生正确的结果。首先,我使用RegEx函数,但并非所有URL都可以正确解析子域。实践方法是使用TLD列表。在定义了URL的TLD后,左侧部分是域,剩余部分是子域。

然而,由于可能有新TLD,因此该列表需要维护它。我所知的当前时刻是publicsuffix.org维护最新列表,您可以使用谷歌代码中的域名解析器工具来解析公共后缀列表,并使用DomainName对象轻松获取子域,域和TLD:domainName.SubDomain,domainName .Domain和domainName.TLD。

这个答案也有帮助: Get the subdomain from a URL

CaLLMeLaNN

答案 15 :(得分:1)

我建议不要使用正则表达式。像 WinHttpCrackUrl()这样的API调用不容易出错。

http://msdn.microsoft.com/en-us/library/aa384092%28VS.85%29.aspx

答案 16 :(得分:1)

Java提供了一个URL类来执行此操作。 Query URL Objects.

另外,PHP提供了parse_url()

答案 17 :(得分:1)

我尝试了其中一些不能满足我需求的,特别是那些没有路径的最高投票者(http://example.com/

也没有团体名称使其在ansible中无法使用(或者我的jinja2技能可能缺乏)。

所以这是我的版本略有修改,源代码是这里投票最多的版本:

^((?P<protocol>http[s]?|ftp):\/)?\/?(?P<host>[^:\/\s]+)(?P<path>((\/\w+)*\/)([\w\-\.]+[^#?\s]+))*(.*)?(#[\w\-]+)?$

答案 18 :(得分:1)

const URI_RE = /^(([^:\/\s]+):\/?\/?([^\/\s@]*@)?([^\/@:]*)?:?(\d+)?)?(\/[^?]*)?(\?([^#]*))?(#[\s\S]*)?$/;
/**
* GROUP 1 ([scheme][authority][host][port])
* GROUP 2 (scheme)
* GROUP 3 (authority)
* GROUP 4 (host)
* GROUP 5 (port)
* GROUP 6 (path)
* GROUP 7 (?query)
* GROUP 8 (query)
* GROUP 9 (fragment)
*/
URI_RE.exec("https://john:doe@www.example.com:123/forum/questions/?tag=networking&order=newest#top");
URI_RE.exec("/forum/questions/?tag=networking&order=newest#top");
URI_RE.exec("ldap://[2001:db8::7]/c=GB?objectClass?one");
URI_RE.exec("mailto:John.Doe@example.com");

您可以在上面找到带有修改过的正则表达式的 javascript 实现

答案 19 :(得分:0)

regexp获取没有文件的URL路径。

url ='http://domain/dir1/dir2/somefile' url.scan(/ ^(HTTP:// [^ /] +)((?:/ [^ /] +)+(= /))/(:?????[^ /] +)$ / ⅰ).to_s

添加此网址的相对路径非常有用。

答案 20 :(得分:0)

我知道你声称与此语言无关,但是你能告诉我们你正在使用什么,所以我们知道你有什么正则表达式吗?

如果您具有非捕获匹配的功能,则可以修改hometoast的表达式,以便您不想捕获的子表达式设置如下:

(?:SOMESTUFF)

您仍然需要将Regex复制并粘贴(并略微修改)到多个位置,但这是有道理的 - 您不仅要检查子表达式是否存在,而且还要检查它是否存在作为网址的一部分。使用非捕获修饰符表示子表达式可以为您提供所需内容,仅此而已,如果我正确地阅读了您,那就是您想要的。

就像一个小小的音符一样,hometoast的表达式不需要在's'的'https'周围加上括号,因为他只有一个字符。量词化器直接量化它们之前的一个字符(或字符类或子表达式)。所以:

https?

会匹配'http'或'https'就好了。

答案 21 :(得分:0)

使用http://www.fileformat.info/tool/regex.htm hometoast的正则表达式很有效。

但是这是交易,我想在我的程序中使用不同情况下的不同正则表达式。

例如,我有这个URL,我有一个枚举,列出了我的程序中所有支持的URL。枚举中的每个对象都有一个方法getRegexPattern,它返回正则表达式模式,然后将其用于与URL进行比较。如果特定的正则表达式模式返回true,那么我知道我的程序支持此URL。因此,每个枚举都有它自己的正则表达式,具体取决于它在URL中的位置。

Hometoast的建议很棒,但在我的情况下,我认为它无济于事(除非我在所有枚举中复制粘贴相同的正则表达式)。

这就是为什么我希望答案分别为每种情况提供正则表达式。虽然+1为hometoast。 ;)

答案 22 :(得分:0)

<input type="submit" name="submit" id="button" value="Submit">

将提供以下输出:
    1:https://
    2:www.thomas-bayer.com
    3:/
    4:axis2 / services / BLZService?wsdl

如果您将URL更改为
    String s =“https://www.thomas-bayer.com?wsdl=qwerwer&ttt=888”; 输出将如下:
    1:https://
    2:www.thomas-bayer.com
    3:?
    4:wsdl = qwerwer&amp; ttt = 888

享受..
Yosi Lev

答案 23 :(得分:0)

进行完全解析的正则表达式非常可怕。我已经包含了易读性的命名反向引用,并将每个部分分成不同的部分,但它仍然如下所示:

^(?:(?P<protocol>\w+(?=:\/\/))(?::\/\/))?
(?:(?P<host>(?:(?:&(?:amp|apos|gt|lt|nbsp|quot|bull|hellip|[lr][ds]quo|[mn]dash|permil|\#[1-9][0-9]{1,3}|[A-Za-z][0-9A-Za-z]+);)|[^\/?#:]+)(?::(?P<port>[0-9]+))?)\/)?
(?:(?P<path>(?:(?:&(?:amp|apos|gt|lt|nbsp|quot|bull|hellip|[lr][ds]quo|[mn]dash|permil|\#[1-9][0-9]{1,3}|[A-Za-z][0-9A-Za-z]+);)|[^?#])+)\/)?
(?P<file>(?:(?:&(?:amp|apos|gt|lt|nbsp|quot|bull|hellip|[lr][ds]quo|[mn]dash|permil|\#[1-9][0-9]{1,3}|[A-Za-z][0-9A-Za-z]+);)|[^?#])+)
(?:\?(?P<querystring>(?:(?:&(?:amp|apos|gt|lt|nbsp|quot|bull|hellip|[lr][ds]quo|[mn]dash|permil|\#[1-9][0-9]{1,3}|[A-Za-z][0-9A-Za-z]+);)|[^#])+))?
(?:#(?P<fragment>.*))?$

要求它如此冗长的事情是,除了协议或端口之外,任何部分都可以包含HTML实体,这使得片段的描绘非常棘手。因此,在最后几种情况下 - 主机,路径,文件,查询字符串和片段,我们允许任何html实体或任何不是?#的字符。 html实体的正则表达式如下所示:

$htmlentity = "&(?:amp|apos|gt|lt|nbsp|quot|bull|hellip|[lr][ds]quo|[mn]dash|permil|\#[1-9][0-9]{1,3}|[A-Za-z][0-9A-Za-z]+);"

当提取它时(我使用胡子语法来表示它),它变得更加清晰:

^(?:(?P<protocol>(?:ht|f)tps?|\w+(?=:\/\/))(?::\/\/))?
(?:(?P<host>(?:{{htmlentity}}|[^\/?#:])+(?::(?P<port>[0-9]+))?)\/)?
(?:(?P<path>(?:{{htmlentity}}|[^?#])+)\/)?
(?P<file>(?:{{htmlentity}}|[^?#])+)
(?:\?(?P<querystring>(?:{{htmlentity}};|[^#])+))?
(?:#(?P<fragment>.*))?$

在JavaScript中,当然,你不能使用命名的反向引用,所以正则表达式变成

^(?:(\w+(?=:\/\/))(?::\/\/))?(?:((?:(?:&(?:amp|apos|gt|lt|nbsp|quot|bull|hellip|[lr][ds]quo|[mn]dash|permil|\#[1-9][0-9]{1,3}|[A-Za-z][0-9A-Za-z]+);)|[^\/?#:]+)(?::([0-9]+))?)\/)?(?:((?:(?:&(?:amp|apos|gt|lt|nbsp|quot|bull|hellip|[lr][ds]quo|[mn]dash|permil|\#[1-9][0-9]{1,3}|[A-Za-z][0-9A-Za-z]+);)|[^?#])+)\/)?((?:(?:&(?:amp|apos|gt|lt|nbsp|quot|bull|hellip|[lr][ds]quo|[mn]dash|permil|\#[1-9][0-9]{1,3}|[A-Za-z][0-9A-Za-z]+);)|[^?#])+)(?:\?((?:(?:&(?:amp|apos|gt|lt|nbsp|quot|bull|hellip|[lr][ds]quo|[mn]dash|permil|\#[1-9][0-9]{1,3}|[A-Za-z][0-9A-Za-z]+);)|[^#])+))?(?:#(.*))?$

并且在每次匹配中,协议为\1,主机为\2,端口为\3,路径为\4,文件为\5 ,查询字符串\6和片段\7

答案 24 :(得分:0)

我尝试使用此正则表达式解析网址分区:

^((http[s]?|ftp):\/)?\/?([^:\/\s]+)(:([^\/]*))?((\/?(?:[^\/\?#]+\/+)*)([^\?#]*))(\?([^#]*))?(#(.*))?$

URL:https://www.google.com/my/path/sample/asd-dsa/this?key1=value1&key2=value2

比赛:

Group 1.    0-7 https:/
Group 2.    0-5 https
Group 3.    8-22    www.google.com
Group 6.    22-50   /my/path/sample/asd-dsa/this
Group 7.    22-46   /my/path/sample/asd-dsa/
Group 8.    46-50   this
Group 9.    50-74   ?key1=value1&key2=value2
Group 10.   51-74   key1=value1&key2=value2

答案 25 :(得分:0)

我建造了这个。非常宽容的是,不要检查url只是划分它。

^((http[s]?):\/\/)?([a-zA-Z0-9-.]*)?([\/]?[^?#\n]*)?([?]?[^?#\n]*)?([#]?[^?#\n]*)$

  • 匹配1:带有://(http或https)的完整协议
  • 匹配2:不带://
  • 的协议
  • 比赛3:主持人
  • 比赛4::
  • 匹配5:参数
  • 匹配6:锚点

工作

http://
https://
www.demo.com
/slug
?foo=bar
#anchor

https://demo.com
https://demo.com/
https://demo.com/slug
https://demo.com/slug/foo
https://demo.com/?foo=bar
https://demo.com/?foo=bar#anchor
https://demo.com/?foo=bar&bar=foo#anchor
https://www.greate-demo.com/

崩溃

#anchor#
?toto?

答案 26 :(得分:0)

这里建议的最佳答案对我不起作用,因为我的URL也包含端口。 但是,将其修改为以下正则表达式对我却有效:

^((http[s]?|ftp):\/)?\/?([^:\/\s]+)(:\d+)?((\/\w+)*\/)([\w\-\.]+[^#?\s]+)(.*)?(#[\w\-]+)?$

答案 27 :(得分:0)

我需要一些 REGEX 来解析 Java 中 URL 的组成部分。 这是我正在使用的:

"^(?:(http[s]?|ftp):/)?/?" +    // METHOD
"([^:^/^?^#\\s]+)" +            // HOSTNAME
"(?::(\\d+))?" +                // PORT
"([^?^#.*]+)?" +                // PATH
"(\\?[^#.]*)?" +                // QUERY
"(#[\\w\\-]+)?$"                // ID

Java 代码片段:

final Pattern pattern = Pattern.compile(
        "^(?:(http[s]?|ftp):/)?/?" +    // METHOD
        "([^:^/^?^#\\s]+)" +            // HOSTNAME
        "(?::(\\d+))?" +                // PORT
        "([^?^#.*]+)?" +                // PATH
        "(\\?[^#.]*)?" +                // QUERY
        "(#[\\w\\-]+)?$"                // ID
);
final Matcher matcher = pattern.matcher(url);

System.out.println("     URL: " + url);

if (matcher.matches())
{
    System.out.println("  Method: " + matcher.group(1));
    System.out.println("Hostname: " + matcher.group(2));
    System.out.println("    Port: " + matcher.group(3));
    System.out.println("    Path: " + matcher.group(4));
    System.out.println("   Query: " + matcher.group(5));
    System.out.println("      ID: " + matcher.group(6));
    
    return matcher.group(2);
}

System.out.println();
System.out.println();

答案 28 :(得分:-1)

//USING REGEX
/**
 * Parse URL to get information
 *
 * @param   url     the URL string to parse
 * @return  parsed  the URL parsed or null
 */
var UrlParser = function (url) {
    "use strict";

    var regx = /^(((([^:\/#\?]+:)?(?:(\/\/)((?:(([^:@\/#\?]+)(?:\:([^:@\/#\?]+))?)@)?(([^:\/#\?\]\[]+|\[[^\/\]@#?]+\])(?:\:([0-9]+))?))?)?)?((\/?(?:[^\/\?#]+\/+)*)([^\?#]*)))?(\?[^#]+)?)(#.*)?/,
        matches = regx.exec(url),
        parser = null;

    if (null !== matches) {
        parser = {
            href              : matches[0],
            withoutHash       : matches[1],
            url               : matches[2],
            origin            : matches[3],
            protocol          : matches[4],
            protocolseparator : matches[5],
            credhost          : matches[6],
            cred              : matches[7],
            user              : matches[8],
            pass              : matches[9],
            host              : matches[10],
            hostname          : matches[11],
            port              : matches[12],
            pathname          : matches[13],
            segment1          : matches[14],
            segment2          : matches[15],
            search            : matches[16],
            hash              : matches[17]
        };
    }

    return parser;
};

var parsedURL=UrlParser(url);
console.log(parsedURL);