在正则表达式中删除URL

时间:2018-04-18 22:18:59

标签: python regex

我正在尝试为充满URL的数据库隔离域名,但我遇到了一些正则表达式问题。

开始示例:

examples = ['www2.chccs.k12.nc.us', 'wwwsco.com', 'www-152.aig.com', 'www.google.com']

期望的目标:

['chccs.k12.nc.us', 'sco.com', 'aig.com', 'google.com']

我一直在尝试一个两阶段的过程,我在" www" "。#34; >,然后替换" www。" ,但这并不能完全导致我喜欢的结果。

任何正则表达式向导都可以提供帮助吗?

提前致谢!

1 个答案:

答案 0 :(得分:2)

import re

def extract(domain):
    return re.sub(r'^www[\d-]*\.?', '', domain)

examples = ['www2.chccs.k12.nc.us', 'wwwsco.com', 'www-152.aig.com', 'www.google.com']
result = [extract(d) for d in examples]
assert result == ['chccs.k12.nc.us', 'sco.com', 'aig.com', 'google.com'], result