从数据库中提取链接(URL) -

时间:2012-11-04 05:13:10

标签: python database url hyperlink extract

我需要从数据库中提取所有链接(URL)。要么,使用SQL语句或Python,我如何从表中提取链接?

有时没有链接,有时是1,有时超过1.

举个例子:

数据库名称(dbase) 表: id(int) col1(包含URL的文本) col2(包含URL的文本) col3(包含URL的文本) col4(包含URL的文本)

col1,col2,col3和col4包含文本和URL。 (imagen电子邮件包含URL)

我想为示例名称(URL_found)创建一个新的coloum名称,以便在col1,col2,col3和col4中找到所有URL。

示例

col1中的

有 你好,嗨,这是一个测试http://www.example.com/somewhereelse/some/where,如果你买这个,我会给你一个免费的表格

关于如何做到这一点的任何想法?

谢谢 -

1 个答案:

答案 0 :(得分:0)

这是一个广泛的问题,所以这是一个广泛的建议。您可能需要使用python客户端遍历表中的记录,并使用正则表达式或其他一些python解析库来解析每列中的字符串以获取有效的URL。

找到列或记录的匹配项后,可以将它们设置为另一列URL_found,并在网址之间添加某种分隔符...但它似乎更有用创建一个新的数据库表,如URL_found,其中包含与原始表中记录的外键关系。