从推文中提取网址,提及和标签

时间:2016-11-28 17:41:14

标签: python url twitter slice hashtag

我正在尝试提取所有不是字母数字的字符,并使用python从推文中提取url。我应该只留下用空格分隔的单词。 例如: 如果我的推文是:"嗨!查看我的页面https://www.tutorialspoint.com/python/python_strings.htm @phyton#phyton" 我应该得到:"您可以在" 谢谢你的帮助!

1 个答案:

答案 0 :(得分:0)

假设你已经有了推文文本,那么在字符串上使用python的一些内置操作应该可以做你想要的事情。这是使用列表理解的单行和string.translate module

import string

my_tweet = "Hi! Check out my page at https://www.tutorialspoint.com/python/python_strings.htm @phyton #phyton"
tweet_text = ' '.join([i.lower() for i in my_tweet.split() if not i.startswith(('http', '@', '#'))]).translate(None, string.punctuation)
print tweet_text # hi check out my page at