如何从两个指定信息之间的字符串中获取特定字符串

时间:2020-05-19 19:25:32

标签: python regex

对于令人困惑的标题,我深表歉意。我环顾四周,我知道如何在两个指定字符之间获取字符串,但是我不确定如何在短语和字符之间获取字符串,例如src="the information i want"。在这种情况下,我希望起点为src=",端点为起点之后的第一个"。我将如何在get方法中指定这些参数?

下面是我寻求帮助的输出。无需手动复制并粘贴第二个URL,我想将该字符串分配给变量以使过程自动化。

>>> %Run myProject.py
enter URL
https://www.instagram.com/p/CAYGHWFFp-x/
<video class="tWeCl" playsinline="" poster="https://scontent-iad3-1.cdninstagram.com/v/t51.2885-15/e35/100101005_584997515466659_2719890114744519125_n.jpg?_nc_ht=scontent-iad3-1.cdninstagram.com&_nc_cat=111&_nc_ohc=DI3B3wg_vaQAX_MvEcQ&oh=06b611ef41299d4f0278467fb1d74e94&oe=5EC66079" 
preload="none" src="https://scontent-iad3-1.cdninstagram.com/v/t50.2886-16/98205256_176119867089312_5443572653160790508_n.mp4?_nc_ht=scontent-iad3-1.cdninstagram.com&_nc_cat=100&_nc_ohc=JtZXc2HiQ9kAX_097NE&oe=5EC68ACC&oh=ac92032cb89fa1dfbcb5f2fa9016c9ba" type="video/mp4"></video>
enter the URL

非常感谢您!

1 个答案:

答案 0 :(得分:2)

您可以使用Beautiful Soup来解析此内容。然后,您可以查找video元素,并读取其src属性。

from bs4 import BeautifulSoup
soup = BeautifulSoup(text, 'html.parser')
for video in soup.find_all('video'):
    print(video.get('src'))

输出

https://scontent-iad3-1.cdninstagram.com/v/t50.2886-1698205256_176119867089312_5443572653160790508_n.mp4?_nc_ht=scontent-iad3-1.cdninstagram.com&_nc_cat=100&_nc_ohc=JtZXc2HiQ9kAX_097NE&oe=5EC68ACC&oh=ac92032cb89fa1dfbcb5f2fa9016c9ba