使用python从文本文件中提取单词

时间:2015-09-04 10:04:54

标签: javascript python html beautifulsoup words

我有一个带有内容的html文件我无法使用BeautifulSoup轻松提取,因为我认为它是用Javascript加载的。

..."inlineParams":"json","title":"","lNameP":"MYNAME","key":"degree_result_person"},"firstName":"MYFIRSTNAME"...

我在此文件中有多个名称,我想提取。那些名字就在“lNameP”之后。有没有办法做一个循环来获取所有这些名称(在这种情况下,我想得到MYNAME)?

非常感谢,

2 个答案:

答案 0 :(得分:0)

使用正则表达式?

import re
pattern = re.compile('\"(lNameP)\"\:\"(.*?)\"')
result = pattern.findall(string)

result[0][0]是关键,result[0][1]是值。

答案 1 :(得分:0)

regex代码将完全符合您的需求:

string ='"inlineParams":"json","title":"","lNameP":"MYNAME","key":"degree_result_person"},"firstName":"MYFIRSTNAME"'
import re
pattern = re.compile('\"lNameP"\:"(.*?)"')
match = pattern.search(string).group(1)
print (match)

输出:

MYNAME
相关问题