我想知道如何从网页下载所有外部javascripts文件和内部javascript代码。是否有任何图书馆或示例开始?
答案 0 :(得分:2)
Beautiful Soup是一个广泛使用的Python网页抓取库。
这是一个简单的示例,演示如何在页面中检索JavaScript源路径和内部脚本:
from bs4 import BeautifulSoup
import urllib2
url = "http://example.com/"
soup = BeautifulSoup(urllib2.urlopen(url).read())
sources = []
scripts = []
for script in soup('script', {'type': 'text/javascript'}):
src = script.get('src')
if src:
sources.append(src)
else:
scripts.append(script.text)
print scripts
print sources