BeautifulSoup找不到任何<a> tag</a>

时间:2012-07-11 07:25:25

标签: python beautifulsoup

我想在这里搜索网站:ftp://ftp.sec.gov/edgar/daily-index/。使用如下所示的代码:

from bs4 import BeautifulSoup  
import urllib.request
html = urllib.request.urlopen("ftp://ftp.sec.gov/edgar/daily-index/")
soup = BeautifulSoup(line, "lxml")
soup.a # or soup.find_all('a') neither of them works
#return None.

请帮忙,我真的很沮丧。我怀疑标签是导致问题的原因。该网站的Html看起来很好(匹配的标签),所以我迷失了为什么BeautifulSoup没有找到任何东西。感谢

1 个答案:

答案 0 :(得分:5)

ftp://ftp.sec.gov/edgar/daily-index/网址指向FTP目录,而不是HTML网页。

您的浏览器可以根据FTP目录内容生成HTML,但是当您使用urllib.request加载该资源时,服务器不会向您发送HTML。

您可能希望直接使用ftplib module来阅读目录列表,或首先检查urlopen(...).read()的返回值。