Python将web数据写入csv

时间:2018-03-17 23:19:20

标签: python beautifulsoup

我仍然是Python的新手,我正在为我的学校做作业。

我需要编写代码来从网站中提取所有html,然后将其保存到csv文件中。

我相信我不知何故需要将链接转换为列表然后编写列表,但我不确定该怎么做。

这是我到目前为止所做的:

import bs4
import requests
from bs4 import BeautifulSoup, SoupStrainer
import csv

search_link = "https://www.census.gov/programs-surveys/popest.html"
r = requests.get(search_link)
raw_html = r.text
soup = BeautifulSoup(raw_html, 'html.parser')
all_links = soup.find_all("a")

rem_dup = set()
for link in all_links:
    hrefs = str(link.get("href"))
    if hrefs.startswith('#http'):
        rem_dup.add(hrefs[1:])
    elif hrefs.endswith('.gov'):
        rem_dup.add(hrefs + '/')
    elif hrefs.startswith('/'):
        rem_dup.add('https://www.census.gov' + hrefs)
    else:
        rem_dup.add(hrefs)

filename = "Page_Links.csv"
f = open(filename, "w+")
f.write("LINKS\n")
f.write(all_links)
f.close()

2 个答案:

答案 0 :(得分:0)

all_links是一套或来自Beautiful Soup的结果。 rem_dup是存储所有href的地方,因此我认为这是您要写入文件的内容,因此只需f.write(rem_dup)

进一步说明:rem_dup实际上是一套。如果您希望它成为列表,请说出rem_dup = list()而不是set()append通常与列表一起使用,因此您使用正确的语法/.

答案 1 :(得分:0)

write()函数需要一个字符缓冲区对象作为参数。 all_links基本上保存所有超链接的ResultSet。所以,而不是 -

f.write(all_links)

您应该在set()变量定义的rem_dup中编写值(因为它们包含以字符串格式表示的实际超链接) -

for hyperlink in rem_dup:
    f.write(hyperlink + "\n")