使用Python a Beautiful Soup,我创建了一个脚本,它可以从网站上获取企业的名称,地址和电话号码,并将输出保存到CSV文件的三列中。
脚本运行正常,但是当我找到如下的商家名称时它会停止:
u'\nLevel 12, 280 George Street SYDNEY\xa0 NSW\xa0 2000. . Sydney. NSW 2000\n'
问题是" xa0"部分。错误消息指出:
UnicodeEncodeError: 'ascii' codec can't encode character u'\xa0' in position 35: ordinal not in range(128)
我对这个错误的含义有一个模糊的概念但不知道如何处理它。有什么想法吗?
由于
编辑:
我的脚本如下:
import bs4
import requests
page = requests.get('http://accountantlist.com.au/x123-Accountants-in-Sydney.aspx?Page=0')
soup = bs4.BeautifulSoup(page.content)
for company in soup.select('table#ctl00_ContentPlaceHolder1_dgLawyers tr > td > table'):
name = company.a.text
address = company.find_all('tr')[1].text
phone = company.tr.find_all('td')[1].text
with open('/home/kwal0203/Desktop/eggs.csv', 'a') as csvfile:
s = csv.writer(csvfile)
s.writerow([name,address,phone])
答案 0 :(得分:4)
在写入csv文件时,您需要将其编码为utf-8
格式,因为Python的内置csv
不支持unicode。
def remove_non_ascii(text):
return ''.join(i for i in text if ord(i)<128)
name = remove_non_ascii(company.a.text)
address = remove_non_ascii(company.find_all('tr')[1].text)
phone = remove_non_ascii(company.tr.find_all('td')[1].text)
with open('/home/kwal0203/Desktop/eggs.csv', 'a') as csvfile:
s = csv.writer(csvfile)
s.writerow([data.encode("utf-8") for data in [name,address,phone]])
或者您可以安装默认支持unicode的unicodecsv。
您可以像这样安装。
pip install unicodecsv