Python CSV无法编码字符

时间:2014-11-29 01:46:59

标签: python csv unicode ascii

使用Python a Beautiful Soup,我创建了一个脚本,它可以从网站上获取企业的名称,地址和电话号码,并将输出保存到CSV文件的三列中。

脚本运行正常,但是当我找到如下的商家名称时它会停止:

u'\nLevel 12, 280 George Street SYDNEY\xa0 NSW\xa0 2000. . Sydney. NSW 2000\n'

问题是" xa0"部分。错误消息指出:

UnicodeEncodeError: 'ascii' codec can't encode character u'\xa0' in position 35: ordinal not in range(128)

我对这个错误的含义有一个模糊的概念但不知道如何处理它。有什么想法吗?

由于

编辑:

我的脚本如下:

import bs4
import requests

page = requests.get('http://accountantlist.com.au/x123-Accountants-in-Sydney.aspx?Page=0')
soup = bs4.BeautifulSoup(page.content)

for company in soup.select('table#ctl00_ContentPlaceHolder1_dgLawyers tr > td > table'):
     name = company.a.text
     address = company.find_all('tr')[1].text
     phone = company.tr.find_all('td')[1].text
     with open('/home/kwal0203/Desktop/eggs.csv', 'a') as csvfile:
             s = csv.writer(csvfile)
             s.writerow([name,address,phone])

1 个答案:

答案 0 :(得分:4)

在写入csv文件时,您需要将其编码为utf-8格式,因为Python的内置csv不支持unicode。

def remove_non_ascii(text):
    return ''.join(i for i in text if ord(i)<128)


name = remove_non_ascii(company.a.text)
address = remove_non_ascii(company.find_all('tr')[1].text)
phone = remove_non_ascii(company.tr.find_all('td')[1].text)

with open('/home/kwal0203/Desktop/eggs.csv', 'a') as csvfile:
    s = csv.writer(csvfile)
    s.writerow([data.encode("utf-8") for data in [name,address,phone]])

或者您可以安装默认支持unicode的unicodecsv

您可以像这样安装。

pip install unicodecsv