在Python中解析CSV日志文件

时间:2016-09-30 23:01:25

标签: python csv parsing pandas

我有一个网络日志数据,我需要解析并加载到Pandas数据框中以朗读一些机器学习算法。问题是输入文件,虽然csv不是直接逗号分隔格式。它包括url参数和json格式键值对,我还需要解析,所有这些都以unicode编码。

输入CSV如下所示:

[Row(firstKey=u'some_alpha_nemeric', anotherKey=u'another_alpha_nemeric_value',referrer=u'//google.com/images/etc.html?fid=283000185&flowid=17001,something_in_json_format={u'availibility': u'available', u'lifecycle': u'-'},
[Row(....

输出pandas数据框应读取所有键的值,包括URL参数(如上例中的referrer url)和jSON值

所以基本上我需要一个带有列firstKey, anotherKey, refferrer, fid, flowid, something_in_json_format.availibility, something_in_json_format.lifecycle

的输出pandas数据帧

我已经开始编写基本的csv阅读器脚本

with open('c:/Documents/web.csv', 'rb') as csvfile:
 myreader = csv.reader(csvfile, delimiter=',')
 for row in myreader:
     print ' '.join(row)

但我对如何解析这个复杂的结构并加载到pandas中毫无头绪。

0 个答案:

没有答案