在熊猫中工作5000万行(python)

时间:2017-03-23 15:11:00

标签: python pandas

我正在研究大熊猫中5000万行的数据帧。我需要遍历一个列并提取文本的特定部分。该列具有以4或5种模式定义的字符串值。我需要提取文本并替换原始字符串。我正在使用apply函数和regex。这花了我一天的时间来执行。我觉得这是低效的。或者这是正常的吗?是否有一种方法我想让它更快?

1 个答案:

答案 0 :(得分:0)

这是文档:

http://pandas.pydata.org/pandas-docs/stable/indexing.html

http://pandas.pydata.org/pandas-docs/stable/text.html#extracting-substrings

更换文字很容易。没有一天不正常。摆脱这篇文章的早期版本中的所有列表。你不需要它们。如果需要更多数据空间,请将列添加到数据框。了解数据类型以缩小数据。

import pandas as pd
df = pd.DataFrame()  #import your data at this step
df['column'].str.extract(regex_thingy_here)

我写的更多,但你把代码记下来了。

相关问题