熊猫-处理拼写错误和别名

时间:2019-05-09 14:44:43

标签: python pandas

我有一些数据(下面的示例),每次丢失数据时我都可以告诉他们是否存在拼写错误,别名或缩写。

例如,第1,2和5行实际上只需要一行。与6和7相同。现在我将这些行过滤掉,并手动修复和合并它们。寻找有关熊猫用户如何处理这些东西的建议。有什么方法可以自动化或半自动化该过程?

year                 2001  2002  2003
name                               
Agadlent              NaN   6.0   NaN
Agadlant              1.0   Nan   NaN
Amd                   8.0   7.0   8.0
Akki                 13.0  15.0  16.0
Agadllent             NaN   NaN   3.0
Anant                 NaN  22.0   4.5
Anand                15.0   NaN   NaN

还希望创建一个“同义词”字典,该字典收集所有变体供以后使用。因此,只要检测到变体,就会将其映射为“推荐”名称,然后使用该名称。

0 个答案:

没有答案