如何从损坏的数据集中恢复货币信息?

时间:2012-01-06 23:44:45

标签: text-mining

这不是我的区域,所以如果这不在此堆栈的范围内,我会道歉。

我正在清理(用于个人娱乐和制作可视化以与他人分享)调查数据(download, 9MB),这些数据在发布给公众之前经过一些操作被匿名化。

其中一个问题是每小时付款率和允许的自由格式文本答案。其中一些答案得到严重破坏的字符,下图中显示了两种最常见的情况:

enter image description here

我不想放弃这些答案,但我却不知道如何将它们恢复到有意义的状态。

  1. 要求更好的数据转储 - 引起相关人士的关注,但不太有希望。

  2. 尝试确定以这种方式结束的字符。处理编码总是很麻烦,这看起来不像我以前见过的任何破碎的字符所以我不知道从哪里开始,如果有工具可以帮助解决这个问题。这根本不是有效的字符或货币符号。

  3. 尝试将损坏的字符与有效的货币字符进行匹配。我强烈怀疑这两个人中的一个可能是欧元而另一个可能是英镑,因为该调查倾向于英语国家。但是,我是否能够通过相对的其他答案数量可靠地备份这种猜测?遗憾的是,未提供地理数据,因此无法将答案与国家匹配。

1 个答案:

答案 0 :(得分:0)

确认这是由调查软件中的导出错误导致的,字符确实对应欧元和英镑。

  

如你所料。

     

enter image description here

     

这是对csv bug的@Polldaddy导出

     

Pete Davies