在Excel中匿名化数据

时间:2018-10-31 12:03:40

标签: python excel nlp data-science anonymize

我有一个包含培训数据的Excel文件。在A列中,它包含来自客户的非结构化电子邮件(1个电子邮件/单元),而在其他列中,它包含其他内容。我必须使A列中每封电子邮件的电子邮件地址,邮政地址,发件人/收件人姓名和电话号码匿名。

我当时正在考虑使用python熊猫将细胞转换为数据帧。 有想法吗?

谢谢

2 个答案:

答案 0 :(得分:1)

一旦您已经转换了excel文件中的数据(我个人没有很多经验,但是我认为曾经使用过https://pypi.org/project/xlrd/),则文本处理能力过滤器可以帮助您匿名化内容:{{ 1}} icw textacy.preprocess.preprocess_text等(https://chartbeat-labs.github.io/textacy/api_reference.html

答案 1 :(得分:1)

根据需要将数据读入python,然后使用正则表达式替换字符串。

例如,您得到一个仅包含邮件地址r的列表: r = "abc@gf.com"

现在,您可以import re并使用re.sub()并带有合适的样式。对于邮件,我采取了One from regexr.com community,整个过程看起来像这样:

import re r = "abc@gf.com" p = re.sub("[a-z0-9!#$%&'*+/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+/=?^_`{|}~-]+)*@(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?", "***MAIL***", r) print(p)

结果: >>> print(p) ***MAIL***