从Google云端硬盘中的Txt,PDf,Doc文件中提取电子邮件地址

时间:2013-06-13 16:23:21

标签: php python google-drive-api google-docs-api

我在Drive上有超过200个文件 - 主要是text,doc和pdf。我需要从中提取电子邮件地址到电子表格中。

是否有一个可以让我的生活更轻松的脚本(Python,PHP?)?

1 个答案:

答案 0 :(得分:1)

如果没有大量代码,似乎没有那种简单的可能性。我个人会做的是打开谷歌文档中的每个文件,搜索@,一次复制一个(你有多少封电子邮件要找?)。

如果您需要使用python执行此操作,则必须下载所有文件(使用google驱动器很容易)。然后浏览每种文件格式并使用特定方法。

对于文字,只需使用with open("filename") as file:读取每个文件,然后逐行搜索电子邮件与正则表达式。 re.search

对于pdf使用PyPDFlink

对于doc,first convert it到python可以用catdoc打开的文件,然后将其作为文本打开。

如果您需要完全自动完成所有这些操作,您可能需要查看要下载的网络自动化软件包,或使用api构建google drive / docs扩展程序。

相关问题