如何使用PowerShell从存储在dropbox上的zip文件中提取文本?

时间:2015-03-03 08:22:29

标签: regex powershell dropbox extraction

客户已要求我从存储在dropbox上的zip存档中的pdf文件中提取文本。我想知道如何(以及是否可能)使用PowerShell访问这些文件。 (我已经阅读过你可以用来访问dropbox上的东西的API,但不知道如何将它集成到PowerShell脚本中)我理想的是要避免下载它们,因为它们大约有7000个。我想要的是一个脚本,用于在Dropbox中在线阅读这些文件的内容,然后将相关数据(文本)处理成电子表格。

重申 - (i)是否可以从存储在zip存档中的Dropbox(及其中的文本)访问pdf文件,以及(ii)如何使用PowerShell进行此操作 - 什么需要写一些脚本/说明

注意:我仍然在寻找PowerShell的方法,所以我很难详细说明 - 但是,当我变得更熟悉时,我会很高兴地更新这篇文章。

1 个答案:

答案 0 :(得分:0)

Dropbox唯一官方支持的编程接口是Dropbox API:

https://www.dropbox.com/developers

它允许您访问文件内容,例如,使用/ files(GET):

https://www.dropbox.com/developers/core/docs#files-GET

但是,它没有提供任何远程与zip文件内容交互的能力。 (Dropbox只是将zip文件视为任何其他文件的数据blob。)既然如此,正是你想要的东西是不可能的,因为你无法先查看zip文件而不先下载它们。 (同样,即使PDF文件不在zip文件中,Dropbox API目前也无法远程搜索PDF文件中的文本。您仍然需要下载它们。)