如何通过Blob存储使Azure搜索按需运行

时间:2018-07-16 03:38:28

标签: azure azure-search azure-sdk-.net

我正在使用Azure搜索自动索引上载到Blob存储的单词文档。我使用搜索的唯一原因是从Word或PDF文档(it's free and works well)中提取文本-从那时起,我从索引中读取了该文本并将其删除。

我的问题是搜索索引只能每5分钟运行一次-我需要它在Blob上传后尽快运行。所以我要么需要按需运行它(每次添加新的Blob时都会触发),或者弄清楚如何将Word / PDF文档插入索引中(或如何从中提取文本)

流因此是:

  1. 将文档上传到Blob(Azure函数)
  2. 索引运行并从文档(搜索索引器)中提取文本
  3. 定期阅读索引并提取文本以用于其他地方(Azure函数)

所以我的问题是:

A。是否有更好的方法使用Azure从Word / pdf文档中本地提取文本? (在这种情况下,问题2无效) B.我如何使用.NET SDK调用要运行的索引(我找不到Run方法here),尽管有几个地方提到您可以使用SDK按需运行它。

1 个答案:

答案 0 :(得分:1)

如果仅需要Azure搜索来进行文档破解,而又不需要其余的搜索和扩充功能,则直接在Azure Function中进行文档破解可能会更简单。有许多OSS和商业库可用于文档解析,例如Apache Tika

由我们的团队成员之一撰写的example,是通过Azure函数使用Tika的。

相关问题