c++ - 如何在视频文件上使用语音识别？

这与this question非常相似，并且有一个非常相似的答案。您需要将音频部分分离，将其转换为WAV格式，然后将其发送到inproc识别器。

然而，它有与我之前描述的相同的问题（需要训练，假设一个声音，并假设麦克风靠近扬声器）。如果是这种情况，那么你可能会获得相当不错的结果。如果情况并非如此（例如，您正在尝试转录电视节目，或者更糟糕的是某种类型的摄像机音频），那么结果可能会令人不满意。