signal-processing - 如何进行体面的语音检测？

我需要写一个语音检测算法（不是语音识别）。

起初我以为我只需测量麦克风功率并将其与某个阈值进行比较。但是，一旦你必须考虑环境声音水平，问题会变得更加困难（例如，在酒吧中，由于其他人在说话，因此会立即越过简单的功率阈值。）

所以在第二个版本中，我认为我必须测量当前功率峰值与平均声级或类似的等级。编码这个想法对我来说是非常毛茸茸的，此时我认为可能是研究现有解决方案的时候了。

您是否知道语音检测的一般算法描述？ C / C ++ / Objective-C中的现有代码或库也很好，无论是商业还是免费。

P.S。我猜“语音”和“声音”识别之间存在差异，第一种只响应接近人类语音范围的频率。第二个更简单的情况我很好。