python - 如何检测音频文件中重叠扬声器的存在（并计算范围）？

我有一些WAV音频文件，其中包含广播录音。主要是新闻广播等视频录像的音频部分。（我没有原始视频）。我需要估算这些文件中有多少百分比的说话者重叠，即当两个或更多的人同时或多或少地讲话时。对于确实发生重叠的那些文件，其中百分之几的声音是重叠的语音。我不在乎是2个人，3个人还是23个人同时讲话，只要大于1。性别，年龄等也无关紧要。另一方面，这些录音使用多种不同的语言，具有不同的质量，并且可能还包含背景噪音（街道声音，音乐等）。因此，这个问题似乎比说话人歧义化要简单，但有复杂的因素。

是否有一个库（最好是Python）或命令行工具可以立即执行此操作。不需要任何有监督的培训（也就是说，我没有任何标签数据可以对其进行培训）。无监督的培训可能没问题，但我也希望避免这样做。

谢谢

更新：这些文件的下游处理可能会更好地定义任务：最终，我们将使用ASR处理它们，以便为关键词搜索生成的转录本编制索引。当我们在多说话者录音中搜索关键字“ blah”时，只要他们中的任何一个说话，我们都不会在意哪个说话者说的。凭直觉，从有多个发言者但每个人都仔细等待轮到自己讲话的录音中正确“吹嘘”会比每个人同时讲话更容易。我正在尝试测量这些录音中有多少重叠。除其他事项外，这将使我能够定量比较两组这样的录音，并得出结论说，其中一套比另一套更难。

如何检测音频文件中重叠扬声器的存在（并计算范围）？

0 个答案: