如何检测音频文件中重叠扬声器的存在(并计算范围)?

时间:2019-01-14 19:13:02

标签: python audio-processing

我有一些WAV音频文件,其中包含广播录音。主要是新闻广播等视频录像的音频部分。(我没有原始视频)。我需要估算这些文件中有多少百分比的说话者重叠,即当两个或更多的人同时或多或少地讲话时。对于确实发生重叠的那些文件,其中百分之几的声音是重叠的语音。我不在乎是2个人,3个人还是23个人同时讲话,只要大于1。性别,年龄等也无关紧要。另一方面,这些录音使用多种不同的语言,具有不同的质量,并且可能还包含背景噪音(街道声音,音乐等)。因此,这个问题似乎比说话人歧义化要简单,但有复杂的因素。

是否有一个库(最好是Python)或命令行工具可以立即执行此操作。不需要任何有监督的培训(也就是说,我没有任何标签数据可以对其进行培训)。无监督的培训可能没问题,但我也希望避免这样做。

谢谢

更新:这些文件的下游处理可能会更好地定义任务:最终,我们将使用ASR处理它们,以便为关键词搜索生成的转录本编制索引。当我们在多说话者录音中搜索关键字“ blah”时,只要他们中的任何一个说话,我们都不会在意哪个说话者说的。凭直觉,从有多个发言者但每个人​​都仔细等待轮到自己讲话的录音中正确“吹嘘”会比每个人同时讲话更容易。我正在尝试测量这些录音中有多少重叠。除其他事项外,这将使我能够定量比较两组这样的录音,并得出结论说,其中一套比另一套更难。

0 个答案:

没有答案
相关问题