我正在寻找一个免费或开源的押韵数据库。
我找到了CMU发音“数据库”及其系列应用,但我无法理解它们或弄清楚数据的来源。
我需要一个包含单词及其音素的简单文本文件。
这里有人知道我在哪里找到一个或我从哪里开始从CMU文件中获取这样的列表?
答案 0 :(得分:5)
cmudict是一个文本文件,它的格式非常简单。首先,列出这个词。然后,有两个空格。两个空格之后的一切都是发音。如果一个单词可能有两种不同的说话方式,你会看到两个条目,如
word
word(1)
在文件的开头,他们列出了符号和标点符号。符号之后是所述符号名称的英文拼写,它们之间没有空格。然后是两个空间分隔符和arpabet代码。由于你只是在寻找押韵,你不需要对符号部分做任何特殊的事情,因为你永远不会在寻找...ELLIPSIS
有关ARPAbet代码如何映射到IPA的信息列在维基百科http://en.wikipedia.org/wiki/Arpabet中,每个映射都显示示例单词。很容易看出这两者如何相互关联,如果您熟悉IPA,这可能有助于您了解如何阅读ARPAbet代码。
基本上,如果你已经找到了cmudict,那么你已经得到了你所要求的:一个单词及其发音的数据库。要查找押韵的单词,您必须将平面文件解析为表并运行查询以查找以相同ARPAbet代码结尾的单词。
一旦您将数据输入您选择的任何类型的数据库,您就可以使用该数据库查找arpabet代码之间的相关性。你可以找到押韵,灵犀,共鸣和其他助记设备。它会像
我感到无聊并写了一个Node.js模块,其中涵盖了上面列出的“Part:Stuff”。如果您已在计算机上安装了Node.js,则可以通过运行npm install cmudict-to-sqlite
来获取该模块。有关自述文件,请参阅https://npmjs.org/package/cmudict-to-sqlite或仅查看模块中的文档。
答案 1 :(得分:2)
行。假设您要使用CMU Pronouncing Dictionary数据(示例文件:cmudict-0.7b)来构建与" LOVE"押韵的所有单词的列表。
以下是如何做到的:
首先,你需要学习" LOVE"的发音。你会在字典中找到这一行,其中" LOVE"和" L AH1 V"由两个空格分隔:
LOVE L AH1 V
这就是说LOVE
这个词的发音类似于L AH1 V
。
然后,找到有主要压力的元音音素。换句话说,寻找数字" 1"在那个发音。直接位于1左侧的文本是具有主要压力(AH
)的元音。那段文字,以及它右侧的一切都是你的韵律音符" (因缺乏更好的术语)。所以LOVE的押韵音素是AH1 V
。
我们已经完成了一半!现在我们只需要找到其发音以AH1 V
结尾的其他单词。如果您在Notepad ++中进行游戏,请使用"正则表达式"的搜索模式尝试查找模式AH1 V$
的当前所有文档。这将匹配如下行:
Line 392: ABOVE AH0 B AH1 V
Line 10266: BELOVE B IH0 L AH1 V
Line 30204: DENEUVE D IH0 N AH1 V
Line 30205: DENEUVE(1) D IY0 N AH1 V
Line 34064: DOVE D AH1 V
Line 48177: GLOVE G L AH1 V
Line 49053: GOV G AH1 V
... etc
押韵喔!
有很多方法可以实现这一点,以及大量的角落案例,但这大致是许多电子押韵词典在寻找完美押韵时所采取的方法。
显然,如果你每次有人想要押韵时只是扫描字典,性能就会成为一个问题。如果这是一个问题,您可能会尝试以不同方式存储或索引数据。
虽然它不是最有效的磁盘空间,但我已经很好地将这些内容存储在带有索引列的SQL表中。
对于一个简单的概念示例,您可以计算"押韵音素"在字典中的所有单词,然后将它们插入到" Rhymes"列为{WordText,RhymePhonemes}的表。例如,您可能会看到以下记录:
{"ABOVE", "AH1 V"}
{"DOVE", "AH1 V"}
{"OUTLIVE", "IH1 V"}
{"GRADUATE", "AE1 JH AH0 W AH0 T"}
{"GRADUATE", "AE1 JH AH0 W EY2 T"}
...等
然后,要查找押韵,您可以发出如下查询:
SELECT OTHER.WordText
FROM Rhymes INPUT
INNER JOIN Rhymes OTHER ON OTHER.RhymePhonemes = INPUT.RhymePhonemes
WHERE INPUT.WordText = 'love' AND
OTHER.WordText <> INPUT.WordText
ORDER BY OTHER.WordText
如果您计划打印一个字典,将所有类似发音的单词组合在一起,这也会派上用场。
当然,还有很多其他方法来存储/搜索不同权衡的数据,但希望这可以让你开始。
我还有一些运气将原始发音存储在数据库中的各种各样的&#34; full&#34;格式(发音的正向和反向弦,带有应力标记和没有应力标记等)但不是&#34;切断&#34;像韵 - 音素列一样特定的部分。
再一次,原来的解释是&#34;爱&#34;绝对会让你进入押韵的球场。但是,在此过程中,您可能会遇到其他问题需要考虑。这是一个单挑:
(1)
,(2)
等文字,如GRADUATE(2)
中的单词一样。如果有人想要这些单词的押韵,你必须决定显示所有匹配发音的押韵,或让用户选择他们真正意义上的发音。ACCREDIT AH0 K R EH2 D AH0 T
和AIKIN EY0 K IH0 N
。在这种情况下,我选择下一个最佳压力(例如,如果1不存在则选择2,3,4等)。如果他们都是0,那么我没有任何好的建议。答案 2 :(得分:0)
我现在正在使用Plate建议的一般方法并对其进行扩展,正在积极地进行此类工作。 Here's my source code.希望对您有所帮助!
答案 3 :(得分:-1)
如果您只使用一个小的演示子集,您可以随时使用http://www.rhymezone.com/并搜索单词然后将其押韵匹配放入文本文件中。如果你想要一个完整的单词数据库。您可以将字典连接到zombieJS UI自动化,然后屏幕抓取单词并将它们放入您自己的数据库中。这将允许您创建自己的押韵数据库。虽然说实话,这对你的原始请求是一项承诺