不同书写系统之间的音译

时间:2013-12-12 18:49:15

标签: regex perl unicode linguistics transliteration

我需要学习如何将文本的音译改为另一种书写系统。显然最好的方法是以某种方式涉及正则表达式和perl,可能来自命令行?我之前在Notepad ++和TextWrangler中使用过正则表达式,所以我已经了解了一些基础知识。如果在Ruby或其他方面有一些非常好(并且相对容易和可定制)的方法,我也可以开始学习它。在Uralic语言学中,我一直需要在我的领域中音译语言样本文本,其中使用了许多不同的音译系统变体。所以值得投入一些时间。

所以我现在拥有的材料包括每行一行的句子。有些行有其他数据,比如数字,但这些数据应保持不变。我想保留标点符号,这只是将一组unicode字母字符转换为另一组。我搜索了网站,但很多是关于从ascii转换为unicode等等 - 这不是问题所在。

所以原始文本是这样的(广泛的Finno-Ugric转录):

mödis ivan velöććyny pećoraö ščötövödnej kurs vylö.

我需要这样的形式:

мӧдiс иван велӧччыны печораӧ щӧтӧвӧднэй курс вылӧ.

这持续了几千行。

使用的字符之间有明确的对应关系,但它有时很复杂并且涉及先处理一些有向图和辅音+元音组合等。正如您从示例中看到的,在某些情况下,拉丁语对应于西里尔语,但在有些职位可以保持为我。不同的文本有不同的解决方案,所以我需要在每种情况下调整规则。我知道我需要以非常特定的顺序运行一系列正则表达式才能使它工作。这个命令我会弄明白自己,但我需要知道我提供了哪些工具以及如何实现这些规则。

我经常遇到这样的情况:我想要原始句子并用音标将音译分开,这样这些行就会有这样的形式:

mödis ivan velöććyny pećoraö ščötövödnej kurs vylö.    мӧдiс иван 
велӧччыны печораӧ щӧтӧвӧдней курс вылӧ.

当然还有很多问题,但在学习了这些基础知识后,我想我可以独立前进。学习这对我很有帮助。提前谢谢!

尼科

0 个答案:

没有答案
相关问题