Question

我想从维基百科标记中解析出IPAc模板的内容，例如：

'''Konjac''' ({{IPAc-en|lang|pron|ˈ|k|oʊ|n|j|æ|k}})

Konjac（英语发音：/koʊnjæk/）

'''Konjac''' ({{IPAc-en|lang|pron|ˈ|k|oʊ|n|j|æ|k}} {{respell|KOHN|yak}})

Konjac（英文发音：/koʊnjæk/ kohn-yak）

''Konjac'' is pronounced {{IPAc-en|ˈ|k|oʊ|n|j|æ|k}} in English.

Konjac发音为/koʊnjæk/ in English。

我需要提取哪些正则表达式才能提取此内容|k|oʊ|n|j|æ|k我不知道如何匹配可能存在但可能不存在的内容（lang|pron）

谢谢

Answer 1

我会尝试一下：

IPAc-en(?:\w|[|])+.(?:[|]|([^}]))+(?:}}\s*{{respell(?:[|]|([^}]))+)?

它应该匹配主要发音以及可选的“重复”事物。

两个发音的匹配将在捕获组中，因此您应该能够从java访问它。

说明：