是否有一个模块可以在Python 3中将中文字符转换为日文(汉字)或韩文(hanja)?

时间:2013-05-06 05:46:51

标签: python cjk

我想在Python 3.3中切换CJK字符。也就是说,我需要从价格(中国)和価(日语)得到价格(韩国)。有这样的外部模块吗?

2 个答案:

答案 0 :(得分:2)

Unihan信息

Unihan page about 價提供了一个简化的变体(相对于traditionnal),但似乎没有提供日语/韩语。所以......

CJKlib

我建议您查看CJKlib,其中有一个名为Variants的功能部分说明:

  

Z变体形式,只有字体不同

[更新] Z-variant

您的样本字符价(U + 50F9)没有z变体。但是価 (U+4FA1) has a kZVariant到U + 50F9价。这看起来很奇怪。

进一步阅读

答案 1 :(得分:1)

Here是一个相对完整的转换表。您可以将其转储到json以供以后使用:

import requests
from bs4 import BeautifulSoup as BS
import json


def gen(soup):
    for tr in soup.select('tr'):
        tds = tr.select('td.tdR4')
        if len(tds) == 6:
            yield tds[2].string, tds[3].string


uri = 'http://www.kishugiken.co.jp/cn/code10d.html'
soup = BS(requests.get(uri).content, 'html5lib')

d = {}
for hanzi, kanji in gen(soup):
    a = d.get(hanzi, [])
    a.append(kanji)
    d[hanzi] = a

print(json.dumps(d, indent=4))

代码及其输出位于this gist