Question

我正在尝试使用请求库在python中使用日语字符和短语点击谷歌tt网址http://translate.google.com/translate_tts。

以下是一个例子：

http://translate.google.com/translate_tts?tl=ja&q =ひとつ

但是，当我尝试使用python请求库下载端点返回的mp3时，生成的mp3为空。我已经验证我可以在使用非unicode字符（通过romanji）的请求中点击此URL并得到正确的回复。

以下是我用来发出请求的代码的一部分

langs = {'japanese': 'ja',
         'english': 'en'}

def get_sound_file_for_text(text, download=False, lang='japanese'):

    r = StringIO()
    glang = langs[lang]
    text = text.replace('*', '')
    text = text.replace('/', '')
    text = text.replace('x', '')
    url = 'http://translate.google.com/translate_tts'
    if download:
        result = requests.get(url, params={'tl': glang, 'q': text})
        r.write(result.content)
        r.seek(0)
        return r
    else:
        return url

此外，如果我在此代码段中打印text或url，则会在我的控制台中正确呈现假名/汉字。

修改

如果我尝试对unicode进行编码并引用它，我仍会得到相同的响应。

# -*- coding: utf-8 -*-

from StringIO import StringIO
import urllib
import requests

__author__ = 'jacob'

langs = {'japanese': 'ja',
         'english': 'en'}

def get_sound_file_for_text(text, download=False, lang='japanese'):

    r = StringIO()
    glang = langs[lang]
    text = text.replace('*', '')
    text = text.replace('/', '')
    text = text.replace('x', '')
    text = urllib.quote(text.encode('utf-8'))
    url = 'http://translate.google.com/translate_tts?tl=%(glang)s&q=%(text)s' % locals()
    print url
    if download:
        result = requests.get(url)
        r.write(result.content)
        r.seek(0)
        return r
    else:
        return url

返回此内容：

http://translate.google.com/translate_tts?tl=ja&q=%E3%81%B2%E3%81%A8%E3%81%A4

这似乎应该有效，但不是。

编辑2：

如果我尝试使用urlllb / urllib2，则会收到403错误。

编辑3：

因此，似乎此问题/行为仅限于此端点。如果我尝试以下URL，则使用不同的端点。

http://www.kanjidamage.com/kanji/13-un-%E4%B8%8D

从请求和我的浏览器中，我得到相同的响应（它们匹配）。如果我甚至尝试ascii字符到服务器，就像这个url。

http://translate.google.com/translate_tts?tl=ja&q=sayonara

我也得到相同的回复（他们再次匹配）。但是如果我尝试将unicode字符发送到此URL，我会在浏览器上获得正确的音频文件，但不是来自发送音频文件但没有声音的请求。

http://translate.google.com/translate_tts?tl=ja&q=%E3%81%B2%E3%81%A8%E3%81%A4

因此，似乎此行为仅限于Google TTL网址？

Answer 1

用户代理可能是问题的一部分，但是，在这种情况下不是。 translate_tts服务拒绝（使用HTTP 403）一些用户代理，例如以Python，curl，wget以及其他可能开头的任何内容。这就是您在使用urllib2.urlopen()时看到HTTP 403响应的原因 - 它将用户代理设置为Python-urllib/2.7（版本可能会有所不同）。

您发现将用户代理设置为Mozilla/5.0可以解决问题，但这可能有效，因为API可能会假定基于用户代理的特定编码。

您实际应该做的是使用ie字段明确指定URL字符编码。您的网址请求应如下所示：

http://translate.google.com/translate_tts?ie=UTF-8&tl=ja&q=%E3%81%B2%E3%81%A8%E3%81%A4

请注意显式设置网址字符编码的ie=UTF-8。规范确实声明UTF-8是默认值，但似乎并不完全正确，因此您应始终在请求中设置ie。

API支持汉字，平假名和片假名（可能还有其他？）。这些URL都产生＆＃34; nihongo＆＃34;，虽然为平假名输入产生的音频与其他输入的变化略有不同。

import requests

one = u'\u3072\u3068\u3064'
kanji = u'\u65e5\u672c\u8a9e'
hiragana = u'\u306b\u307b\u3093\u3054'
katakana = u'\u30cb\u30db\u30f3\u30b4'
url = 'http://translate.google.com/translate_tts'

for text in one, kanji, hiragana, katakana:
    r = requests.get(url, params={'ie': 'UTF-8', 'tl': 'ja', 'q': text})
    print u"{} -> {}".format(text, r.url)
    open(u'/tmp/{}.mp3'.format(text), 'wb').write(r.content)

Answer 2

之前我用这个小方法来帮助我使用UTF-8编码。我遇到了将cyrllic和CJK语言打印到csvs的问题，这就是诀窍。

def assist(unicode_string):
    utf8 = unicode_string.encode('utf-8')
    read = utf8.decode('string_escape')

    return read   ## UTF-8 encoded string

另外，请确保在.py。

的开头有这两行

#!/usr/bin/python
# -*- coding: utf-8 -*-

第一行只是一个很好的python习惯，它指定在.py上使用哪个编译器（实际上只有在你的机器上加载了多个版本的python时才有用）。第二行指定python文件的编码。对here进行了稍长的回答。

Answer 3

将用户代理设置为Mozilla / 5.0可修复此问题。

from StringIO import StringIO
import urllib
import requests

__author__ = 'jacob'

langs = {'japanese': 'ja',
         'english': 'en'}

def get_sound_file_for_text(text, download=False, lang='japanese'):

    r = StringIO()
    glang = langs[lang]
    text = text.replace('*', '')
    text = text.replace('/', '')
    text = text.replace('x', '')
    url = 'http://translate.google.com/translate_tts'
    if download:
        result = requests.get(url, params={'tl': glang, 'q': text}, headers={'User-Agent': 'Mozilla/5.0'})
        r.write(result.content)
        r.seek(0)
        return r
    else:
        return url

Python使用Unicode参数请求URL

3 个答案: