Python url不下载文件

时间:2017-07-21 19:52:36

标签: python urllib2

我正在开发一个定量交易应用程序,从雅虎财经中获取财务信息。代码如下。

from datetime import datetime
from calendar import timegm
import time

def constructYFURL(ticker, start_date,end_date,freq):
    start_date = str(timegm(time.strptime(start_date, "%Y-%m-%d")))
    end_date = str(timegm(time.strptime(end_date, "%Y-%m-%d")))
    if freq == 'w':
        interval = '1wk'
    else:
        interval = '1mo'
    if freq == 'd':
        interval = '1d'
    yFURL = "https://query1.finance.yahoo.com/v7/finance/download/"+ticker+"?      period1="+start_date+"&period2="+end_date+"&interval="+interval+"&events=history&crumb=jfsRogYbS3."
    return yFURL


def download(filePath, urlOfFile):
    import urllib2

    webRequest = urllib2.Request(urlOfFile)

    try:
        page = urllib2.urlopen(webRequest)
        content = page.read()

        with open(filePath, 'wb') as output:
            output.write(bytearray(content))

    except urllib2.HTTPError, e:
        print e.fp.read()

下面我通过选择我想要股票报价的股票代码和时间段来测试代码。

from download import constructYFURL, download
from datetime import datetime
from time import time

ticker = "NFLX"

start_date = "2016-07-18"

end_date = "2017-08-18"

freq = "d"

yFURL = constructYFURL(ticker, start_date,end_date,freq)

print yFURL

localFilePath = "/Users/Gebruiker/pytest/nflx.csv"

download(localFilePath,yFURL)

这是生成的网址:

https://query1.finance.yahoo.com/v7/finance/download/NFLX?period1=1468800000&period2=1503014400&interval=1d&events=history&crumb=eVjSxKy2scr

错误如下:

{
 "finance": {
    "error": {
        "code": "Unauthorized",
        "description": "Invalid cookie"
    }
  }
}

Process finished with exit code 0

使用我的浏览器点击链接时会下载文件,但是仍然会给我错误,我找不到我指定保存的存储库中的csv文件。有人可以帮帮我吗?我假设通过使用urllib2 python库中处理cookie的处理程序我可以解决这个问题,但我不知道如何。

1 个答案:

答案 0 :(得分:1)

您可能需要登录才能访问该网址。

在这种情况下,您需要在请求的标题中包含Cookie,这些Cookie是在您登录时为您生成的。它可以在您的浏览器中运行,因为您的浏览器会为您处理它。

一种方法是使用requests模块及其Session对象,该对象自动管理cookie。创建一个Session,从中登录,然后您就可以使用它来访问您的网址。