将数据从hive表读入dask数据帧

时间:2017-02-08 20:46:26

标签: python pandas hive dask

我想从一个hive表中读取数据,该表有大约110毫米的行,只有2列进入一个dask数据帧。有人这样做过吗?我使用pyhs2连接到hive。

目前我正在通过限制行数将数据读入pandas数据框。

当前代码 -

import pyhs2
import pandas as pd
import dask.dataframe as dd

conn = pyhs2.connect(host='10.xx.xxx.131', port= 10000, authMechanism='PLAIN', user='userid', password = "passWoRD",database='default')
cur = conn.cursor()

cur.execute("select * from hive_table limit 100000")
res = cur.getSchema()
description = list(col['columnName'] for col in res)  ## for getting the column names of the table 


headers = [x.split(".")[1] for x in description]

df= pd.DataFrame(cur.fetchall(),columns = headers)  ## code for getting data into pandas dataframe

# df.head(n=20)

我该怎么办?任何帮助将不胜感激。

df= dd.DataFrame(cur.fetchall(),columns = headers)

0 个答案:

没有答案