从Access数据库中读取大量数据

时间:2016-02-11 15:11:38

标签: python ms-access pyodbc data-extraction

寻找有关如何解决我的具体问题的建议(MemoryError,因为在一个变量中存储了太多信息),以及关于我可以解决问题的不同方式的一般建议。

我有一个Access 1997数据库,我试图从中提取数据。由于我安装了Access 2013,因此无法在不下载Access 2003的情况下打开数据库。没问题 - 我可以使用pyodbc和Jet来使用python进行提取。

我与数据库建立了pyodbc游标连接,并将此函数写入所有表名的第一个查询,然后是与这些表关联的所有列:

def get_schema(cursor):
    """
    :param cursor: Cursor object to database
    :return: Dictionary with table name as key and list of columns as value
    """
    db_schema = dict()
    tbls = cursor.tables().fetchall()

    for tbl in tbls:
        if tbl not in db_schema:
            db_schema[tbl] = list()
        column_names = list()
        for col in cursor.columns(table=tbl):
            column_names.append(col[3])
        db_schema[tbl].append(tuple(column_names))

    return db_schema

我得到的变量看起来像这样:

{'Table 1': [('Column 1-1', 'Column 1-2', 'Column 1-3')],
 'Table 2': [('Column 2-1', 'Column 2-2')]}

然后我将该模式变量传递给另一个函数,以将每个表中的数据转储到元组列表中:

def get_table_data(cursor, schema):

    for tbl, cols in schema.items():

        sql = "SELECT * from %s" % tbl  # Dump data
        cursor.execute(sql)  
        col_data = cursor.fetchall()

        for row in col_data:
            cols.append(row)

    return schema

但是,当我尝试读取返回的变量时,我得到以下内容:

>>> schema2 = get_table_data(cursor, schema)
>>> schema2
Traceback (most recent call last):
  File "<input>", line 1, in <module>
MemoryError

TL; DR:当数据太大而无法读取时,有没有办法在另一个变量中开始存储数据?还是一种增加内存分配的方法?最后,我想将其转储到csv文件或类似内容中 - 是否有更直接的方法可以解决这个问题?

1 个答案:

答案 0 :(得分:4)

您可能希望能够将数据流出数据库,而不是一次性加载数据。这样你就可以直接将数据写回来,而不会过多地将数据一次加载到内存中。

最好的方法是使用generators

因此,不是像现在那样修改架构变量,而是在从数据库表中读取它们时产生各种行:

def get_single_table_data(cursor, tbl):
    '''
    Generator to get all data from one table.
    Does this one row at a time, so we don't load
    too much data in at once
    '''
    sql = "SELECT * from %s" % tbl
    cursor.execute(sql)
    while True:
        row = cursor.fetchone()
        if row is None:
            break
        yield row

def print_all_table_data(cursor, schema):
    for tbl, cols in schema.items():
        print(cols)
        rows = get_single_table_data(cursor, tbl)
        for row in rows:
            print(row)

这显然只是一个例子,但它(理论上)会打印出所有表格中的每一行 - 一次只能在内存中存储多行数据。