sqlalchemy,将ID列表转换为对象列表

时间:2009-01-14 20:08:32

标签: python sqlalchemy

我想要检索的ID序列。这很简单:

session.query(Record).filter(Record.id.in_(seq)).all()

有更好的方法吗?

5 个答案:

答案 0 :(得分:17)

您的代码绝对正常。

IN就像一群X=YOR一起加入,在当代数据库中相当快。

但是,如果您的ID列表很长,您可以通过传递返回ID列表的子查询来提高查询效率。

答案 1 :(得分:6)

代码完全正常。然而,有人要求我在两个做大IN的方法和使用get()用于个人ID之间进行一些对冲系统。

如果有人真的试图避免使用SELECT,那么最好的方法就是提前在内存中设置所需的对象。比如,你正在研究一个大的元素表。将工作分解为块,例如,按主键或日期范围排序整套工作,然后将该块的所有内容本地加载到缓存中:

 all_ids = [<huge list of ids>]

 all_ids.sort()
 while all_ids:
     chunk = all_ids[0:1000]

     # bonus exercise!  Throw each chunk into a multiprocessing.pool()!
     all_ids = all_ids[1000:]

     my_cache = dict(
           Session.query(Record.id, Record).filter(
                 Record.id.between(chunk[0], chunk[-1]))
     )

     for id_ in chunk:
         my_obj = my_cache[id_]
         <work on my_obj>

这是现实世界的用例。

但是为了说明一些SQLAlchemy API,我们可以创建一个函数来为我们没有的记录执行IN,并为我们所做的那些执行本地get。这是:

from sqlalchemy import inspect


def get_all(session, cls, seq):
    mapper = inspect(cls)
    lookup = set()
    for ident in seq:
        key = mapper.identity_key_from_primary_key((ident, ))
        if key in session.identity_map:
            yield session.identity_map[key]
        else:
            lookup.add(ident)
    if lookup:
        for obj in session.query(cls).filter(cls.id.in_(lookup)):
            yield obj

这是一个演示:

from sqlalchemy import Column, Integer, create_engine, String
from sqlalchemy.orm import Session
from sqlalchemy.ext.declarative import declarative_base
import random

Base = declarative_base()


class A(Base):
    __tablename__ = 'a'
    id = Column(Integer, primary_key=True)
    data = Column(String)

e = create_engine("sqlite://", echo=True)
Base.metadata.create_all(e)

ids = range(1, 50)

s = Session(e)
s.add_all([A(id=i, data='a%d' % i) for i in ids])
s.commit()
s.close()

already_loaded = s.query(A).filter(A.id.in_(random.sample(ids, 10))).all()

assert len(s.identity_map) == 10

to_load = set(random.sample(ids, 25))
all_ = list(get_all(s, A, to_load))

assert set(x.id for x in all_) == to_load

答案 2 :(得分:4)

如果您使用复合主键,则可以使用tuple_,如

from sqlalchemy import tuple_
session.query(Record).filter(tuple_(Record.id1, Record.id2).in_(seq)).all()

请注意,这在SQLite上不可用(请参阅doc)。

答案 3 :(得分:1)

我建议看看它产生的SQL。你可以打印str(查询)来查看它。

我不知道使用标准SQL的理想方法。

答案 4 :(得分:1)

还有另一种方式;如果期望有问题的对象已经加载到会话中是合理的;你在同一笔交易之前就已经访问过它们了,你可以这样做:

map(session.query(Record).get, seq)

如果这些对象已经存在,这将会快得多,因为不会有任何查询来检索这些对象;另一方面,如果加载了这些对象中的一小部分,那么它将会慢得多,因为它会导致每个缺失实例的查询,而不是所有的查询对象。

当您在达到上述步骤之前进行joinedload()查询时,这非常有用,因此您可以确定它们已经加载。一般情况下,默认情况下应该使用问题中的解决方案,并且只有当您看到一遍又一遍地查询相同的对象时才会探索此解决方案。

相关问题