使用此日期格式反向排序列表的最佳方法是什么?

时间:2017-10-18 17:00:44

标签: python sorting

我有一个包含数百万条记录的数据库:

[("Something", "10/08/2017", "something else", "something more", "etc"),
("Something", "16/08/2017", "something else", "something more", "etc"),
("Something", "14/07/2017", "something else", "something more", "etc"),
("Something", "14/08/2017", "something else", "something more", "etc"),
("Something", "15/07/2017", "something else", "something more", "etc"),
("Something", "14/08/2017", "something else", "something more", "etc")]

那个DD / MM / YYYY我需要它按第二个值反转排序。

第一次尝试:
我尝试了这个,但它只在白天而不是按月分类。

def sort_by(my_list, index):
    my_list.sort(key=lambda x: x[index], reverse=True)
    return my_list

结果的图片(忽略我的GUI中的颜色):https://image.prntscr.com/image/ZeIgzxNaQ2OD4VX0Yztnhw.png
正如你所看到的那样,它只能在白天进行排序,而不是按月进行排序,因此每次变化时它都会从一个月跳到另一个月。这太乱了。

第二次尝试:

def sort_by_date(my_list, index):
    for record, data in enumerate(my_list):
        split = data[index].split("/")
        altered_record = my_list[record]
        altered_record[index] = split[2]+"-"+split[1]+"-"+split[0]
    my_list.sort(key=lambda x: x[index], reverse=True)
    return my_list

到那时我意识到它不会起作用,因为元组不允许项目分配,所以我必须将整个数据转换为列表而不是元组列表。即使我这样做,我怀疑它是否有效并且需要花费大量时间来完成这项工作。

所以我的问题是:
你如何按DD / MM / YYYY对元组列表进行排序?

根据来自@ juanpa.arrivillaga的评论,所需的输出是按日期排序的反向排序列表:

31/12/2017
30/12/2017
29/12/2017
28/12/2017
(And the next days of that month)
30/11/2017
29/11/2017
28/11/2017
27/11/2017
(And so go on)

修改:如果可能,我希望将日期保留为字符串,而不是更改日期类型。

2 个答案:

答案 0 :(得分:6)

您可以使用Python的datetime模块:

from pprint import pprint
from datetime import datetime

database = [("Something", "10/08/2017", "something else", "something more", "etc"),
            ("Something", "16/08/2017", "something else", "something more", "etc"),
            ("Something", "14/07/2017", "something else", "something more", "etc"),
            ("Something", "14/08/2017", "something else", "something more", "etc"),
            ("Something", "15/07/2017", "something else", "something more", "etc"),
            ("Something", "14/08/2017", "something else", "something more", "etc")]

pprint(sorted(database, key=lambda x: datetime.strptime(x[1], "%d/%m/%Y"), reverse=True))

哪个有输出:

[('Something', '16/08/2017', 'something else', 'something more', 'etc'),
 ('Something', '14/08/2017', 'something else', 'something more', 'etc'),
 ('Something', '14/08/2017', 'something else', 'something more', 'etc'),
 ('Something', '10/08/2017', 'something else', 'something more', 'etc'),
 ('Something', '15/07/2017', 'something else', 'something more', 'etc'),
 ('Something', '14/07/2017', 'something else', 'something more', 'etc')]

答案 1 :(得分:1)

假设您在内存中拥有1M记录的整个数据库,最佳解决方案是:

sorted(my_list, key=lambda rec: int(rec[1][-4:] + rec[1][3:5] + rec[1][:2]), reverse=True)

它非常接近您的第二个解决方案,除了您根本不修改列表,而只是按需提取每个记录的密钥。并且密钥将具有原始20170811字符串的整数类型的'11/08/2017'形式。

并且它不会创建日期时间对象,因为当您仅需要进行排序时,解析可能过于昂贵。

它比datetime对象和字符串更快。因为整数比较是最快的。

它在排序过程中消耗的内存最少,因为整数是存储密钥的最紧凑方式(相对于字符串和日期时间)。

通过存储自某个基准日期以来的天数(比较:20170811(20'170'811)与736551,它可以更加优化(没有真正的好处,但有趣)自1970年1月1日起的(736'551)天或自1970年1月1日起的17389(17'389)。与日期时间解析相比,计算成本并没有那么大。

sorted(my_list, key=lambda rec: int(rec[1][-4:])*32*12 + int(rec[1][3:5])*32 + int(rec[1][:2]), reverse=True)

在这里,我们假设每个月总是32天,每年总是32 * 12 = 384天。因为我们不关心实际的天数,而只关心它们在数值轴上的相对位置。这很容易涵盖28-29-30-31天的病例。

PS:但是,如果你真的有一个包含1M记录的数据库,我会建议你用适当的SQL在数据库服务器中对它进行排序 - 更快,更优化。但这是另一个重要的话题,取决于数据库的组织方式。

相关问题