Question

我正在开发一个程序，该程序需要处理大量数据，但是我想先将该数据保存在本地存储结构中，然后再将其迁移到数据库中。因此，我的问题是：保存数据（结构化的文件和（或本地存储结构）的最佳文件类型是什么，为此，我们假设它只是一个ID和一个名称），以这种方式可以对搜索和插入进行优化吗？

尽管我是一个CSV文件，但由于数据是结构化的，因此可以保存相对大量的数据（在这种情况下，我将需要约1000至100000行），但是我不确定是否有还有什么更好的了。我的想法是按名称的字母顺序对数据进行排序，因此在最坏的情况下，搜索操作将采用O（n）。至于插入操作，由于我无法在两行之间插入一行，因此我正在努力寻找一个很好的解决方案，以便按字母顺序直接在一行中插入一行，因此我必须在插入后覆盖整个行我想要的那个（我还考虑过将整个文件读入列表，然后再次写入，但是如果文件太大，则不是最佳实现。）

因此，谁能给我一些关于使用最佳文件类型的想法，哪种方法最适合插入和搜索优化？非常感谢！

（这是我的插入算法，但是会产生随机行为）

def writingOpt(firstName, lastName, birthdate, country):
    try:
        file = open("players.csv", "r+", newline='')
    except FileNotFoundError:
        print("File players.csv not found")
    else:
        with file:
            reader = csv.reader(file)
            writer = csv.writer(file)
            name = firstName + ' ' + lastName
            inserted = False
            previousRow = []
            previousPosition = 0

            for row in reader:
                if name < row[0]:
                    file.seek(previousPosition)

                    if not inserted:
                        previousRow = [name, birthdate, country]
                        inserted = True

                    writer.writerow(previousRow)
                    previousRow = row

                previousPosition += len(','.join(row))

Answer 1

我建议您将csv数据存储在pandas数据框中，然后按字母顺序对其进行排序，然后再保存数据框内容。

要处理大量数据，请参阅文档：pandas.read_csv()

以下是代码示例：

# Instanciate your pandas dataframe reading new values  (for 1000 to 100 000 lines you shouldn't encounter any issue)
df = pd.read_csv('players.csv', low_memory=True, sep=';', ...)
# Sort on the column
df.sort('name')
# Then write your sorted data to a csv file :)
df.to_csv('players_sorted.csv', index=False, header=False, sep=';', ...)

希望有帮助！

Answer 2

重新实现数据库的想法对学习有好处，但对生产代码却很不利。

数据库（尤其是关系型数据库）在进行了大量优化后走了很长一段路，而且要做到这一点真的很难。

话虽如此，一些说明可能会有所帮助：

如果可能，在内存中处理数据，写回磁盘。您将遭受所有IO的困扰，但至少您没有在磁盘上进行查找。如上所述，pandas是一个很好的起点
100k很小
读取效率来自对数据进行排序和索引（现代方法中为btree +），这使得搜索O(logN)而非O(N)。但是，问题是，很难在底层使用IO，尤其是在使用CSV的情况下，“单元素”由换行符定义，因此您需要自己实现高级查找
就大多数操作系统如何对待IO而言，您不能“插入”数据，因为接口是顺序的。为了避免在插入时使用O(N)，请利用旧的技巧-在O(N)的末尾写入 new 数据，并以某种方式将旧元素标记为已删除。诀窍是能够为标记写入相同数量的字节，即每行具有布尔标志，并实现“智能”逻辑来读取。

关于插入技巧，这是一个简单的示例。假设您有按id排序的表格，数据就像

id  name    amount
1   Alice   10
2   Bob     20
3   Charlie 30

您需要更新id = 2的名称/金额。搜索是O(logN)（如果您已实施了正确的.seek，那么实际更新会怎样？如果您要写入的字节数完全相同，则可以覆盖–寻找适当的位置并进行写入。即将20更改为25完全没有问题，您只写需要的内容（不保证，但是我们跳过底层细节）。问题出在您需要将20更改为120时。在大多数情况下，您的存储抽象是连续的字节流，想象为

id,name,amount\n1,Alice,10\n2,Bob,20\n3,Charlie,30\n  # old
id,name,amount\n1,Alice,10\n2,Bob,120\n3,Charlie,30\n # new
                                    ^ everything beyond this point
                                      needs to be re-written

因此，您平均得到O(N/2)（显然，与O(N)相同）

您可以做的是：显示一个记录记录现在是否有效的“标志”：

valid   id  name    amount
Y       1   Alice   10
Y       2   Bob     20
Y       3   Charlie 30

当需要进行更新时，通过将相同字节数的标志标记为“ valid”标志来将旧行标记为“ invalid”，并在末尾写入新行：

valid   id  name    amount
Y       1   Alice   10
N       2   Bob     20
Y       3   Charlie 30
Y       2   Bob     120

该操作是O(logN)用于查找行（与之前相同），O(1)用于覆盖新标志，而O(M)用于写入新数据（查找到文件末尾不是免费的）本身，但这是一个不同的故事）。缺点–现在您需要：

实现回退的乐观搜索 –如果您通过树或二进制搜索来查找数据，则需要检查标志状态，如果数据已过时–请查找文件末尾并读入反向
随着更新的到来，未优化的“尾巴”不断增长，越来越多地将您推向O(N)复杂性（btree可以提供帮助，顺便说一句）。因此，您最终需要将数据压缩使其恢复到最佳状态–重新读取所有数据，删除过时的行，对数据进行重新排序，然后再写回磁盘。这是RDBMS中通常称为“真空”的东西。为此，您最好跟踪“重写了多少行”与“总共有多少行”之间的联系–使该比率超过某个阈值是抽空的迹象。

优化对大量数据的搜索和插入操作

2 个答案: