SQL中字符串比较与int连接的性能

时间:2012-09-14 19:54:17

标签: sql performance join foreign-keys varchar

在int列上搜索表比在字符串列(比如varchar)上搜索要快。

但是,如果我有一个带有Color列的Shirt表,那么创建一个Color表是否更高效,该表的主键是Shirt表上的外键?如果在搜索绿色衬衫时,衬衫的“颜色”列中的值是否为int而不是字符串值(例如“绿色”),那么联接会否定性能优势吗?

5 个答案:

答案 0 :(得分:17)

如果我理解正确,你会问这两个查询中哪一个会更快:

SELECT * FROM shirt where color = 'Green'

VS

SELECT shirt.* FROM shirt s INNER JOIN colors c 
       ON s.colorid = c.colorid 
       WHERE c.color = 'Green'

这有点依赖于数据库(好吧......可能很多,取决于它是否正确优化,大多数情况下都是如此),但颜色表中的查找应该可以忽略不计,然后剩余的执行可以使用整数查找值,应该更快。大部分处理最终将等同于SELECT * from shirt WHERE colorid=N。但是,我怀疑你不会注意速度上的差异,除非桌子非常大。决定应该基于哪种设计最有意义(可能是规范化的设计)。

答案 1 :(得分:9)

除了性能之外,创建单独的Color表可以使您的设计更加规范化。因此,在将来的某一天,当有人决定“深蓝色”现在应该被称为“深蓝色”时,您将更新Color表中的1行,而不是更新Shirt表中的许多行。

答案 2 :(得分:6)

与正在执行的其他操作相比,两种方法之间不太可能存在太多性能差异。如果您只有少量颜色(最多几百个),则颜色表适合大多数数据库中的单个页面。关于颜色的索引会使查找速度非常快,并且不会产生任何I / O活动(在第一次加载页面之后)。

字符串比较取决于数据库,但它确实涉及一个函数并从页面读取数据。所以,它不是免费的。当然,不同的数据库可能对字符串函数具有不同的性能特征。

应该存储的位置应该是您的应用程序的功能。假设您有一个应用程序,其中颜色将呈现给用户。有一天,您可能希望以西班牙语,斯瓦希里语或中文显示颜色的名称。如果是这样,拥有一个单独的表使这种国际化更容易。更平凡的是,您可能希望阻止输入“Grene”,如果是这样,使用这样的表可以更容易地选择列表。

另一方面,如果表现是你唯一关注的问题,那就不会有所不同。在其他情况下,查找表实际上可能比非规范化表更快。当字符串很长时会发生这种情况,从而增加了较大表中每条记录的长度。较大的表意味着更多的页面,这需要更长的时间才能加载到内存中。

答案 3 :(得分:4)

DBMS有机会优化数量有限的指标。如何告诉sQL这样做,我不知道。它可能会弄明白。

如果报告性能是严重问题,则启动数据仓库。

正如Joe指出的那样,您希望数据库尽可能标准化。如果您有一个单独的报告功能,可能会导致性能问题,您应该运行一个定期转换(或实施规则以实时构建)第二个只读模式。第一个是OLTP,第二个是OLAP('数据仓库');如果你要认真对待你的数据,这些都是重要的概念。

如果重要的是要知道,请测试它。

如果没有人给你答案,最好的方法就是自己测试。

(1)制作2个数据库

(2)每个都有2个表的测试

(3)在数据库上只加入字符串'color',并将其用于FK;另一个由int('colorID')

连接

每个填充200万个虚拟行。对每个查询运行多个查询,计时第一次运行和平均运行。

使用开发计算机上的实例将网络从图片中取出。

您还应该在每种类型的测试之前启动和停止实例;故意将内存留在内存中,因此SQL可以更快地提供内存,但可能会使测试结果偏离实际操作 - 它可能不在内存中或缓存中。

答案 4 :(得分:1)

这实际上取决于查询优化器。您的颜色表将非常小,因此可能基于数据库统计信息和查询计划,它可能会完全加载到内存中,因此您不仅最终会否定连接的性能成本,实际上可能会更快。这显然取决于您正在使用的dbms,但是有几个dbms可以采用特殊方式处理表的提示。

Color表的另一个+1是,如果您需要更改颜色名称,则只需要更新1次,而不是每次更改字符串值。

相关问题