GTX 295与其他用于cuda开发的nvidia卡相比

时间:2010-09-22 12:10:22

标签: cuda gpu

cuda开发的最佳nvidia视频卡是什么。单个GTX 295有2个GPU,是否可以有2个GTX 295并使用我的cuda代码中的4个GPU?
获得两张480卡而不是两张295更好吗?费米会比两张牌都好吗?

3 个答案:

答案 0 :(得分:4)

  

cuda开发的最佳nvidia视频卡是什么。

适合您的预算并满足您的需求。我知道这有点模糊,但毕竟它真的很简单;)

  

单个GTX 295有2个GPU,是否可以使用2个GTX 295并使用我的cuda代码中的4个GPU?

当然,确实如此。唯一的缺点是GTX 295上的2个GPU共享一个PCI。这是否与您相关取决于应用程序是否需要与主机进行密集通信。

  

获得两张480卡而不是两张295更好吗?费米会比两张牌都好吗?

从原始峰值性能的角度来看,GTX 295(几乎是2倍GTX 280,不考虑共享PCI)优于480.然而,与GT200相比,GF10x系列架构在很多方面都有所改进,有关详细信息,请参阅"Fermi whitepaper""Fermi Tuning Guide"

如果您计划使用双倍精度,GF10x系列具有更高的双精度支持,但很高兴知道GeForce卡上的这一功能是单精度性能的1/8(通常是关于一半)

因此,我建议除非你有很强的理由以即将过时的硬件形式获得大量GFlops(Folding @ Home?),如果你想节省~25,请获得GTX 480或470 %。

答案 1 :(得分:1)

直接回答:我会使用一个或两个GTX 480。但我认为我的推理与@bobince或@pszilard有点不同。

Backgroud:我刚刚做出了同样的决定,但我们的情况可能会大不相同。

我是一个部门的统计研究生,对gpu计算资源的资助最少,校园确实有一个费米盒连接到我可以访问的两个节点。但这些都是在Linux中 - 我喜欢 - 但我真的想用nSight对我的代码进行基准测试和调整,所以我需要Windows - 所以我决定购买一个开发盒,我用双启动,Ubuntu x64用于生产运行和Win 7一起使用VS 2010(a battle which I'm presently fighting nSight 1.5进行开发。也就是说,回到我买两台GTX 480的原因(EVGA很棒!!)而不是两台GTX 285或295。

我花了两年时间开发了几个CUDA内核。对我来说,开发中最棘手的部分是内存管理。我花了三个月的大部分时间试图挤压Cholesky分解&返回16个单精度寄存器 - 在GTX 285或295产生50%性能损失之前可以使用的最大值(从17到16个寄存器实际上是3周)。对我而言,所有Fermi架构都有两倍的寄存器意味着这三个月会让我在GTX 480上获得大约10%的改进,而不是GTX 285的50%,因此可能不值得我花时间 - 实际上比这更微妙,但你得到漂移。

如果你是CUDA的新手 - 你可能会问你 - 我会说32个寄存器是巨大的。其次,我认为Fermi架构的L1缓存可以直接转换为更快的全局内存访问 - 当然可以,但我还没有直接测量其影响。如果你不需要全局内存那么多,你可以交换更大的L1缓存,使共享内存增加三倍 - 随着矩阵大小的增加,这对我来说也是一个紧张的压力。

然后我同意@pszilard的说法,如果你需要双精度,Fermi肯定是要走的路 - 虽然我仍然先用单精度编写代码,然后调整它,然后再迁移到double。

我不认为并发内核执行对你很重要 - 它真的很酷,内核完成的延迟可以减少几个数量级 - 但你可能会首先关注一个内核,而不是并行内核。如果你想做流媒体或并行内核,那么你需要费米 - 285/295只是无法做到。

最后,使用295的缺点是你必须编写两层并行:(1)一个用于在卡片上分配块(或内核?)和(2)gpu内核本身。 如果你刚刚开始,将并行性保持在一个地方(在一张卡片上)要容易,而不是同时打两场战斗。

聚苯乙烯。如果你尚未编写内核,你可能会考虑只获得一张卡并等待六个月才能看到风景是否再次发生变化 - 尽管我不知道下一张卡何时发布。

PPS中。我非常喜欢在GTX 480上运行我的cuda内核,我在特斯拉C1070上进行了调试/设计,并立即实现了2倍的速度提升。金钱很好。

答案 2 :(得分:0)

  

是否可以使用2个GTX 295并在我的cuda代码中使用4个GPU?

是。或四,如果你完全疯了。

  

获得两张480卡而不是两张295更好吗?

有争议。作为双gpu的295具有稍微更多的原始oomph,但是作为没有双gpu开销的40nm处理卡的480可以更好地使用其资源。基准各不相同。当然,Fermi 4xx系列具有更多现代功能支持(3D,DirectX,OpenCL等)。

但是双295将具有严重的PSU和冷却要求。双480运行几乎一样热。更不用说费用了。您认为自己需要这项工作的是什么?您是否考虑过更主流的部件,例如460,通常被认为比陷入困境的470-480(GF100)部件提供更好的性价比?