标签: c++ cuda thrust
我正在尝试减少为我的用例计算reduce_by_key所需的内存。与值的数量(约1600万)相比,我有一个相对较少的唯一键(大约100-150)。按键example的reduce表示分配包含结果的device_vectors与输入的大小相同。是否总是有必要这样做?是否可以只分配尽可能多的内存来包含正确的输出?