cuda - CUDA，找出每个流多处理器安排了多少块

考虑到计划在特定的流式多处理器上运行块的方式，这些块会运行完成，并且在任何给定时间，计划到单个流式多处理器的块数最大。由于寄存器约束，共享内存约束或计算能力级别。

由于CUDA选择了一定数量的块来同时执行，我在内部收集它至少必须有一些API或公式让CUDA在运行时确定这一点。但是，此API是否公开可用，是否在某处记录？

询问的原因是我们需要一个大小为blocks_per_sm * sm的缓冲区，并且由于内存限制，我们理想地希望保持这个缓冲区尽可能小，特别是如果由于注册表限制我们可以运行比我们想要保存该空间的计算能力指定的最大块少得多的块。