Tensorflow与XLA服务

时间:2019-02-13 13:28:56

标签: tensorflow-serving tensorflow-xla

在使用Tensorflow Serving进行推理时是否可以启用XLA编译?

(我希望这只是未记录的配置问题,我可以避免实现自定义Servable)。

1 个答案:

答案 0 :(得分:1)

@njs,

实际上不建议在推理过程中进行编译。推理时进行编译将导致HBM内存不足,从而导致芯片无法满足请求。

推荐的解决方案是:

  1. 使用批处理功能和允许的批处理大小来限制运行时的编译次数。

  2. 在模型加载时(而不是推断时)为这些允许的批次大小进行所有编译。这样,您的模型就可以在加载后立即进行推理,而无需在推理时进行高延迟的编译。

相关问题