如何跟踪Dask群集中的传输带宽?

时间:2019-05-17 18:57:40

标签: dask

我想在Dask集群上执行一些网络基准测试。获取有关最近转移的详细信息的最佳方法是什么?

1 个答案:

答案 0 :(得分:0)

仪表板

许多人为此使用Dask's dashboard并注意任务流图中红色条的存在。

get_task_stream

但是,如果您要进行基准测试,那么在计算过程中查看实时图的想法可能并不是您想要的。您可以使用dask.distributed.get_task_stream上下文管理器来获得相同的信息。

>>> from dask.distributed import get_task_stream
>>> with get_task_stream() as ts:
...     x.compute()
>>> ts.data
[...]

这将包括有关计算和数据传输的信息,因此您必须对它们进行一些筛选。

transfer_logs

此外,截至撰写本文时,Dask工作人员在Worker.incoming_transfer_logWorker.outgoing_transfer_log属性中维护每次传输的日志。您可以使用Client.run方法来获取这些。

>>> client.run(lambda dask_worker: dask_worker.incoming_transfer_log)
{'tcp://192.168.1.191:50637': deque([]),
 'tcp://192.168.1.191:50638': deque([]),
 'tcp://192.168.1.191:50640': deque([{'start': 1558119113.3489196,
         'stop': 1558119113.4012725,
         'middle': 1558119113.375096,
         'duration': 0.0523529052734375,
         'keys': {"('dataframe-sum-chunk-5b219ece79c8315870694c0e17df68ee', 0, 27, 0)": 463941,
          "('dataframe-sum-chunk-5b219ece79c8315870694c0e17df68ee', 0, 23, 0)": 464477,
          "('dataframe-sum-chunk-5b219ece79c8315870694c0e17df68ee', 0, 7, 0)": 463708,
          "('dataframe-sum-chunk-5b219ece79c8315870694c0e17df68ee', 0, 15, 0)": 464091,
          "('dataframe-sum-chunk-5b219ece79c8315870694c0e17df68ee', 0, 19, 0)": 464826,
          "('dataframe-sum-chunk-5b219ece79c8315870694c0e17df68ee', 0, 3, 0)": 463847,
          "('dataframe-sum-chunk-5b219ece79c8315870694c0e17df68ee', 0, 11, 0)": 464200},
         'total': 3249090,
         'bandwidth': 62061312.22384144,
         'who': 'tcp://192.168.1.191:50642'},
        {'start': 1558119113.3484848,
         'stop': 1558119113.4085395,
         'middle': 1558119113.3785121,
         'duration': 0.060054779052734375,
         'keys': {"('dataframe-sum-chunk-5b219ece79c8315870694c0e17df68ee', 0, 12, 0)": 463485,
          "('dataframe-sum-chunk-5b219ece79c8315870694c0e17df68ee', 0, 24, 0)": 464183,
          "('dataframe-sum-chunk-5b219ece79c8315870694c0e17df68ee', 0, 16, 0)": 464061,
          "('dataframe-sum-chunk-5b219ece79c8315870694c0e17df68ee', 0, 4, 0)": 464161,
          "('dataframe-sum-chunk-5b219ece79c8315870694c0e17df68ee', 0, 8, 0)": 463925,
          "('dataframe-sum-chunk-5b219ece79c8315870694c0e17df68ee', 0, 0, 0)": 464214,
          "('dataframe-sum-chunk-5b219ece79c8315870694c0e17df68ee', 0, 20, 0)": 464070},
         'total': 3248099,
         'bandwidth': 54085604.03074382,
         'who': 'tcp://192.168.1.191:50637'},

这是由工作人员键入的,并给出每次传输的开始/停止/总字节数/发送者/收件人。尽管此解决方案使用内部API,所以可以随时更改。