有什么好的工具可以进行IO测量并发现linux上的瓶颈?

时间:2009-05-22 01:21:36

标签: linux io performance san

我正在尝试对基于SAN的基础架构上的Linux机箱上的Oracle进行一些调整。我正在寻找能够让我们为每个进程分析IO的工具(或者每个进程树会更好)。我的问题是?

  • 推荐用于此类任务的工具有哪些?
  • 我应该在基于SAN的基础架构上测量哪些其他有用的指标?

6 个答案:

答案 0 :(得分:2)

我使用了“iotop”效果很好。它通过IO使用获得每个进程的特定信息。

它就像“顶级”

http://guichaz.free.fr/iotop/

我不确定从安装了SAN的Linux机箱使用或者是否需要可以在SAN中运行的工具是否合理。

答案 1 :(得分:1)

一旦你开始专业化,我发现最简单的方法是编写一些自定义脚本,从/ proc下的文件中提取信息。

如果您的分析中没有一个工具可以为您提供所需的确切报告,那么您最终可能最终会编写一些脚本,并且您将使用大多数工具。 Linux无论如何都要去/ proc获取他们的信息,然后为你重新格式化。

如果你更喜欢数据库方面的东西,定期从/ proc中提取信息,添加时间戳,并以可以导入RDBMS的方式记录它可能非常有用。如果将所有服务器和进程性能信息放入单个RDBMS中,这可能会特别好,因为这样可以比较任意事物,例如不同服务器上同一应用程序的性能。

请记住,如果你更进一步,我开始添加来自不同来源的信息,例如主机的IPMI监控,所以当你使用超过你的东西时,不要做你必须撤消的事情的/ proc。

答案 2 :(得分:0)

我通常使用atop来监控系统上的负载。某些功能要求您修补内核,但它会提供有关I / O以及其他信息的准确信息。

答案 3 :(得分:0)

您可以使用sysstat实用程序,它们是性能监视工具的集合 Linux操作系统。

来自网站(perso.orange.fr/sebastien.godard /)

    * Can monitor a huge number of different metrics:

     1. Input / Output and transfer rate statistics (global, per device, per partition, per network filesystem and per Linux task / PID)
     2. CPU statistics (global, per CPU and per Linux task / PID), including support for virtualization architectures
     3. Memory and swap space utilization statistics
     4. Virtual memory, paging and fault statistics
     5. Per-task (per-PID) memory and page fault statistics
     6. Global CPU and page fault statistics for tasks and all their children
     7. Process creation activity
     8. Interrupt statistics (global, per CPU and per interrupt, including potential APIC interrupt sources)
     9. Extensive network statistics: network interface activity (number of packets and kB received and transmitted per second, etc.) including failures from network devices; network traffic statistics for IP, TCP, ICMP and UDP protocols based on SNMPv2 standards; support for IPv6-related protocols.
    10. NFS server and client activity
    11. Socket statistics
    12. Run queue and system load statistics
    13. Kernel internal tables utilization statistics
    14. System and per Linux task switching activity
    15. Swapping statistics
    16. TTY device activity
    17. Power management statistics

答案 4 :(得分:0)

  

我应该在基于SAN的基础架构上测量哪些其他有用的指标?

CPU负载。它是oracle数据库的主要指标。

答案 5 :(得分:0)

根据您希望获得的低级别,System Tap对您非常有用。它类似于Solaris上的DTrace。