mysql - Amazon Aurora数据库群集无法正确自动平衡

Amazon Aurora数据库群集无法正确自动平衡

时间：2017-11-07 23:58:05

标签： mysql database amazon-web-services amazon-rds amazon-rds-aurora

我创建了一个运行MySQL的Amazon Aurora数据库集群，其中包含三个实例：支持集群的主实例和两个用于平衡的读取副本。但是，群集似乎根本没有平衡读取。我有一个副本管理700+选择/秒最大化CPU为99.75％或更高，而另一个副本几乎没有任何CPU使用率为4％，每秒1选择，如果这样。主要群集实例本身的CPU使用率为33％，因为正在读取副本时正在同时写入它。复制品之间的滞后时间小于20毫秒。我的应用程序正在查询群集的只读端点，但似乎没有发生任何平衡。有没有人知道为什么会发生这种情况或为什么副本处于如此高的CPU使用率？无论如何，针对它运行的查询都不复杂。

4 个答案:

答案 0 :(得分：1)

Aurora群集终结点是DNS记录，它们仅在解析期间进行DNS轮询。这意味着，当您的客户端应用程序打开与群集终结点的连接时，最终会通过在多个副本之间剥离连接来将终结点解析为不同的实例（基本上是不同的IP）。到那时，没有负载平衡。连接是跨实例划分的，并且在每个连接上运行的查询都转到支持它的相应实例。

现在考虑当您在群集端点后面有一个实例时，已经向群集端点创建了连接池的情况。现在，如果添加更多实例，除非终止连接并重新建立它们，否则对您的应用程序没有任何影响。您将再次进行DNS轮询，这一次您的某些连接将落在您配置的新实例上。

少量标注：

在Aurora中，您有2个群集端点。一个（RW）端点始终指向当前的写程序，而一个（RO）端点在您的只读副本之间进行DNS循环。

此外，发生故障转移时，DNS传播可能需要几秒钟的时间，因此，发生故障转移时，偶然的错误是很自然的。

希望这会有所帮助。

答案 1 :(得分：0)

我的猜测是你没有连接到集群端点。

负载平衡 - 连接到群集端点允许Aurora对数据库群集中副本的连接进行负载平衡。这有助于扩展读取工作负载，并可以提高性能，更公平地使用每个副本可用的资源。如果发生故障转移，如果您连接的副本被提升为主实例，则连接将被删除。然后，您可以重新连接到阅读器端点，以便将读取的查询发送到群集中的其他副本。

New Reader Endpoint for Amazon Aurora – Load Balancing & Higher Availability

[编辑]

要在单个应用程序中加载平衡，您需要重新连接到端点。如果对所有查询使用相同的连接，则只有一个副本将响应。但是，打开连接很昂贵，因此除非您的查询需要一些时间才能运行，否则这可能无法带来太多好处。

答案 2 :(得分：0)

我们已经实施了一个驱动程序来尝试缓解此问题，并获得了一些明显的收获：https://github.com/DiceTechnology/dice-fairlink

它会定期发现只读副本，以赶上集群更改和它们之间的循环连接。

尽管没有衡量任何CPU利用率，但我们观察到的负载分配比群集读取器端点的基于本地DNS的轮询更好。

答案 3 :(得分：0)

基于Aurora的DNS的负载平衡在连接级别（而不是单个查询级别）工作。您必须继续解析端点而不缓存DNS，以在每个分辨率上获得不同的实例IP。如果只解析一次端点，然后将连接保留在池中，则该连接上的每个查询都将进入同一实例。如果缓存DNS，则每次解析端点时都会收到相同的实例IP。

除非使用智能数据库驱动程序，否则您将依赖DNS记录更新和DNS传播来进行故障转移，实例扩展以及跨Aurora副本进行负载平衡。当前，Aurora DNS区域使用5秒钟的短生存时间（TTL）。确保您的网络和客户端配置不会进一步增加DNS缓存的TTL。请记住，DNS缓存可以发生在从网络层到操作系统，再到应用程序容器的任何地方。例如，除非另外配置，否则Java虚拟机（JVM）会无限期地缓存DNS而臭名昭著。这是有关配置DNS缓存ttl的AWS documentation和Aurora whitepaper。