solr - 关于Solr Sharding的问题

我们有一个产品（我们称之为'prod1'），我们希望与另一个产品“整合”（让我们称之为'prod2'），当“整合”意味着prod1 + prod2将是“prod3” 。我们还有一些计划在prod3中添加更多“产品”。

到目前为止一切顺利。

我们使用Solr为这两种产品中的用户提供搜索，并且这两个索引可能非常非常大并且接收大量呼叫/秒。如果我们将所有内容都放在一台服务器上，那么吞吐量就会很糟糕。

所以，我们考虑使用分片（我相信这是正确的术语，对不起，如果我错了），但是，我有一些问题：

是否可以将索引拆分为“每台机器一个产品索引”或类似的东西？如果是，您如何建议我这样做？
如果（问题1 == true）那么让我们假设prod1索引是machine1，prod2索引machine2，我可以在machine1和2中搜索“合并”结果与分数，偏移等，以“简单”和正确的方式？
我读过一些关于复制因素的内容，但我认为我并不理解。它的目的是什么？
我不确定我是否在这里使用了正确的术语，所以，也许有人可以澄清核心，碎片等究竟是什么。这种“简单”的疑问在我的行列中引起了很多误解。队。

到现在为止，这是个问题。也许我稍后会编辑它并添加更多内容。

提前致谢。

按顺序回答您的问题：

由您决定如何分发文档。您可以选择要将文档编入索引的服务器，以及是否决定对一个产品索引pr执行此操作。服务器，这是您的决定（根据文档源自哪个产品，选择用于索引的服务器）。
是。发送给Solr的查询字符串的shards = -parameter指示应搜索哪些服务器并将其合并为一个响应。只要你没有看到作为一个可能的问题高位进入抵消，这应该不是一个问题（高负责的问题是Solr必须从每个服务器检索到（偏移）文档，才能够在所有分片上进行评分）。

碎片= server1的：8080 / solr的/ corename，服务器2：8080 / solr的/ corename
复制因子与SolrCloud相关，它隐藏了手动分片的一些复杂性（但也介绍了一些）。使用SolrCloud Solr将自行确定要用于存储的节点，复制因子告诉Solr您要将文档存储在多少服务器上。如果复制因子为3，则在文档无法访问之前，至少有三台服务器必须失败。如果您正在进行手动分片，则必须自己设置复制，并且知道哪些服务器是备份服务器，就像使用常规Solr设置一样。
Shard =仅保留索引中所有文档的子集的服务器，核心=一台服务器上的一个索引 - 服务器可能包含多个核心，其中每个核心是一组独立的配置和架构（以前你在每个Solr实例中只能有一个核心--Solr只有一个索引而已。 SolrCloud首次在Solr 4.0上发布，并开始获得一些牵引力。

Solr Wiki是一个开始挖掘有关这些概念的更多信息的好地方。

关于Solr Sharding的问题

1 个答案: