弹性搜索索引Internet

时间:2014-01-15 04:24:23

标签: elasticsearch

这主要是弹性搜索的设计模式问题。

如果我想使用弹性搜索索引Internet,那么组织此类任务的最有效方法是什么?

@kimchy讨论了不同的模式,Rafal Kuc讨论了扩展大规模集群的问题,但我没有看到如何在观看这些集群后组织互联网索引。

我认为从逻辑上讲,您可以通过为每个域创建新索引来组织这样的工作。因此,您可以对Stackoverflow.com等索引进行大量分类,但对于像momandpopsite.com这样的索引,可能只有1个分片

这对您的ES社区有效吗?我不确定,因为我们可以很快进入数百万个索引,更不用说他们各自的分片了。而现在我想知道这种类型的设计是否存在大量开销,并且它变得臃肿。 (也就是说,这种模式的结构是否会产生太多的开销?)。

我知道这个问题必须是理论上的,因为没有指定资源。但是,如果你可以运用你的想象力并试图完全坚持设计策略 - 你会如何索引万维网?可以说有2.75亿个域名。使用弹性搜索索引互联网的最有效设计模式是什么?

1 个答案:

答案 0 :(得分:1)

每个域的索引(因此2.75亿个索引)是不可行的。索引确实有开销,我丢失了引用,但我认为你不希望单个“普通”服务器上有超过100个索引。

要将更多站点放入单个索引中,您可能需要引入路由和视图,但我认为所有内容的单个索引也会引入不必要的开销。我猜,但是查找路由规则可能会变得非常大等等。所以你想找到一些在索引之间拆分的方法。如此高的音量,您无法在纸上设计所有内容,因此我建议PoC工作确定您为不同大小的索引获得的性能。然后,您将使用别名正确映射到基础索引。

进一步阅读: https://groups.google.com/forum/#!searchin/elasticsearch/index $ $ 20per 20user / elasticsearch / I-G5NlP1VeY / PK9vVP0myAgJ

https://groups.google.com/forum/#!msg/elasticsearch/9L5cWIAib94/K7zdHEW-4P0J

相关问题