优步在Spark LSH中使用numHashTable有什么价值?

时间:2017-11-21 18:02:40

标签: scala apache-spark apache-spark-mllib locality-sensitive-hash minhash

我正在尝试使用Spark MLlib LSH的ClientBuilder.newClient(new ClientConfig(JacksonJsonProvider.class)) MinHash for Jaccard Distance例如。

.approxSimilarityJoin

据我所知,numHashTables越高,系统越准确,计算越复杂/越慢。我有两个关于参数的问题:

  • numHashTables与MinHash指纹大小之间的关系是什么?
  • 如何正确设置值?

注意:我相信Uber已将该算法添加到MLlib中:https://eng.uber.com/lsh/

0 个答案:

没有答案
相关问题