是否有关于处理大数据的好网站?

时间:2012-06-22 18:59:51

标签: data-mining bigdata

我正在寻找网站\博客,人们解释他们如何解决大数据的性能和其他问题。我知道有关可扩展的Web应用程序和站点(如twitter,facebook)的一些资源。没关系,但我正在寻找主要用于数据挖掘的具体算法。

1 个答案:

答案 0 :(得分:0)

实际上,大数据上做的很多事情都不符合“数据挖掘”的要求。 他们最多应用以前学过的规则来统一大数据,主要是为了预测消费者为他们提供广告的兴趣。但这主要归结为“对体育有兴趣”的决定。这里可以接受相当大的错误率,因为没有任何费用可以为体育广告提供服务。网络充满了谷歌将人们置于错误的消费者群体中的故事。通常甚至不正确地预测性别。

无论何时你看到“大数据”,都需要大量的盐。它主要是吹牛和流行语宾果游戏。大数据的挑战仍然在于实际完成它,而不是(还)正确地完成它。

这篇文章就是一个很好的例子:http://www.technologyreview.com/web/39487/

雅虎预测(使用Twitter“大数据”并推动这篇文章声称他们比出口民意调查要好得多,吹嘘布拉格吹嘘)“罗姆尼有90%的机会赢得南卡罗来纳州”。实际上,罗姆尼得到了28%,而金里奇得到了40%。

或尝试一些“情绪分析”类型的工具。他们会告诉你一个包含“小狗”的推文帖子是正面的,含有“蟑螂”是负面的。这就是他们最近通过“情绪分析”获得的质量。同样,他们非常关注从数据中获取任何,他们还没有真正分析(甚至验证)结果。抱歉。我敢打赌,我会得到一些关于这个批评的事情,但这就是每天都在发生的事情。看看雅虎的例子。他们显然能够处理他们的“大数据”,但他们的结果肯定没有准备好黄金时间,他们仍然需要努力。

同样,对于某些广告定位情况,错误率可能会非常高。比随机更好的东西,比随机更好!这意味着比你随机投放广告更省钱。所以它并非毫无价值;可能无法与非大数据方法相媲美。