用于绘制大量Web相关数据的应用程序

时间:2009-04-10 06:42:41

标签: graph

我知道这不是编程相关的,但我希望得到一些帮助我解决痛苦的反馈。

我们的网络应用程序实际上有很多不同的数据,可以追溯到几年前。

例如,我们

  • Apache日志文件
  • 我们的跟踪软件(CSV)中的每日统计信息
  • 全国广告排名(CSV)的日常统计数据
  • ..我也可能从其他来源产生新数据。

有些数据记录始于2005年,有些是在2006年,等等。但是在某个时间点,我们开始掌握所有数据。

我是什么drea ^ H ^ H ^ H ^ Hsearching for是一个了解所有数据的应用程序,让我加载它们,比较各个数据集和时间轴(图形化),在同一时间范围内比较不同的数据集,允许我过滤(尤其是Apache日志文件);当然这一切都应该是互动的。

BZ2压缩的Apache日志文件总共已经是21GB,每周增长。

我在awstats,Nihu Web Log Analyzer或类似工具等方面没有取得真正的成功。他们只能生成静态信息,但我需要交互式查询信息,应用过滤器,放置其他数据等。

我也尝试过数据挖掘工具,希望它们可以帮助我,但是在使用它们时并没有真正成功(例如它们在我脑海中),例如RapidMiner。

只是为了确保:可以成为商业应用程序。但是必须找到真正有用的东西

不知何故,我得到的印象是我正在寻找一些不存在的东西,或者我的方法是错误的。任何提示都非常受欢迎。

更新

最后,我将它们混合在一起:

  • 编写了bash和PHP脚本来解析和管理解析日志文件,包括大量过滤功能
  • 生成普通的旧CSV文件以读入Excel。我很幸运使用Excel 2007,它的图形功能虽然仍在处理固定的数据集,但却有很多帮助。
  • 我使用Amazon EC2运行脚本并通过电子邮件将CSV发送给我。我不得不爬行大约200GB的数据,因此使用其中一个大型实例来并行化解析。我不得不执行大量的解析尝试以获得正确的数据,整个处理持续时间为45分钟。我不知道没有Amazon EC2我能做些什么。我付出的每一笔钱都是值得的。

4 个答案:

答案 0 :(得分:1)

Splunk是这类产品的产品。 我虽然没有用它。 http://www.splunk.com/

答案 1 :(得分:1)

开源数据挖掘和Web挖掘软件RapidMiner可以导入Apache Web服务器日志文件以及CSV文件,还可以导入和导出Excel工作表。 Rapid-I为RapidMiner提供了许多培训课程,还有一些关于Web挖掘和Web使用挖掘的培训课程。

答案 2 :(得分:0)

为了完全披露,我没有使用任何商业工具来描述你的内容。

你看过LogParser了吗?它可能比您查找的更加手动,但它允许您查询许多不同的结构化格式。

至于它的图形方面,内置了一些基本的图表功能,但您可能会获得更多的里程,将日志解析器输出管道化为表格/分隔格式并加载到Excel中。从那里你可以绘制/绘制任何东西。

对于交叉连接不同的数据源,您始终可以将所有数据泵入数据库,您可以在其中使用更丰富的语言来查询数据。

答案 3 :(得分:0)

你正在寻找的是一个“数据挖掘框架”,即能够愉快地吃掉几十亿字节的随机数据,然后让你以一种未知的方式切入它,找到深埋在里面的金块静态的。

一些链接:

  • CloudBase:“CloudBase是一个基于Map-Reduce架构构建的高性能数据仓库系统。它使使用ANSI SQL的业务分析师能够直接查询网站中出现的大规模日志文件,电信或IT运营。“

  • RapidMiner:“RapidMiner aleady是一个完整的数据挖掘和商业智能引擎,它还涵盖了从ETL(提取,转换和负载)到分析到报告的许多相关方面。”