graph - 用于绘制大量Web相关数据的应用程序

时间：2009-04-10 06:42:41

标签： graph

我知道这不是编程相关的，但我希望得到一些帮助我解决痛苦的反馈。

我们的网络应用程序实际上有很多不同的数据，可以追溯到几年前。

例如，我们

有些数据记录始于2005年，有些是在2006年，等等。但是在某个时间点，我们开始掌握所有数据。

我是什么drea ^ H ^ H ^ H ^ Hsearching for是一个了解所有数据的应用程序，让我加载它们，比较各个数据集和时间轴（图形化），在同一时间范围内比较不同的数据集，允许我过滤（尤其是Apache日志文件）;当然这一切都应该是互动的。

BZ2压缩的Apache日志文件总共已经是21GB，每周增长。

我在awstats，Nihu Web Log Analyzer或类似工具等方面没有取得真正的成功。他们只能生成静态信息，但我需要交互式查询信息，应用过滤器，放置其他数据等。

我也尝试过数据挖掘工具，希望它们可以帮助我，但是在使用它们时并没有真正成功（例如它们在我脑海中），例如RapidMiner。

只是为了确保：可以成为商业应用程序。但是必须找到真正有用的东西。

不知何故，我得到的印象是我正在寻找一些不存在的东西，或者我的方法是错误的。任何提示都非常受欢迎。

更新

最后，我将它们混合在一起：

编写了bash和PHP脚本来解析和管理解析日志文件，包括大量过滤功能
生成普通的旧CSV文件以读入Excel。我很幸运使用Excel 2007，它的图形功能虽然仍在处理固定的数据集，但却有很多帮助。
我使用Amazon EC2运行脚本并通过电子邮件将CSV发送给我。我不得不爬行大约200GB的数据，因此使用其中一个大型实例来并行化解析。我不得不执行大量的解析尝试以获得正确的数据，整个处理持续时间为45分钟。我不知道没有Amazon EC2我能做些什么。我付出的每一笔钱都是值得的。

答案 0 :(得分：1)

Splunk是这类产品的产品。我虽然没有用它。 http://www.splunk.com/

答案 1 :(得分：1)

开源数据挖掘和Web挖掘软件RapidMiner可以导入Apache Web服务器日志文件以及CSV文件，还可以导入和导出Excel工作表。 Rapid-I为RapidMiner提供了许多培训课程，还有一些关于Web挖掘和Web使用挖掘的培训课程。

答案 2 :(得分：0)

为了完全披露，我没有使用任何商业工具来描述你的内容。

你看过LogParser了吗？它可能比您查找的更加手动，但它允许您查询许多不同的结构化格式。

至于它的图形方面，内置了一些基本的图表功能，但您可能会获得更多的里程，将日志解析器输出管道化为表格/分隔格式并加载到Excel中。从那里你可以绘制/绘制任何东西。

对于交叉连接不同的数据源，您始终可以将所有数据泵入数据库，您可以在其中使用更丰富的语言来查询数据。

答案 3 :(得分：0)

你正在寻找的是一个“数据挖掘框架”，即能够愉快地吃掉几十亿字节的随机数据，然后让你以一种未知的方式切入它，找到深埋在里面的金块静态的。

一些链接：

CloudBase：“CloudBase是一个基于Map-Reduce架构构建的高性能数据仓库系统。它使使用ANSI SQL的业务分析师能够直接查询网站中出现的大规模日志文件，电信或IT运营。“
RapidMiner：“RapidMiner aleady是一个完整的数据挖掘和商业智能引擎，它还涵盖了从ETL（提取，转换和负载）到分析到报告的许多相关方面。”