我知道这不是编程相关的,但我希望得到一些帮助我解决痛苦的反馈。
我们的网络应用程序实际上有很多不同的数据,可以追溯到几年前。
例如,我们
有些数据记录始于2005年,有些是在2006年,等等。但是在某个时间点,我们开始掌握所有数据。
我是什么drea ^ H ^ H ^ H ^ Hsearching for是一个了解所有数据的应用程序,让我加载它们,比较各个数据集和时间轴(图形化),在同一时间范围内比较不同的数据集,允许我过滤(尤其是Apache日志文件);当然这一切都应该是互动的。
BZ2压缩的Apache日志文件总共已经是21GB,每周增长。
我在awstats,Nihu Web Log Analyzer或类似工具等方面没有取得真正的成功。他们只能生成静态信息,但我需要交互式查询信息,应用过滤器,放置其他数据等。
我也尝试过数据挖掘工具,希望它们可以帮助我,但是在使用它们时并没有真正成功(例如它们在我脑海中),例如RapidMiner。
只是为了确保:可以成为商业应用程序。但是必须找到真正有用的东西。
不知何故,我得到的印象是我正在寻找一些不存在的东西,或者我的方法是错误的。任何提示都非常受欢迎。
更新
最后,我将它们混合在一起:
答案 0 :(得分:1)
Splunk是这类产品的产品。 我虽然没有用它。 http://www.splunk.com/
答案 1 :(得分:1)
开源数据挖掘和Web挖掘软件RapidMiner可以导入Apache Web服务器日志文件以及CSV文件,还可以导入和导出Excel工作表。 Rapid-I为RapidMiner提供了许多培训课程,还有一些关于Web挖掘和Web使用挖掘的培训课程。
答案 2 :(得分:0)
为了完全披露,我没有使用任何商业工具来描述你的内容。
你看过LogParser了吗?它可能比您查找的更加手动,但它允许您查询许多不同的结构化格式。
至于它的图形方面,内置了一些基本的图表功能,但您可能会获得更多的里程,将日志解析器输出管道化为表格/分隔格式并加载到Excel中。从那里你可以绘制/绘制任何东西。
对于交叉连接不同的数据源,您始终可以将所有数据泵入数据库,您可以在其中使用更丰富的语言来查询数据。
答案 3 :(得分:0)
你正在寻找的是一个“数据挖掘框架”,即能够愉快地吃掉几十亿字节的随机数据,然后让你以一种未知的方式切入它,找到深埋在里面的金块静态的。
一些链接:
CloudBase:“CloudBase是一个基于Map-Reduce架构构建的高性能数据仓库系统。它使使用ANSI SQL的业务分析师能够直接查询网站中出现的大规模日志文件,电信或IT运营。“
RapidMiner:“RapidMiner aleady是一个完整的数据挖掘和商业智能引擎,它还涵盖了从ETL(提取,转换和负载)到分析到报告的许多相关方面。”