没有ILP的关系数据挖掘

时间:2014-06-17 09:33:14

标签: algorithm relational-database classification data-mining

我有一个来自关系数据库的庞大数据集,我需要为其创建一个分类模型。通常对于这种情况我会使用ILP,但由于特殊情况我不能这样做。

解决这个问题的另一种方法就是在我有外国关系时尝试聚合这些值,但是我有一些重要且不同的行用于某些名义属性(例如:与几种不同药物处方有关的患者) )如果不为该标称属性的每个不同行创建新属性,我就不能这样做,而且如果我这样做,大多数新列将具有NULL值。

是否有任何非ILP算法允许我对关系数据库进行数据挖掘而不采用像转动这样可以创建数千个新列的技术?

1 个答案:

答案 0 :(得分:1)

首先,一些警告

我不确定为什么你不能使用你喜欢的编程(子)范例*,归纳逻辑编程(ILP),或者你是什么&#39 ;重新尝试分类。提供更多细节可能会带来更好的答案;特别是因为根据与它们相关联的编程范例来选择分类算法有点不寻常。如果您的真实世界的例子是保密的,那么只需构成一个虚构但类似的例子。

没有ILP的大数据分类

话虽如此,在排除ILP之后,我们在我们的考虑集中还有其他4种逻辑编程范例:

  1. 答案集
  2. 约束
  3. 功能
  4. 除了逻辑编程之外的几十种范例和子范例。

    例如,在功能逻辑编程中,存在称为感应功能逻辑编程的ILP的扩展,其基于反演缩小(即,缩小机制的反转)。该方法克服了ILP的一些限制,并且(according to some scholars, at least)适合于在表示方面的应用,并且具有允许以更自然的方式表达问题的益处。

    如果不了解数据库的具体细节以及使用ILP所面临的障碍,我无法知道这是否能解决您的问题或者遇到同样的问题。因此,我也会抛弃一种完全不同的方法。

    ILP is contrasted with "classical" or "propositional" approaches to data mining。这些方法包括机器学习的肉和骨头,如决策树,神经网络,回归,装袋和其他统计方法。您可以加入许多数据科学家,大数据工程师和使用高性能计算(HPC)的统计人员来使用这些方法来处理大量数据集(而不是放弃这些方法)。您还可以选择使用抽样和其他统计技术来减少分析关系数据库中大数据所需的计算资源和时间。

    HPC包括利用多个CPU内核,通过弹性使用具有高内存和大量快速CPU内核的服务器扩展分析,使用高性能数据仓库设备,采用集群或其他形式的并行计算等我不确定您使用哪种语言或统计套件分析您的数据,但作为示例,此CRAN Task View列出了许多用于R语言的HPC资源,这将允许您扩展命题算法

相关问题