如何组合不同维度的两个功能?

时间:2012-09-08 18:38:09

标签: machine-learning classification feature-extraction

让我们考虑一下文本分类的问题。因此,如果文档被表示为单词包,那么我们将具有n维特征,其中文档中的n个单词。现在如果我决定我也想将文档长度用作特征,那么这个特征的维度(长度)将是一个。那么我如何结合使用这两个功能(长度和单词包)。现在应该将该特征视为二维(n维向量(BOW)和一维特征(长度)。如果这不起作用,我如何组合这些特征。对此有任何指示也会有帮助吗?

1 个答案:

答案 0 :(得分:4)

这句话有点含糊不清:“因此,如果文件被表示为文字袋,那么我们将有一个n维特征,其中文件中有n个单词。”

我的解释是,您的语料库中出现的每个单词都有一列(可能仅限于某些感兴趣的词典),并且对于每个文档,您已计算该单词的出现次数。您的列数现在等于字典中出现在任何文档中的单词数。您还有一个“长度”功能,可以计算文档中的单词数,并且您想知道如何将其合并到分析中。

一种简单的方法是将单词的出现次数除以文档中的单词总数。

这具有根据文档大小缩放单词出现次数的效果,新功能称为“术语频率”。下一个自然步骤是对术语频率进行加权,以补偿语料库中更常见的术语(因此不太重要)。由于我们将较高权重赋予较少的常用术语,因此称为“逆文档频率”,整个过程称为“术语频率乘以逆文档频率”或tf-idf。您可以通过Google获取更多信息。


您可能以不同的方式进行字数统计 - 例如,计算每个段落中的单词出现次数(与每个文档相对)。在这种情况下,对于每个文档,您都有每个段落的字数,典型的方法是使用奇异值分解等过程合并这些段落计数。