machine-learning - 如何组合不同维度的两个功能？

这句话有点含糊不清：“因此，如果文件被表示为文字袋，那么我们将有一个n维特征，其中文件中有n个单词。”

我的解释是，您的语料库中出现的每个单词都有一列（可能仅限于某些感兴趣的词典），并且对于每个文档，您已计算该单词的出现次数。您的列数现在等于字典中出现在任何文档中的单词数。您还有一个“长度”功能，可以计算文档中的单词数，并且您想知道如何将其合并到分析中。

一种简单的方法是将单词的出现次数除以文档中的单词总数。

这具有根据文档大小缩放单词出现次数的效果，新功能称为“术语频率”。下一个自然步骤是对术语频率进行加权，以补偿语料库中更常见的术语（因此不太重要）。由于我们将较高权重赋予较少的常用术语，因此称为“逆文档频率”，整个过程称为“术语频率乘以逆文档频率”或tf-idf。您可以通过Google获取更多信息。

您可能以不同的方式进行字数统计 - 例如，计算每个段落中的单词出现次数（与每个文档相对）。在这种情况下，对于每个文档，您都有每个段落的字数，典型的方法是使用奇异值分解等过程合并这些段落计数。