RTextTools - 多个分类器

时间:2015-03-13 11:20:30

标签: r classification

我被困(再次)并且需要智慧。这次我试图对一堆文件进行分类,其中每个文档可以具有1:n分类。

RTextTools示例数据集NYTIMES为每个故事分配一个主题代码,因此工作示例只是...工作。

但实际上很多新闻故事都有多个代码。那么如果不是让NYTimes $ Topic.Code你有一个更像......的结构呢?

Article_ID Date     Title       Subject          Topic.Code
1          1-Jan-96 A Title     A subject text   2
2          1-Jan-96 B Title     B subject text   1,2
3          2-Jan-96 C Title     C subject text   3
4          3-Jan-96 D Title     D subject text   2,3
and so on...

这也可以用Topic.Code表示,分别为每个唯一代码的单独列,并设置为TRUE / FALSE ......

Article_ID Date     Title       Subject          Topic.Code1 Topic.Code2 Topic.Code3
1          1-Jan-96 A Title     A subject text   FALSE       TRUE        FALSE
2          1-Jan-96 B Title     B subject text   TRUE        TRUE        FALSE
3          2-Jan-96 C Title     C subject text   FALSE       FALSE       TRUE
4          3-Jan-96 D Title     D subject text   FALSE       TRUE        TRUE
and so on...

你怎么会尝试使用RTextTools训练这种1:n情况?

1 个答案:

答案 0 :(得分:0)

RTextTools不适用于多依赖变量分类。您可以使用多感知器网络。如果您仍想使用RTextTools,请使用主题的值作为因子,以便将每个主题组合标识为单个因子。