标签在vowpal wabbit

时间:2017-05-11 04:44:49

标签: tags vowpalwabbit

我正在使用vowpal-wabbit进行二进制分类。特定记录(特征集)有10个零和5个。所以,我正在用vowpal格式创建两行

-1 10 `50 |f f1
1 5 `50 |f f1

由于这两个记录的预测(概率)相同,我希望保留相同的标记,以便我可以稍后重复预测({tag,prediction})并加入我原始的原始数据。 是否可以在vowpal-wabbit中为多个记录保留相同的标记?

1 个答案:

答案 0 :(得分:1)

  

首先,上面的语法不正确

要识别,标签应该是:

  • 触摸|分隔符(它们之间没有空格)或
  • 根据惯例,引用引号必须是简单的引用,而不是反引号。

(或两者)。

否则你得到: warning: `50 is not a good float, replacing with 0 warning: `50 is not a good float, replacing with 0

提示vw解释这些"标签"作为预测基础。

有关详细信息,请参阅Input format in the official documentation

将示例修复为正确的语法后: -1 10 '50|f f1 1 5 '50|f f1

哪个运行正常,我们可以回答这个问题:

  

是否可以在vowpal-wabbit中为多个记录保留相同的标记?

是的,你可以。标签只是连接输入和输出的简单方法(当涉及预测时),在任何地方都没有检查唯一性。如果您在输入上复制标记,您只需在预测输出上获得相同的重复标记。

更多说明:

  • 即使两个示例相同,如果模型在它们之间有所改变,您可能会得到不同的预测。请记住vw是在线学习者,因此除非您添加-t(仅限测试,不要学习)选项,否则模型可以随每个示例不断更改。
  • 将忽略值为零的功能,因此您可以删除它们。 vw中说出这一点的标准方法是“积极的”#39;这是“消极的”#39;是使用值{+1, -1}。对于标签和输入功能都是如此。