Question

我有一个看起来像这样的数据框。

Subject Level Age Dosage 
1       Beta  27  2
2       Alpha 19  3
3       Alpha 13  5

还有一个看起来像这样的数据框。

Subject Level Age
4       Beta  18
5       Beta  26
6       Alpha 17
7       Beta  27

我想要的结果是第二个数据框，预测的剂量数字看起来像这样。

Subject Level Age Pred_Dosage
4       Beta  18  4
5       Beta  26  3
6       Alpha 17  1
7       Beta  27  3

基本上，我想使用第一个数据框来预测第二个数据框的剂量字段值。我认为随机森林回归器是正确的方法，但是还有其他方法吗？

Answer 1

由于要预测的剂量是一个定量变量，因此您需要一个回归算法。其中一些是可用的，例如请参阅 here 您还应该提及训练数据框中有多少行可用。此外，您应该确认只有 2 个预测变量（水平和年龄）。这些因素可能会影响算法的选择。

您也可以先进行单变量分析，以确定剂量与水平和年龄之间是否存在显着关系。剂量是由一个、两个或没有一个预测变量预测可能会影响您的模型。

还应该清楚的是，每一行都属于一个不同的主题，并且没有对主题进行重复测试。

只有一个分类预测变量和一个数字预测变量，还可以制作一个散点图，其中 X 轴为年龄，y 轴为剂量。 Alpha 和 Beta 的点可以用不同的颜色着色，并分别为 Alpha 和 Beta 绘制回归线。这也将有助于创建一个好的模型。