我有一个问题,我需要为某些参数推荐最佳值,以推动工业过程,以提高产量。
我有一年的时间序列数据具有连续值。数据以 5分钟时间间隔记录。总功能= 6 (全部连续)。数据维度 =(70000,6)。 注意:它的时间序列因此索引为 time_stamp 。
(请原谅,如果我使用了错误的术语)我想训练一个模型,我可以根据剩余的 2 变量为 4个变量推荐最佳值
基于基础研究,我提出了以下几点:
1.1。训练为LSTM(描述为here)。没有表现好。没有尝试过多次网络调整。我相信我对待问题的方式是需要修改的内容。
2.1。 K-NN变异 - 通过查找数据中关闭值独立变量 4中的 > 2个变量。
data = ...
to_pred = [D1, D2, D3, D4, I1, I2]
# D1...D4 -> Dependent Variables (to recommend)
# I1, I2 -> Independent Variables
GetClosest(data, example):
closest = match data[I1, I2] with [I1, I2] values of all records
return closest[D1, D2, D3, D4]
to_pred[D1, D2, D3, D4] = GetClosest(data, to_pred[I1, I2])
这很好用。正如它应该。不涉及学习。简单计算。
这个问题是从k-NN继承而来的。数据需要加载到内存中,这不是一个好习惯,尤其是。如果数据太多(我相信)。
将问题视为k-NN。
3.1。这样做是对的吗?这是否被视为推荐(以ML为视角)?
3.2。有什么方法可以克服内存问题?也许,k-NN有一些变异或高级形式?
再次请原谅任何错误(但请指出)。还在学习。