时间序列数据推荐系统

时间:2017-10-10 19:22:40

标签: python machine-learning recommendation-engine knn

我有一个问题,我需要为某些参数推荐最佳值,以推动工业过程,以提高产量。

数据:

我有一年的时间序列数据具有连续值。数据以 5分钟时间间隔记录。总功能= 6 (全部连续)。数据维度 =(70000,6)。 注意:它的时间序列因此索引为 time_stamp

目标:

(请原谅,如果我使用了错误的术语)我想训练一个模型,我可以根据剩余的 2 变量为 4个变量推荐最佳值

到目前为止:

基于基础研究,我提出了以下几点:

  1. 将问题视为监督学习问题,将 t-1 的数据构建为 X ,将 t 构建为 y 即可。 注意: t 表示当前time_stamp的数据, t-1 表示前一个time_stamp的数据。 (关注article
  2. 1.1。训练为LSTM(描述为here)。没有表现好。没有尝试过多次网络调整。我相信我对待问题的方式是需要修改的内容。

    1. 将问题作为数字数据的推荐系统处理。以下是:
    2. 2.1。 K-NN变异 - 通过查找数据中关闭值独立变量 4中的 > 2个变量

      data = ...
      to_pred = [D1, D2, D3, D4, I1, I2]
      # D1...D4 -> Dependent Variables (to recommend)
      # I1, I2  -> Independent Variables
      
      GetClosest(data, example):
          closest = match data[I1, I2] with [I1, I2] values of all records
          return closest[D1, D2, D3, D4]
      
      to_pred[D1, D2, D3, D4] = GetClosest(data, to_pred[I1, I2])
      

      这很好用。正如它应该。不涉及学习。简单计算。

      这个问题是从k-NN继承而来的。数据需要加载到内存中,这不是一个好习惯,尤其是。如果数据太多(我相信)。

      问题:

      1. 上述哪个问题的表述似乎是合理的。或者他们都没有?
      2. 在预测中,我可以用ARIMA或LSTM的任何方式实现它。但是,我如何制定问题,以便网络得到训练并且准确无误。
      3. 将问题视为k-NN。

        3.1。这样做是对的吗?这是否被视为推荐(以ML为视角)?

        3.2。有什么方法可以克服内存问题?也许,k-NN有一些变异或高级形式?

      4. 再次请原谅任何错误(但请指出)。还在学习。

0 个答案:

没有答案