使用线性回归估算价格

时间:2017-05-28 21:09:46

标签: python linear-regression

我在这里发帖是因为我无法在其他任何地方找到解决问题的方法。基本上我们在学校使用python学习线性回归,教授希望我们估算三明治中每种成分的价格以及基于csv表的每个三明治的固定利润。到目前为止,我们只讨论了一个X变量和一个Y变量,所以我很困惑我该怎么做?谢谢。这是表格:

tomato,lettuce,cheese,pickles,palmetto,burger,corn,ham,price
0.05,1,0.05,0,0.05,0.2,0.05,0,18.4
0.05,0,0.05,0.05,0,0.2,0.05,0.05,16.15
0.05,1,0.05,0,0.05,0.4,0,0,22.15
0.05,1,0.05,0,0.05,0.2,0.05,0.05,19.4
0.05,1,0,0,0,0.2,0.05,0.05,18.4
0,0,0.05,0,0,0,0.05,0.05,11.75
0.05,1,0,0,0,0.2,0,0.05,18.15
0.05,1,0.05,0.05,0.05,0.2,0.05,0,18.65
0,0,0.05,0,0,0.2,0.05,0.05,15.75
0.05,1,0.05,0,0.05,0,0.05,0.05,15.4
0.05,1,0,0,0,0.2,0,0,17.15
0.05,1,0,0,0.05,0.2,0.05,0.05,18.9
0,1,0.05,0,0,0.2,0.05,0.05,18.75

1 个答案:

答案 0 :(得分:1)

你有9个单独的变量用于回归(番茄...价格),每个变量有13个样本(13行)。

所以第一种方法可能是对番茄"进行回归。关于数据点 0.05 0.05 0.05 0.05 0.05 0 0.05 0.05 0 0.05 0.05 0.05 0 然后做另一个#34;生菜"和其他人一样,价格"同 18.4 16.15 22.15 19.4 18.4 11.75 18.15 18.65 15.75 15.4 17.15 18.9 18.75

用于查看CSV数据的在线查看器:http://www.convertcsv.com/csv-viewer-editor.htm,但Google SpreadSheet,Excel等也可以很好地显示它。

SciPy可能(很可能)也会在矢量上为你完成任务(所以一起处理9个变量),但是13行中有13个样本的部分仍然存在。

编辑:坏消息,我累了,没有回答完整的问题,对不起。

虽然您可以将前8列(番茄...火腿)作为时间序列,并对它们进行单独回归(这可能是此作业的第一部分),但最后一列(价格)预计将从前8开始估算。

使用维基百科中的符号https://en.wikipedia.org/wiki/Linear_regression#Introduction,您的y向量是最后一列(价格),X矩阵是数据的前8列(番茄... .ham),在某处以1-s的列延伸。 然后选择一种估算方法(有些也在该页面中列出,https://en.wikipedia.org/wiki/Linear_regression#Estimation_methods,但您可能想要选择在课堂上学到的一种方法)。实际的数学就在那里,NumPy可以进行矩阵/向量计算。如果您选择"普通最小二乘",numpy.linalg.lstsq执行相同的操作(https://docs.scipy.org/doc/numpy/reference/generated/numpy.linalg.lstsq.html#numpy.linalg.lstsq - 您可能会发现添加1-s熟悉的列),因此可以用于验证结果。