整合外部程序

时间:2015-08-24 16:32:27

标签: java hadoop jar

所以我的任务是将一个名为“lightSIDE”的程序集成到一个hadoop工作中,而我在弄清楚如何解决这个问题时遇到了一些麻烦。

基本上,lightSIDE不是单个JAR,而是整个目录,包括对其运行至关重要的xml文件。

到目前为止,我团队中的数据科学家一直在使用这个程序的方式是运行一个实际运行可执行文件的python脚本,但这似乎非常低效,因为它每次都会启动一个新的JVM调用。话虽如此,我不知道如何处理这个问题。

2 个答案:

答案 0 :(得分:0)

如果您正在编写自己的MapReduce作业,那么可以将所有jar文件包含为库和xml文件作为资源。

答案 1 :(得分:0)

我是LightSide Researcher's Workbench的维护者之一。 LightSide还包含一个微小的PredictionServer类来处理通过HTTP对新实例的预测 - 您可以看到它here on BitBucket

如果你想训练新模型,你可以修改这个服务器来做你想做的事情,从side.recipe.Chef类中提取线索。