使用Datavec库将数据集中的原始数据映射到新数据,并将其存储在Spark RDD中

时间:2019-05-21 22:15:05

标签: java data-science data-cleaning deeplearning4j data-cleansing

我有一个数据集,其中包含经纬度,如 20.55E 30.11N 。我想在需要时用适当的-替换这些方向字符串。因此,基本上,我将根据条件进行映射并更改值。
目前,我有一个Schema,我正在尝试整理TransformProcess

我的Schema是这样的:

new Schema.Builder()
                .addColumnTime("dt", DateTimeZone.UTC)
                .addColumnsDouble("AverageTemperature" , "AverageTemperatureUncertainty")
                .addColumnsInteger("City" , "Country")
                .addColumnsFloat("Latitude" , "Longitude")
                .build();  

我被这样的TransformProcess困扰:

new TransformProcess.Builder(schema)
                .filter(new FilterInvalidValues("AverageTemperature" , "AverageTemperatureUncertainty"))
                .stringToTimeTransform("dt","yyyy-MM-dd", DateTimeZone.UTC)
                . // map currentLatitude -> remove direction string and put sign  

我正在尝试遵循本教程中的this code,在TransformProcess之后,我将做Spark的工作并保存数据。

我的问题是:
如何执行映射?
根据{{​​1}}的API文档,我无法理解任何可以帮助我解决问题的东西。
我正在使用 Deeplearning4J

中的 Datavec

0 个答案:

没有答案
相关问题