如何对Spark Dataframe / Dataset应用严格的数据类型检查?

时间:2017-11-22 19:40:32

标签: apache-spark spark-dataframe

如何在spark数据帧/数据集上启用严格数据类型检查? 我们正在接收来自上游系统的许多系统生成和手动馈送,以进行转换。     Ask是在开始转换之前提取提要并对模式执行严格的数据类型检查     有人可以建议我们如何有效地使用Spark 2.0吗?     我们尝试了以下

data-dismiss="modal"

1 个答案:

答案 0 :(得分:0)

我假设您正在使用scala,因此我的建议是使用Case类来定义您的架构。您可以执行以下操作:

case class Item(item_price: Long, item_id: Long)

val item = spark.
  read.
  schema(schema).
  csv("path").
  as[Item]

让我知道你对它的看法。

建议从Databricks阅读本文。