Question

我有两个文件客户和销售如下

客户：

cu_id名称区域城市州
   1 Rahul ME Vizag AP
   2 Raghu SE HYD TS
   3 Rohith ME BNLR KA

销售：

sa_id销售国家
  2 100000 IND
  3 230000美国
  4 240000英国

两个文件都是\ t分隔的。我想基于来自客户的cu_id和使用pyspark的销售中的sa_id加入两个文件，而不使用sparksql / dataframes。

非常感谢您的帮助。

Answer 1

你绝对可以使用Spark提供的join方法来处理RDD的工作。

您可以执行以下操作：

customerRDD = sc.textFile("customers.tsv").map(lambda row: (row.split('\t')[0], "\t".join(row.split('\t')[1:])))
salesRDD = sc.textFile("sales.tsv").map(lambda row: (row.split('\t')[0], "\t".join(row.split('\t')[1:])))

joinedRDD = customerRDD.join(salesRDD)

您将获得一个新的RDD，其中包含来自客户和销售文件的唯一连接记录。

在Pyspark中加入两个文件而不使用sparksql / dataframes

1 个答案: