pyspark中其他DataFrame列名称中的DataFrame列名称

时间:2017-05-22 18:28:05

标签: python apache-spark pyspark spark-dataframe

我有两个IEnumerable<object> result = from t in AppDomain.CurrentDomain.GetAssemblies().SelectMany(x => x.GetTypes()) where t.GetInterfaces().Contains(typeof(IClassId)) && t.GetConstructor(Type.EmptyTypes) != null select Activator.CreateInstance(t) as IClassId; List<IGrouping<Guid, object>> lst = result.GroupBy(x => ((IClassId)x).ClassId) .Where(y => y.Count() > 1) .ToList(); pyspark在列名中有一些重叠。如何查看另一列中的列名?在DataFrames我可以执行以下操作并且有效:

sparkr

2 个答案:

答案 0 :(得分:2)

Python中,你可以像这样使用列表理解:

[c for c in df.columns if c in df2.columns]

答案 1 :(得分:0)

您可以使用集合:

set(df.columns) & set(df2.columns)

要获取列表,请将上面的表达式放入list()