apache-spark - SQL数据帧首先和最后没有返回“真实”的第一个和最后一个值

是。这可能取决于你的意思是第一个“真正的”第一个和最后一个值。例如，如果您正在处理带有时间戳的数据，并且“真实”，则第一个值指的是最旧的记录，只需orderBy根据时间的数据获取第一个值。

当您说When I do the "first" and "last" operations I am expecting back the last column from the file时，我知道您实际上指的是文件中的第一行/最后一行数据。如果我误以为，请纠正我。

感谢。

编辑：

您可以在单个分区中读取文件（通过设置numPartitions = 1），然后zipWithIndex，最后parallize生成的集合。这样您就可以获得要订购的列，并且您也不会更改源文件。