Question

我正在解析和修改包含每次互动记录的大型文件（每月一次演出）。这些文件是由我们的客户发送给我的，所以我坚持他们所包含的内容。我正在使用熊猫来清理它们，添加一些信息等等。

我一直遇到的问题是，在100万+行中，datetime列中的1到10个值不是日期。由于逗号分隔的一些问题（这是来自客户端的查询，而不是我的），因此另一列的值在日期列中，因此它可能会说“已关闭”或其他内容。

如何删除这些行？当我使用df.sort（'Datetime'）时，我可以看到有错误的那些。我只想要一种快速放弃这些的方法。

以下是我的想法：

有人可以帮助想出解决这个问题的方法吗？（我认为这个日期的事情是关键问题因为我有从EndDate中减去StartDate的公式..如果其中一个包含一个单词然后它会弄乱整个过程。也许我可以创建一些错误异常或删除错误行？）< / p>

Answer 1

使用H列使用布尔索引和vectorized string methods.

过滤掉错误行

good_rows_mask = df.TransID.str[0] == 'H'
df = df[good_rows_mask]