熊猫找到具有唯一值的列

时间:2018-08-24 15:27:28

标签: python sql pandas dataframe

我有两个数据库(每个数据库都有1000个表),它们应该反映相同的数据,但是它们来自两个不同的来源。我比较了两个表,以了解有什么区别,但是为此,我将两个表加入了一个公共ID密钥。我手动检查了表以查看ID密钥是什么,但是当我必须检查1000个表时,这样做是不实际的。

大熊猫中是否有一种方法可以找到表中哪些列(或多个列)仅具有唯一值?

1 个答案:

答案 0 :(得分:0)

使用Python库,该库允许您查询数据库(pymysql,psycopg2等)。以编程方式使用数据库中可用的元数据来遍历表和列。动态创建SQL查询以比较“从表中选择count(field)-count(distinct field)”。

或者您也可以潜在地使用元数据来查看每个表中的哪些列被索引。

用于提取相关元数据的SQL查询会因DBMS的类型而异。