如何在数据库中存储已清理的原始数据?

时间:2011-05-06 05:47:54

标签: database data-cleansing

原始数据存储在数据库中(多个表)。需要手动检查和纠正。检查的数据也应与原始数据一起存储在数据库中。在这种情况下,创建两个单独的数据库(例如raw_data和checked_data)是否是个好主意?或者应该只有一个数据库? 感谢

3 个答案:

答案 0 :(得分:0)

如果您的原始数据和检查数据比仅使用两个不同的数据库

非常大

使用规范化并使用过程,您可以将其保存在一个数据库中。

答案 1 :(得分:0)

除了您自己的偏好之外,这里没有推荐的方法。您可以将清理后的数据与原始数据一起存储在同一个数据库中,但存储在不同的表中,并且可以将诸如raw_之类的前缀添加到原始数据表中。

否则,您可能为每种类型的数据都有一个单独的数据库。如果需要在这两者之间进行,那么好处将是分离,其中缺点是成本更高。

答案 2 :(得分:0)

一般来说,在单个实例中工作比在多个实例中工作要容易得多。分布式事务执行较慢。他们需要更多的输入(总是需要添加数据库链接)。这不仅是为了方便而且是为了诚信。您可能希望确保给定记录在RAW数据集或CLEANSED数据集中,但不是两者都有。在单个数据库中检查此类事物更易于管理。

如何在单个数据库中组织事物在某种程度上取决于您选择的DBMS风格及其支持的内容。您可以拥有单个架构(用户帐户)并使用命名约定,例如前缀,例如RAW_TABLE_1和CLEAN_TABLE_1。或者您可能希望使用不同的模式,这将允许您保留相同的表名称,例如RAW_USER.TABLE_1和CLEAN_USER.TABLE_1。两种方法都有优势。不断提醒我们是否正在处理原始数据或干净数据总是好的。另一方面,我们可能有我们想要使用的工具或应用程序,这些工具或应用程序需要正常的表名。同义词在这方面可以提供帮助。