数据提取是否需要加盖时间戳?

时间:2019-08-20 19:13:03

标签: python version-control data-science pipeline

我应该标记数据提取的时间戳吗?

一些同事和我一起在python服务器上一起工作,以解决与数据科学相关的问题。我编写了一些函数来从我的源数据库中提取数据,并将其保存到python服务器中以进行进一步处理。现在,我正在为是否应该使用时间戳保存提取内容而苦苦挣扎,结果是每次启动管道时,都会保存另一个提取内容,或者忽略时间戳并覆盖旧的提取内容。我读了很多关于数据不需要与代码一样的版本控制的信息,并且我真的不想让服务器上出现大量的,大量冗余的数据摘要。

1 个答案:

答案 0 :(得分:0)

  

使用时间戳保存提取,结果是每次我启动管道时都会保存另一个提取或忽略时间戳并覆盖旧提取。

功能随时间的变化对与数据科学相关的问题重要吗?

  • 您是否有任何指标可以衡量一个故事?
  • 也许您可以存储自上次数据提取以来的增量而不是冗余功能(功能工程师在其他表上)。

只是几个想法。祝你好运:)