早期数据科学项目(jupyter笔记本)的有用结构

时间:2019-08-26 14:46:31

标签: python architecture jupyter-notebook jupyter data-science

我正在开始一个新的数据科学项目。这将是一个初期阶段的实验项目,而不是用于生产,而是用于概念验证。

我想确定良好/有用的架构(文件夹结构)指南,以与每个DS概念验证项目保持一致。

我通常设置一个新文件夹,每个项目始终包含3个内容:

  • 一些Jupyter笔记本
  • 输入数据
  • 结果数据

比方说,我的项目有4个Jupyter笔记本用于处理数据。通常,这些笔记本计算机必须运行才能正常工作。每个笔记本电脑都具有一些功能,这些功能组合在一起(集成到笔记本电脑中)。通常,我会在Notebook名称之前给出数字,以使它们按名称顺序对齐(如示例所示)。

每个项目都有一些要分析的数据(输入数据)和一些成为项目结果或部分结果的数据(结果数据)

我可以使用当前使用的结构,但这是我自己想出的,我希望在那里可以为更大的项目提供更具组织性和可扩展性的东西。有点像Jupyter Notebook项目的框架??

-**/Folder**
----**/data**
--------input_file_1.csv
--------input_file_2.xlsx
----**/results**
--------partial_results.csv
----1_read_analyse_data.ipynb
----2_clean_data.ipynb
----3_preprocess_data.ipynb
----4_random_forrest_model.ipynb

0 个答案:

没有答案