Question

我正在开始一个新的数据科学项目。这将是一个初期阶段的实验项目，而不是用于生产，而是用于概念验证。

我想确定良好/有用的架构（文件夹结构）指南，以与每个DS概念验证项目保持一致。

我通常设置一个新文件夹，每个项目始终包含3个内容：

一些Jupyter笔记本
输入数据
结果数据

比方说，我的项目有4个Jupyter笔记本用于处理数据。通常，这些笔记本计算机必须运行才能正常工作。每个笔记本电脑都具有一些功能，这些功能组合在一起（集成到笔记本电脑中）。通常，我会在Notebook名称之前给出数字，以使它们按名称顺序对齐（如示例所示）。

每个项目都有一些要分析的数据（输入数据）和一些成为项目结果或部分结果的数据（结果数据）

我可以使用当前使用的结构，但这是我自己想出的，我希望在那里可以为更大的项目提供更具组织性和可扩展性的东西。有点像Jupyter Notebook项目的框架？？

-**/Folder**
----**/data**
--------input_file_1.csv
--------input_file_2.xlsx
----**/results**
--------partial_results.csv
----1_read_analyse_data.ipynb
----2_clean_data.ipynb
----3_preprocess_data.ipynb
----4_random_forrest_model.ipynb

早期数据科学项目（jupyter笔记本）的有用结构

0 个答案: