Kedro(生产级数据科学工具)简介
Kedro是一个用于生产级数据科学工具,能够帮助我们非常方便地创建可重现、可维护和模块化的数据工程和数据科学模块,为我们提供了标准的项目模板、数据目录、管道抽象、编码标准和灵活部署等功能。
该项目模板基于Cookiecutter Data Science,易于修改和使用。数据目录包含多种轻量级数据连接器,支持本地、网络文件系统、云对象存储和HDFS等多种文件格式和文件系统,并为基于文件的系统提供数据和模型版本控制,可自动解决Python函数间的依赖关系,并使用Kedro-Viz进行管道可视化。
在编码标准方面,这个工具遵循测试驱动开发、使用Sphinx生成文档、通过ruff进行代码lint以及使用标准Python日志库。部署时,可选择单机或分布式部署,还支持Argo、Prefect、Kubeflow、AWS Batch和Databricks等平台。

Kedro(生产级数据科学工具)官网
为生产级数据科学提供了一个完整的解决方案,涵盖了从项目创建到部署的全流程,并将软件工程实践融入其中,是数据从业者和团队提高工作效率的利器。