# mulanbay-sklearn **Repository Path**: mulanbay/mulanbay-sklearn ## Basic Information - **Project Name**: mulanbay-sklearn - **Description**: 木兰湾的预测模型算法,基于sklearn的机器学习。 - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 2 - **Forks**: 6 - **Created**: 2023-06-26 - **Last Updated**: 2025-03-04 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # mulanbay-sklearn #### 介绍 木兰湾的预测模型算法,基于sklearn的机器学习。 本项目通过sklearn训练出pmml格式的模型文件,在java端通过jpmml调用pmml文件进行预测数据。 Java端项目参见:https://gitee.com/mulanbay/mulanbay-server #### 所用技术 | 核心依赖 | 版本 | |--------- |--------| | Python | 3.11.4 | | sklearn | 1.6.0 | | pandas | 2.2.3 | | sklearn2pmml | 0.93.0 | | xgboost | 2.1.3 | #### 项目结构 ``` lua mulanbay-sklearn ├── datasets -- 数据集(csv文件) ├── model -- 训练出的模型(pmml文件) ├── train -- 算法代码 ├── utils -- 公共配置 ``` #### 项目运行与部署 ``` Step 1: 创建自己的训练数据集 有两种方式: (1)根据datasets下面的csv文件模板自己模拟数据 (2)通过datasets下面的data_export.sql中的语句在MySQL客户端导出csv文件 机器学习训练数据比较重要,我提供的都是模拟数据,供参考使用。 如果想和木兰湾系统整个结合起来,需要自己在木兰湾系统中录入数据,然后通过方式二从数据库导出数据,这样才有意义。 Step 2: 训练模型 选择train目录下的python文件执行进行训练,自己可以修改参数或者算法,最终会导出pmml文件。 Step 3:验证模型 在mulanbay-server项目的子工程mulanbay-ai项目中,选择test目录下的测试案例,进行测试。 Step 4:更新模型 进入运行起来的木兰湾项目,进入VUE版本PC端,在"AI关联-模型配置管理"功能中更新或发布新的算法模型 Step 5:用木兰湾项目验证 在"资金管理-预算管理-进度统计"功能中,选择预测,验证模型 ``` #### 参考/集成项目 * sklearn官网:[sklearn](https://scikit-learn.org/stable/index.html) * sklearn中文社区:[sklearn中文](https://scikit-learn.org.cn/) * PMML文件导出:[sklearn2pmml](https://github.com/jpmml/sklearn2pmml) * B站学习资料:[菜菜的机器学习sklearn](https://www.bilibili.com/video/BV1vJ41187hk/)