# mulanbay-sklearn

**Repository Path**: mulanbay/mulanbay-sklearn

## Basic Information

- **Project Name**: mulanbay-sklearn
- **Description**: 木兰湾的预测模型算法，基于sklearn的机器学习。
- **Primary Language**: Python
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 2
- **Forks**: 6
- **Created**: 2023-06-26
- **Last Updated**: 2025-03-04

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# mulanbay-sklearn

#### 介绍
木兰湾的预测模型算法，基于sklearn的机器学习。
本项目通过sklearn训练出pmml格式的模型文件，在java端通过jpmml调用pmml文件进行预测数据。

Java端项目参见:https://gitee.com/mulanbay/mulanbay-server

#### 所用技术

| 核心依赖     | 版本     |
|---------    |--------|
| Python        | 3.11.4 |
| sklearn       | 1.6.0  |
| pandas        | 2.2.3  |
| sklearn2pmml  | 0.93.0 |
| xgboost  | 2.1.3  |

#### 项目结构
``` lua
mulanbay-sklearn
├── datasets    -- 数据集(csv文件)
├── model      -- 训练出的模型(pmml文件)
├── train       -- 算法代码
├── utils       -- 公共配置

```
#### 项目运行与部署
``` 
Step 1: 创建自己的训练数据集
有两种方式：
（1）根据datasets下面的csv文件模板自己模拟数据
（2）通过datasets下面的data_export.sql中的语句在MySQL客户端导出csv文件

机器学习训练数据比较重要，我提供的都是模拟数据，供参考使用。
如果想和木兰湾系统整个结合起来，需要自己在木兰湾系统中录入数据，然后通过方式二从数据库导出数据，这样才有意义。

Step 2: 训练模型
选择train目录下的python文件执行进行训练，自己可以修改参数或者算法，最终会导出pmml文件。

Step 3：验证模型
在mulanbay-server项目的子工程mulanbay-ai项目中，选择test目录下的测试案例，进行测试。

Step 4：更新模型
进入运行起来的木兰湾项目，进入VUE版本PC端，在"AI关联-模型配置管理"功能中更新或发布新的算法模型

Step 5：用木兰湾项目验证
在"资金管理-预算管理-进度统计"功能中，选择预测，验证模型

``` 

#### 参考/集成项目

* sklearn官网：[sklearn](https://scikit-learn.org/stable/index.html)
* sklearn中文社区：[sklearn中文](https://scikit-learn.org.cn/)
* PMML文件导出：[sklearn2pmml](https://github.com/jpmml/sklearn2pmml)
* B站学习资料：[菜菜的机器学习sklearn](https://www.bilibili.com/video/BV1vJ41187hk/)