帮助中心

特征工程 / 机器学习 / 普通建模

此场景需要使用的应用: 可视化开发, 数据调度
通过以下 2 步构建机器学习工程

创建 Pipeline, 运行、打包、发布

可视化开发 - Pipeline 设计

创建 Pipeline 工程

普通工程

点击我的工程 - +号新建工程
- 工程类型
  - 普通: 用于管理普通 Pipeline, 画布中仅可使用普通算子
以下案例创建普通工程 - Example 工程

机器学习工程

点击我的工程 - +号新建工程
- 工程类型
  - 机器学习: 用于管理普通 Pipeline, 画布中可使用普通算子和机器学习算子
以下案例创建机器学习工程 - MLExample 工程

创建机器学习 - 训练 Pipeline

此案例将创建使用逻辑回归分类算法训练模型的 Pipeline

点击工程MLExample - 新增 Pipeline
- 引擎类型: 目前仅 Spark 支持机器学习算子, Flink 仅支持普通算子
- 主函数 Class: 程序执行入口类名称
- Pipeline 类型
  - 训练
    - 模型保存路径: 设置训练的模型文件保存的 HDFS 路径
    - 评估参数保存路径: 设置模型评估的结果文件保存的 HDFS 路径
点击数据源 - 点击批处理数据源 - 拖动Libsvm 文件批处理数据源至画布中
- 点击参数右侧?查看参数说明, 按照说明填写
点击估计器 - 点击分类算法 - 拖动逻辑回归分类至画布中
- 点击参数右侧?查看参数说明, 按照说明填写
点击评估器 - 点击回归评估器 - 拖动回归评估至画布中
- 点击参数右侧?查看参数说明, 按照说明填写
将Libsvm 文件批处理数据源->逻辑回归分类->回归评估用箭头依次连接起来, 此时一个简单的机器学习训练 Pipeline 设计完成
运行测试, 点击右上角运行
- 开始运行: 在线运行测试程序是否正常运行
  - 点击开始运行, 运行结束后将打印日志
- 跳过测试: 跳过测试步骤, 即默认程序正常
代码打包, 点击下一步
- 点击打包
Jar 包发布, 点击下一步
- 选择文件路径:
  - 首次使用未创建文件路径, 请点击去创建跳转数据调度 - 资源中心 - 创建文件夹 - example
  - 回到可视化开发 - 发布页面中点击刷新按钮, 选择文件路径 - example
- 点击确认发布 到应用数据调度 的文件路径 - example下

创建机器学习 - 预测 Pipeline

点击工程MLExample - 新增 Pipeline

引擎类型: 目前仅 Spark 支持机器学习算子, Flink 仅支持普通算子
主函数 Class: 程序执行入口类名称
Pipeline 类型
- 预测
点击数据源 - 点击批处理数据源 - 拖动Libsvm 文件批处理数据源至画布中
- 点击参数右侧?查看参数说明, 按照说明填写
点击操作 - 点击模型 - 拖动模型加载至画布中
- 点击参数右侧?查看参数说明, 按照说明填写
点击操作 - 点击修改 - 拖动所有指定字段类型列修改至画布中
- 点击参数右侧?查看参数说明, 按照说明填写
点击输出 - 点击批处理输出 - 拖动批处理控制台打印至画布中
- 点击参数右侧?查看参数说明, 按照说明填写
将Libsvm 文件批处理数据源->模型加载->所有指定字段类型列修改->批处理控制台打印用箭头依次连接起来, 此时一个简单的机器学习预测 Pipeline 设计完成
运行测试, 点击右上角运行
- 开始运行: 在线运行测试程序是否正常运行
  - 点击开始运行, 运行结束后将打印日志
- 跳过测试: 跳过测试步骤, 即默认程序正常
代码打包, 点击下一步
- 点击打包
Jar 包发布, 点击下一步
- 选择文件路径:
  - 首次使用未创建文件路径, 请点击去创建跳转数据调度 - 资源中心 - 创建文件夹 - example
  - 回到可视化开发 - 发布页面中点击刷新按钮, 选择文件路径 - example
- 点击确认发布 到应用数据调度 的文件路径 - example下

创建普通 Pipeline

点击工程Example - 新增 Pipeline
- 引擎类型: Spark, Flink, 本案例使用 Spark 引擎
- 主函数 Class: 程序执行入口类名称
点击数据源 - 点击批处理数据源 - 拖动JDBC 批处理数据源至画布中
- 点击参数右侧?查看参数说明, 按照说明填写
点击数据源 - 点击批处理数据源 - 拖动Doris 批处理数据源至画布中
- 点击参数右侧?查看参数说明, 按照说明填写
点击聚合 - 点击DSL 聚合 - 拖动Union 聚合至画布中
- 点击参数右侧?查看参数说明, 按照说明填写
点击操作 - 点击修改 - 拖动重复行去重至画布中
- 点击参数右侧?查看参数说明, 按照说明填写
点击输出 - 点击批处理输出 - 拖动批处理控制台打印至画布中
- 点击参数右侧?查看参数说明, 按照说明填写
将画布中的节点按下图用箭头依次连接起来, 此时一个简单的普通 Pipeline 设计完成
运行测试, 点击右上角运行
- 开始运行: 在线运行测试程序是否正常运行
  - 点击开始运行, 运行结束后将打印日志
- 跳过测试: 跳过测试步骤, 即默认程序正常
代码打包, 点击下一步
- 点击打包
Jar 包发布, 点击下一步
- 选择文件路径:
  - 首次使用未创建文件路径, 请点击去创建跳转数据调度 - 资源中心 - 创建文件夹 - example
  - 回到可视化开发 - 发布页面中点击刷新按钮, 选择文件路径 - example
- 点击确认发布 到应用数据调度 的文件路径 - example下

创建调度工作流

通过数据调度应用创建调度工作流运行 Pipeline, 以机器学习训练 Pipeline - LogisticRegressionTrain 为例

数据调度 - 项目管理 - 创建项目
- 首次使用需创建项目, 数据调度中的工作流是以项目为维度管理的
- 创建项目 可视化开发 Example
点击项目 可视化开发 Example - 创建工作流
- 左侧列表选择 Spark 类型任务节点拖拽至画布中
- 节点名称命名为 LogisticRegressionTrain
- 运行标志: 默认正常
- 任务优先级: 默认 MEDIUM
- Worker 分组: 默认 default
- 程序类型: SCALA
- Spark 版本: Spark2
- 主函数 Class: 填写刚才命名的程序执行入口类全称
- 主程序包: 选择example/LogisticRegressionTrain.jar
- 部署方式: cluster
- 其他参数默认即可
- 保存工作流命名为 pipeline_example
回到可视化开发 Example 项目内, 找到工作流pipeline_example
- 测试运行: 点击上线, 点击运行即可立即运行测试
- 定时调度: 点击上线, 点击右侧定时按钮使用 CORN 设置工作流执行周期, 并且点击定时管理再点击上线定时, 工作流则会定时执行

功能介绍

快速入门

部署手册

使用手册

使用手册

配置

数据

网络

维护

部署手册

开发手册

升级指南

了解更多

快速入门

部署手册

使用手册

常见问题（FAQ）

采集部署

平台部署

平台配置

Web 开发

Code 开发

前端API

后端API

边缘平台

低代码开发平台

1.SQL语法

2.操作符

3.函数库

4.结构相关

系统设置

特征工程 / 机器学习 / 普通建模

创建 Pipeline, 运行、打包、发布

创建 Pipeline 工程

普通工程

机器学习工程

创建机器学习 - 训练 Pipeline

创建机器学习 - 预测 Pipeline

创建普通 Pipeline

创建调度工作流

配置

数据

网络

维护

特征工程 / 机器学习 / 普通建模 ​

创建 Pipeline, 运行、打包、发布 ​

创建 Pipeline 工程 ​

普通工程 ​

机器学习工程 ​

创建机器学习 - 训练 Pipeline ​

创建机器学习 - 预测 Pipeline ​

创建普通 Pipeline ​

创建调度工作流 ​

特征工程 / 机器学习 / 普通建模

创建 Pipeline, 运行、打包、发布

创建 Pipeline 工程

普通工程

机器学习工程

创建机器学习 - 训练 Pipeline

创建机器学习 - 预测 Pipeline

创建普通 Pipeline

创建调度工作流