Skip to content

特征工程 / 机器学习 / 普通建模

此场景需要使用的应用: 可视化开发, 数据调度
通过以下 2 步构建机器学习工程

创建 Pipeline, 运行、打包、发布

可视化开发 - Pipeline 设计

创建 Pipeline 工程

普通工程
  • 点击我的工程 - +号新建工程
    • 工程类型
      • 普通: 用于管理普通 Pipeline, 画布中仅可使用普通算子
  • 以下案例创建普通工程 - Example 工程
机器学习工程
  • 点击我的工程 - +号新建工程
    • 工程类型
      • 机器学习: 用于管理普通 Pipeline, 画布中可使用普通算子和机器学习算子
  • 以下案例创建机器学习工程 - MLExample 工程
  • image.png

创建机器学习 - 训练 Pipeline

此案例将创建使用逻辑回归分类算法训练模型的 Pipeline

  • 点击工程MLExample - 新增 Pipeline
    • 引擎类型: 目前仅 Spark 支持机器学习算子, Flink 仅支持普通算子
    • 主函数 Class: 程序执行入口类名称
    • Pipeline 类型
      • 训练
        • 模型保存路径: 设置训练的模型文件保存的 HDFS 路径
        • 评估参数保存路径: 设置模型评估的结果文件保存的 HDFS 路径
  • image.png
  • 点击数据源 - 点击批处理数据源 - 拖动Libsvm 文件批处理数据源至画布中
    • 点击参数右侧?查看参数说明, 按照说明填写
    • image.png
  • 点击估计器 - 点击分类算法 - 拖动逻辑回归分类至画布中
    • 点击参数右侧?查看参数说明, 按照说明填写
    • image.png
  • 点击评估器 - 点击回归评估器 - 拖动回归评估至画布中
    • 点击参数右侧?查看参数说明, 按照说明填写
    • image.png
  • Libsvm 文件批处理数据源->逻辑回归分类->回归评估用箭头依次连接起来, 此时一个简单的机器学习训练 Pipeline 设计完成
  • 运行测试, 点击右上角运行
    • 开始运行: 在线运行测试程序是否正常运行
      • 点击开始运行, 运行结束后将打印日志
    • image.png
    • 跳过测试: 跳过测试步骤, 即默认程序正常
  • 代码打包, 点击下一步
    • 点击打包
    • image.png
  • Jar 包发布, 点击下一步
    • 选择文件路径:
      • 首次使用未创建文件路径, 请点击去创建跳转数据调度 - 资源中心 - 创建文件夹 - example
      • 回到可视化开发 - 发布页面中点击刷新按钮, 选择文件路径 - example
    • 点击确认发布 到应用数据调度文件路径 - example

创建机器学习 - 预测 Pipeline

点击工程MLExample - 新增 Pipeline

  • 引擎类型: 目前仅 Spark 支持机器学习算子, Flink 仅支持普通算子
  • 主函数 Class: 程序执行入口类名称
  • Pipeline 类型
    • 预测
  • image.png
  • 点击数据源 - 点击批处理数据源 - 拖动Libsvm 文件批处理数据源至画布中
    • 点击参数右侧?查看参数说明, 按照说明填写
    • image.png
  • 点击操作 - 点击模型 - 拖动模型加载至画布中
    • 点击参数右侧?查看参数说明, 按照说明填写
    • image.png
  • 点击操作 - 点击修改 - 拖动所有指定字段类型列修改至画布中
    • 点击参数右侧?查看参数说明, 按照说明填写
    • image.png
  • 点击输出 - 点击批处理输出 - 拖动批处理控制台打印至画布中
    • 点击参数右侧?查看参数说明, 按照说明填写
    • image.png
  • Libsvm 文件批处理数据源->模型加载->所有指定字段类型列修改->批处理控制台打印用箭头依次连接起来, 此时一个简单的机器学习预测 Pipeline 设计完成
  • 运行测试, 点击右上角运行
    • 开始运行: 在线运行测试程序是否正常运行
      • 点击开始运行, 运行结束后将打印日志
    • 跳过测试: 跳过测试步骤, 即默认程序正常
  • 代码打包, 点击下一步
    • 点击打包
  • Jar 包发布, 点击下一步
    • 选择文件路径:
      • 首次使用未创建文件路径, 请点击去创建跳转数据调度 - 资源中心 - 创建文件夹 - example
      • 回到可视化开发 - 发布页面中点击刷新按钮, 选择文件路径 - example
    • 点击确认发布 到应用数据调度文件路径 - example

创建普通 Pipeline

  • 点击工程Example - 新增 Pipeline
    • 引擎类型: Spark, Flink, 本案例使用 Spark 引擎
    • 主函数 Class: 程序执行入口类名称
    • image.png
  • 点击数据源 - 点击批处理数据源 - 拖动JDBC 批处理数据源至画布中
    • 点击参数右侧?查看参数说明, 按照说明填写
  • 点击数据源 - 点击批处理数据源 - 拖动Doris 批处理数据源至画布中
    • 点击参数右侧?查看参数说明, 按照说明填写
  • 点击聚合 - 点击DSL 聚合 - 拖动Union 聚合至画布中
    • 点击参数右侧?查看参数说明, 按照说明填写
  • 点击操作 - 点击修改 - 拖动重复行去重至画布中
    • 点击参数右侧?查看参数说明, 按照说明填写
  • 点击输出 - 点击批处理输出 - 拖动批处理控制台打印至画布中
    • 点击参数右侧?查看参数说明, 按照说明填写
  • 将画布中的节点按下图用箭头依次连接起来, 此时一个简单的普通 Pipeline 设计完成
    • image.png
  • 运行测试, 点击右上角运行
    • 开始运行: 在线运行测试程序是否正常运行
      • 点击开始运行, 运行结束后将打印日志
    • 跳过测试: 跳过测试步骤, 即默认程序正常
  • 代码打包, 点击下一步
    • 点击打包
  • Jar 包发布, 点击下一步
    • 选择文件路径:
      • 首次使用未创建文件路径, 请点击去创建跳转数据调度 - 资源中心 - 创建文件夹 - example
      • 回到可视化开发 - 发布页面中点击刷新按钮, 选择文件路径 - example
    • 点击确认发布 到应用数据调度文件路径 - example

创建调度工作流

通过数据调度应用创建调度工作流运行 Pipeline, 以机器学习训练 Pipeline - LogisticRegressionTrain 为例

  • 数据调度 - 项目管理 - 创建项目
    • 首次使用需创建项目, 数据调度中的工作流是以项目为维度管理的
    • 创建项目 可视化开发 Example
  • 点击项目 可视化开发 Example - 创建工作流
    • 左侧列表选择 Spark 类型任务节点拖拽至画布中
    • 节点名称命名为 LogisticRegressionTrain
    • 运行标志: 默认正常
    • 任务优先级: 默认 MEDIUM
    • Worker 分组: 默认 default
    • 程序类型: SCALA
    • Spark 版本: Spark2
    • 主函数 Class: 填写刚才命名的程序执行入口类全称
    • 主程序包: 选择example/LogisticRegressionTrain.jar
    • 部署方式: cluster
    • 其他参数默认即可
    • image.png
    • 保存工作流命名为 pipeline_example
  • 回到可视化开发 Example 项目内, 找到工作流pipeline_example
    • 测试运行: 点击上线, 点击运行即可立即运行测试
    • 定时调度: 点击上线, 点击右侧定时按钮使用 CORN 设置工作流执行周期, 并且点击定时管理再点击上线定时, 工作流则会定时执行