我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:香港跑狗图 > 调度规则 >

离线调度说明

归档日期:06-27       文本归类:调度规则      文章编辑:爱尚语录

  本文实现的是广告CTR预测的场景。广告CTR预测是广告行业的典型应用,通过历史数据训练预测模型,对于每天的增量数据进行预测,找出广告的CTR符合标准的样本进行投放。

  整套实验使用了阿里云机器学习进行数据挖掘,通过大数据开发套件进行调度和推送。具体的业务场景是:

  如下图所示,数据是通过random算法随机生成,所以本次实验不针对结果进行评估,主要介绍实验搭建以及和大数据开发套件的调度使用。数据包含20160919、20160920的历史数据,需要针对20160921的数据预测。使用的是MaxCompute的分区表。

  实验可以大致分为四个模块,数据源导入(ad),数据预处理(归一化),模型训练(逻辑回归二分类),预测(预测)。

  中间过程包括数据归一化和模型训练两个步骤。模型训练是通过历史数据训练生成的预测模型。(详细原理可以参考心脏病预测案例)

  大数据开发套件与机器学习平台共用一套项目,选择需要调度的实验所在的项目,单击进入数据开发。

  建立了节点任务之后,选择需要调度的机器学习实验,并在右边的配置栏选择需要调度的时间,本实验选择每日的凌晨0点进行训练和推送信息。

  大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。 诚邀您参加阿里云MaxCompute问卷调研,问卷填写大概需要花费您5-10分钟。我们将在认线元MaxCompute无门槛代金券。参与地址:

  数据工场DataWorks (原大数据开发套件Data IDE) 是基于MaxCompute作为计算和存储引擎的用于工作流可视化开发和托管调度运维的海量数据离线加工分析平台,支持按照时间和依赖关系的任务全面托管调度,支持每日千万级别的任务按照DAG关系准确、准时运行,提供可视化的任务监控管理工具,支持以 DAG 图的形式展示任务运行时的全局情况等

本文链接:http://mikephotos.net/diaoduguize/662.html