中国移动专题赛
  • 赛题规则
  • 赛题背景
  • 数据及任务描述
  • 评估指标
  • 数据下载

一、关于初赛

1、 中国移动专题赛的初赛提交预测结果和《方案说明文档》,具体要求如下:

 1)预测结果命名规则与格式按赛题说明中的格式要求提交;

 2)《方案说明文档》要求对整体方案进行说明,包括参赛者对数据分析、算法原理、方案设计及模型效果等各个环节的相关说明,提交的标准格式为PPT/PDF格式;

 3)两份材料放至同一文件夹并压缩,命名方式为赛题序号+团队名称,例如模型挑战赛赛题一+团队名称,提交作品方式为在网站上传提交压缩文件;

2、初赛评选规则

初赛根据选手提交的预测结果按各赛题评估指标进行排名,最终每道赛题前10名的团队进入封闭式路演复赛。


二、关于封闭式路演

1、封闭式路演参赛方式

封闭式路演分为现场参赛和远程参赛两种形式,两种参赛形式按照同一评分标准进行。封闭式路演需要团队代表演示及说明《方案说明文档》;

2、封闭式路演评选规则

封闭式路演综合初赛预测结果得分和封闭式路演评分加权计入总成绩,初赛预测结果得分和封闭式路演现场评分各占比50%,最终每道赛题前5名的团队进入决赛。


三:关于决赛

1、中国移动专题赛中,进入决赛的团队将使用“浙江移动大数据开放平台”所提供的移动海量真实数据,进行模型调优提交最终测试结果。

2、 进入决赛的团队需要在浙江移动大数据开放平台提交csv格式的测试结果和可执行源代码,根据评测指标得分排名。


当今时代,无论是线上还是线下,消费者往往被各渠道的媒体信息所淹没。而消费者对各渠道的偏好程度也各不相同,因此对于营销者而言,最大的挑战在于如何从各个渠道中选择符合用户偏好的渠道来接触用户,亦或是如何从现有的渠道中,通过筛选潜在的偏好用户,剔除渠道不敏感用户,节约营销成本的同时,提升营销转化率。

本赛题以某营销渠道为切入口,旨在通过用户基础信息数据和较为完备的消费、业务使用、终端、互联网日志数据为基础,要求参赛队伍构建营销渠道点击偏好模型,运用大数据挖掘技术和营销相关知识,分析、估算消费者对营销渠道的点击偏好和接受程度。


一:数据描述

1:数据说明

本赛题除了可使用公共数据集外,还提供用户消费数据、业务使用数据、终端数据和营销渠道点击行为数据。

消费数据表名为DataTech_Channel_Train_Upay_Use,包括如下字段:

USER_ID

用户编码

用户移动唯一标记

FACT_FEE

本月出账费

用户本月账单总费用,单位:分

L1M_FACT_FEE

上月出账费

用户上月账单总费用,单位:分

L2M_FACT_FEE

上上月出账费

用户上上月账单总费用,单位:分

CALL_FEE

本月通话费

本月通话费,单位:分

L1M_CALL_FEE

上月通话费

上月通话费,单位:分

L2M_CALL_FEE

上上月通话费

上上月通话费,单位:分

GPRS_FEE

本月数据流量费

本月数据流量费,单位:分

L1M_GPRS_FEE

上月数据流量费

上月数据流量费,单位:分

L2M_GPRS_FEE

上上月数据流量费

上上月数据流量费,单位:分

业务使用数据数据表名为DataTech_Channel_Train_Busi_Use,包括如下字段:


USER_ID

用户ID

用户移动唯一标记

TOT_CALL_CNT

通话总次数

用户当月通话总次数

TOT_CALL_DUR

通话总时长

用户当月通话总时长,单位:分

CALLING_CNT

主叫通话次数

用户当月主叫通话次数

CALLING_DUR

主叫通话时长

用户当月主叫通话时长,单位:分

CALL_10086_CNT

与10086通话次数

用户当月与10086通话次数

CALL_10086_DUR

与10086通话时长

用户当月与10086通话时长,单位:分

CALLING_10086_CNT

拨打10086次数

用户当月拨打10086次数

CALLING_10086_DUR

拨打10086时长

用户当月拨打10086时长,单位:分

CALLED_10086_CNT

接听10086次数

用户当月接听10086次数

CALLED_10086_DUR

接听10086时长

用户当月接听10086时长,单位:分

NET_FLUX

移动数据上网流量

用户当月手机上网流量,单位:B

LM_NET_FLUX

上月移动数据上网流量

用户上月手机上网流量,单位:B

L2M_NET_FLUX

上上月移动数据上网流量

用户上上月手机上网流量,单位:B

终端数据数据表名为DataTech_Channel_Train_Utrm_Use,包括如下字段:


USER_ID

用户UID

用户移动内部唯一标识

FIR_IMEI

排名第一终端IMEI

用户最近使用的终端串号

FIR_IMEI_BRAND

排名第一终端品牌

用户最近使用的终端品牌,例如 三星 苹果

FIR_IMEI_MDL

排名第一终端型号

用户最近使用的终端型号 ,例如 iphone 6s

FIR_IMEI_MODE

排名第一终端制式

用户最近使用的终端的制式信息,GSMWCDMALTE

FIR_IMEI_SESOLUTION

排名第一终端屏幕尺寸

终端的屏幕的大小尺寸

FIR_IMEI_PRICE

排名第一终端价位

终端市场价格

FIR_IMEI_CPU_NUM

排名第一终端CUP核心数

终端CPU核心数

FIR_IMEI_GPU_RATE

排名第一终端CUP主频

终端CPU主频(X不详)

FIR_IMEI_TWO_SIM_FLAG

排名第一是否双卡机

Y:有,N:没有

FIR_IMEI_WLAN_FLAG

排名第一是否支持WLAN

Y:有,N:没有

FIR_IMEI_GPRS_FLAG

排名第一是否支持GPRS

Y:有,N:没有

FIR_IMEI_WAP_FLAG

排名第一是否支持WAP

Y:有,N:没有

FIR_IMEI_IOS

排名第一终端操作系统

安卓 ios等

FIR_IMEI_SMART

排名第一智能机标示

1 智能机 0 非智能机

SEC_IMEI_BRAND

排名第二终端品牌

用户使用频率第二的终端品牌,例如 三星 苹果

SEC_IMEI_MDL

排名第二终端型号

用户使用频率第二的终端型号 ,例如 iphone 6s

营销渠道点击行为数据表名为DataTech_Channel_Train_User,包括如下字段:

USER_ID

用户标识

加密,标识唯一用户

CLICK_FLAG

点击标识

1:点击  0:未点击


二:任务描述

1:训练数据部分:

本赛题提供一定量的用户在一个月时间内的消费数据、业务使用数据和终端数据(2018.6.1~2018.6.30),以及部分用户在未来一个月(2018.7.1~2018.7.31)在营销过程中是否点击营销链接的数据。

公共数据集提供用户3个月的基础信息,以及在一个月时间之内(6.1~6.30)的通话、轨迹和上网行为数据。


2:预测数据部分:

2018.7.1~2018.7.31日用户对此营销渠道的点击偏好行为。

为保护用户的隐私和数据安全,所有数据均已进行了采样和脱敏。

数据中部分列存在空值或NULL,请参赛者自行处理。


3:评分数据格式:

参赛者完成对用户营销渠道点击偏好行为预测后,需要将结果放入指定格式的数据表(非分区表)中,要求结果表名为:DataTech_Channel_Predict,格式同DataTech_Channel_Train_User,要求去除重复,预测结果以csv格式提交。


三:数据文件

1:初赛数据

初赛阶段提供1.5万个用户的完整行为数据,预测DataTech_Channel_Predict表中指定用户的营销渠道点击偏好。

此阶段数据可下载使用。


2:决赛数据

决赛阶段提供50万用户的完整行为数据,预测DataTech_Channel_Predict表中指定用户的营销渠道点击偏好,并提交可执行源代码。

此阶段数据不可下载,决赛入围选手完成浙江移动大数据开放平台赋权后,需使用平台完成数据处理、建模、算法调试、产出结果等所有环节。


本赛题采用经典的精确度(precision)、召回率(recall)和F1值作为评估指标。具体计算公式如下:

图片3.jpg

其中PredictionSet为算法预测的点击数据集合,ReferenceSet为真实的点击数据集合。我们以F1值作为最终的唯一评测标准。



请至个人中心的赛题下载页面下载,登录账户