中国移动专题赛
  • 赛题规则
  • 赛题背景
  • 数据及任务描述
  • 评估指标
  • 数据下载

一、关于初赛

1 中国移动专题赛的初赛提交预测结果和《方案说明文档》,具体要求如下:

 1)预测结果命名规则与格式按赛题说明中的格式要求提交;

 2)《方案说明文档》要求对整体方案进行说明,包括参赛者对数据分析、算法原理、方案设计及模型效果等各个环节的相关说明,提交的标准格式为PPT/PDF格式;

 3)两份材料放至同一文件夹并压缩,命名方式为赛题序号+团队名称,例如模型挑战赛赛题一+团队名称,提交作品方式为在网站上传提交压缩文件;

2、初赛评选规则

初赛根据选手提交的预测结果按各赛题评估指标进行排名,最终每道赛题前10名的团队进入封闭式路演复赛。


二、关于封闭式路演

1、封闭式路演参赛方式

封闭式路演分为现场参赛和远程参赛两种形式,两种参赛形式按照同一评分标准进行。封闭式路演需要团队代表演示及说明《方案说明文档》;

2、封闭式路演评选规则

封闭式路演综合初赛预测结果得分和封闭式路演评分加权计入总成绩,初赛预测结果得分和封闭式路演现场评分各占比50%,最终每道赛题前5名的团队进入决赛。


三:关于决赛

1、中国移动专题赛中,进入决赛的团队将使用“浙江移动大数据开放平台”所提供的移动海量真实数据,进行模型调优提交最终测试结果。

2、 进入决赛的团队需要在浙江移动大数据开放平台提交csv格式的测试结果和可执行源代码,根据评测指标得分排名。



移动互联网时代,智能终端“朝着万物互联、迈向人机合一”的趋势早已显现,全景式的数字化生活方式正在被全新塑造。以智能手机、平板电脑、智能手表为代表的智能终端设备已成为人们日常生活中不可或缺的组成部分,且随着人们对终端设备的品类及功能要求的不断提高,智能终端设备也在迅速迭代出新,如何让用户选购到最符合需求的优质优价产品对用户体验来说至关重要。

本赛题以浙江移动用户数据为基础,参赛队伍需要通过大数据和算法构建终端换机需求用户预测模型,本赛题的终端机包括手机、平板电脑、智能行车后视镜等各类终端产品,通过模型预测出一个月内有换机需求的人群,希望参赛队伍能够挖掘数据背后丰富的内涵,通过模型预测,让用户能获得精准的、高品质的终端产品推荐,获得更好的用户体验。


一:数据描述

1:数据说明

本赛题除了可使用公共数据集外,还提供用户终端使用轨迹、消费行为数据、业务使用数据、终端基础信息和换机行为数据。

用户终端使用轨迹表名为DataTech_Terminal_Train_Trail,包括如下字段:

USER_ID

用户唯一标记

抽样&字段脱敏

IMEI

用户当前在用终端IMEI前8位

字段脱敏

TERM_BRAND

终端品牌

用户使用终端的终端品牌

TERM_MDL

终端型号

用户使用终端的终端型号

COMM_FIRST_USE_DATE

通信首次使用时间

精确到秒

COMM_LAST_USE_DATE

通信最晚使用时间

精确到秒

COMM_USE_DAYS

终端历史以来累计使用天数

一个终端可能被多个用户使用,该终端累计的使用天数

消费行为数据表名为DataTech_Terminal_Train_Upay,包括如下字段:


USER_ID

用户唯一标记

抽样&字段脱敏

FACT_FEE

本月出账费

单位:分

L1M_FACT_FEE

上月出账费

单位:分

L2M_FACT_FEE

上上月出账费

单位:分

N3M_AVG_FACT_FEE

近三月平均出账费

单位:分

CALL_FEE

本月通话费

单位:分

L1M_CALL_FEE

上月通话费

单位:分

L2M_CALL_FEE

上上月通话费

单位:分

N3M_AVG_CALL_FEE

近三月平均通话费

单位:分

GPRS_FEE

本月数据流量费

单位:分

L1M_GPRS_FEE

上月数据流量费

单位:分

L2M_GPRS_FEE

上上月数据流量费

单位:分

N3M_AVG_GPRS_FEE

近三月平均数据流量费

单位:分

业务使用数据表名为DataTech_Terminal_Train_Busi,包括如下字段:


USER_ID

用户唯一标记

抽样&字段脱敏

TOT_CALL_CNT

通话总次数

用户当月通话总次数

TOT_CALL_DUR

通话总时长

单位:分

LM_TOT_CALL_CNT

上月通话总次数

用户上月通话总次数

LM_TOT_CALL_DUR

上月通话总时长

单位:分

L2M_TOT_CALL_CNT

上上月通话总次数

用户上上月通话总次数

L2M_TOT_CALL_DUR

上上月通话总时长

单位:分

NET_FLUX

移动数据上网流量

单位:B

LM_NET_FLUX

上月移动数据上网流量

单位:B

L2M_NET_FLUX

上上月移动数据上网流量

单位:B

终端基础信息表名为DataTech_Terminal_Train_Basic,包括如下字段:

IMEI

终端唯一串号

字段脱敏

TERM_FAC_NAME

厂家名字

终端所属的厂家名称

TERM_MDL_NAME

具体型号

终端具体型号

SCR_SIZE

主屏大小

终端主屏大小(X不详)

CPU_RATE

CPU时钟频率

终端CPU时钟频率(X不详)

SRC_RES

屏幕分辨率

终端屏幕分辨率(X不详)

ROM_CAP

ROM容量

终端ROM容量(X不详)

MARKET_PRC

终端上市价格

终端上市价格(X不详)

MARKET_DATE

上市时间

终端上市时间(X不详)

CPU_NUM

核心数

终端核心数(X不详)

BATTERY_CAP

电池容量

终端电池容量(X不详)

IS_SMART

是否为智能手机

Y:有,N:没有

IS_CAM

有无摄像头

Y:有,N:没有

用户换机数据,表名为DataTech_Terminal_Train_User,包括如下字段:


USER_ID

用户唯一标记

抽样&字段脱敏

flag

是否换机标识

1:换机  0:未换机


二:任务描述

1:训练数据部分:

本赛题提供用户在一个月时间之内的终端使用轨迹、消费行为、业务使用、终端基础信息(2018.6.1~2018.6.30),以及部分用户在未来一个月(2018.7.1~2018.7.31)的换机行为数据。

公共数据集提供用户3个月的基础信息,以及在一个月时间之内(6.1~6.30)的通话、轨迹和上网行为数据。


2:预测数据部分:

2018.7.1到2018.7.31日用户是否会换机。

为保护用户的隐私和数据安全,所有数据均已进行了采样和脱敏。

数据中部分列存在空值或NULL,请参赛者自行处理。


3:评分数据格式:

参赛者完成对用户换机行为预测之后,需要将结果放入指定格式的数据表(非分区表)中,要求结果表名为:DataTech_Terminal_Predict,格式同DataTech_Terminal_Train_User,要求去除重复,预测结果以csv格式提交。


三:数据文件

1:初赛数据

初赛阶段提供1.5万个用户的完整行为数据,预测DataTech_Terminal_Predict表中指定用户的换机行为。

此阶段数据可下载使用。


2:决赛数据

决赛阶段提供50万个用户的完整行为数据,预测DataTech_Terminal_Predict表中指定用户的换机行为,并提交可执行源代码。

此阶段数据不可下载,决赛入围选手完成浙江移动大数据开放平台赋权后,需使用平台完成数据处理、建模、算法调试、产出结果等所有环节。


本赛题采用经典的精确度(precision)、召回率(recall)和F1值作为评估指标。具体计算公式如下:

53.png

其中PredictionSet为算法预测的换机数据集合,ReferenceSet为真实的答案换机数据集合。我们以F1值作为最终的唯一评测标准。




请至个人中心的赛题下载页面下载,登录账户