中国移动专题赛
  • 赛题规则
  • 赛题背景
  • 数据及任务描述
  • 评估指标
  • 数据下载

一、关于初赛

1 中国移动专题赛的初赛提交预测结果和《方案说明文档》,具体要求如下:

 1)预测结果命名规则与格式按赛题说明中的格式要求提交;

 2)《方案说明文档》要求对整体方案进行说明,包括参赛者对数据分析、算法原理、方案设计及模型效果等各个环节的相关说明,提交的标准格式为PPT/PDF格式;

 3)两份材料放至同一文件夹并压缩,命名方式为赛题序号+团队名称,例如模型挑战赛赛题一+团队名称,提交作品方式为在网站上传提交压缩文件;

2、初赛评选规则

初赛根据选手提交的预测结果按各赛题评估指标进行排名,最终每道赛题前10名的团队进入封闭式路演复赛。


二、关于封闭式路演

1、封闭式路演参赛方式

封闭式路演分为现场参赛和远程参赛两种形式,两种参赛形式按照同一评分标准进行。封闭式路演需要团队代表演示及说明《方案说明文档》;

2、封闭式路演评选规则

封闭式路演综合初赛预测结果得分和封闭式路演评分加权计入总成绩,初赛预测结果得分和封闭式路演现场评分各占比50%,最终每道赛题前5名的团队进入决赛。


三:关于决赛

1、中国移动专题赛中,进入决赛的团队将使用“浙江移动大数据开放平台”所提供的移动海量真实数据,进行模型调优提交最终测试结果。

2、 进入决赛的团队需要在浙江移动大数据开放平台提交csv格式的测试结果和可执行源代码,根据评测指标得分排名。



大众旅游时代的到来,使旅游日益成为现代人类社会主要的生活方式和社会经济活动。旅游业也正以其强劲势头成为全球经济产业中最具活力的“朝阳产业”。据预测,未来5年间,我国旅游业将保持10.4%的增速,到2020年中国将成为世界第一大旅游目的地国和第四大客源输出国。

同时,互联网科技的力量更是给这个巨大的消费市场注入了新鲜血液,在互联网+的模式下再度被赋能的旅游产业,不仅拓展了全新的发展领域,也令传统的旅游产业不断转型升级。在这个互联网技术突飞猛进的时代,面对巨大消费市场,如何通过大数据等技术细分领域,精准识别潜在旅游客户及其需求,个性化得为每一个用户订制合适的旅游方案,从细节到整体完成旅游产业的转型升级成为行业内外人士都十分关注的课题。

本赛题以浙江移动用户数据为基础,要求参赛队伍通过大数据和算法构建用户旅游出行意向和类型的预测模型,其中出行类型要求细化到省内游、省外游、境外游,希望参赛队伍能够挖掘数据背后丰富的内涵,通过模型预测,让用户能获得更个性化、更便捷直接的服务体验,同时帮助提高旅游管理和服务的质量。


一:数据描述

1:数据说明

本赛题除了可使用公共数据集外,还包括个人交往圈亲密度数据、用户业务使用数据、用户出行行为数据。

个人交往圈亲密度数据表名为DataTech_Travel_Train_Qmd,包括如下字段:


USER_ID

用户唯一标记

抽样&字段脱敏

OPP_USER_ID

对端用户编码

抽样&字段脱敏

INTIMACY_10

亲密度指数分档

亲密度指数分档 ,共分为10档,10为最亲密

PVALUE

识别概率

识别概率

QQW_FLAG

是否亲情网用户

1:是,0:否

QQW_GRP_ID

亲情网编号

归属亲情网编号

QQW_CREATE_USER

亲情网组网用户编号

归属亲情网组的编号

QQW_MAIN_USER

亲情网户主用户编号

归属亲情网户主用户编号

QQW_CREATE_DATE

亲情网创建时间

归属亲情网创建时间

用户业务使用数据表名为DataTech_Travel_Train_Busi,包括如下字段:

USER_ID

用户编码

用户移动唯一标记

tot_call_cnt

通话总次数

当月通话总次数

tot_call_dur

用户当月通话总时长

单位:分

lm_tot_call_cnt

上月通话总次数

上月通话总次数

lm_tot_call_dur

上月通话总时长

单位:分

l2m_tot_call_cnt

上上月通话总次数

上上月通话总次数

l2m_tot_call_dur

上上月通话总时长

单位:分

net_flux

移动数据上网流量

用户当月手机上网流量,单位:B

lm_net_flux

上月移动数据上网流量

单位:B

l2m_net_flux

上上月移动数据上网流量

单位:B

sms_mo_cnt

发送短信条数

用户当月发送短信条数,单位:条

lm_sms_mo_cnt

上月发送短信条数

单位:条

l2m_sms_mo_cnt

上上月发送短信条数

单位:条

sms_thr_cnt

近30天短信次数

用户近30天短信次数

PROV_ROAM_CALL_CNT

省内漫游通话时长

用户当月省内漫游通话次数

PROV_ROAM_CALL_DUR

省内漫游通话时长

用户当月省内漫游通话时长,单位:分

INLAND_ROAM_CALLING_CNT

省际漫游通话次数

用户当月省际漫游通话次数

INLAND_ROAM_CALLING_DUR

省际漫游通话时长

用户当月省际漫游通话时长,单位:分

INLAND_AND_PROV_CALL_CNT

国内漫游通话次数

用户当月国内漫游通话次数

INLAND_AND_PROV_CALL_DUR

国内漫游通话时长

用户当月国内漫游通话时长,单位:分

INTN_ROAM_CALL_CNT

国际漫游语音通话次数

用户当月国际漫游语音通话次数

INTN_ROAM_CALL_DUR

国际漫游语音通话时长

用户当月国际漫游语音通话时长,单位:分

HMT_ROAM_CALL_CNT

用户当月港澳台漫游语音通话次数

用户当月港澳台漫游语音通话次数

HMT_ROAM_CALL_DUR

港澳台漫游语音通话时长

用户当月港澳台漫游语音通话时长,单位:分

 用户出行行为数据表名为DataTech_Travel_Train_User,包括如下字段:

USER_ID

用户标识

抽样&字段脱敏

FLAG

是否有旅游出行需求

0:无出行意向;
1:有出行意向

TRAVEL_TYPE

旅游类型

当flag=0,travel_type=0;
当flag=1,
travel_type=1表示境外游、travel_type=2表示省外游、travel_type=3表示省内游.


二:任务描述

1:训练数据部分:

本赛题提供一定量的用户在一个月时间内的个人交往圈亲密度数据、用户业务使用数据(2018.6.1~2018.6.30),以及部分用户在未来一个月(2018.7.1~2018.7.31)的用户出行行为数据。

公共数据集提供用户3个月的基础信息,以及在一个月时间之内(6.1~6.30)的通话、轨迹和上网行为数据。


2:预测数据部分:

2018.7.1~2018.7.31日用户是否有旅游出行意向及旅游类型。

为保护用户的隐私和数据安全,所有数据均已进行了采样和脱敏。

数据中部分列存在空值或NULL,请参赛者自行处理。


3:评分数据格式:

参赛者完成对用户旅游出行意向及旅游类型预测后,需要将结果放入指定格式的数据表(非分区表),要求结果表名为:DataTech_Travel_Predict,格式同DataTech_Travel_Train_User,要求去除重复,预测结果以csv格式提交。


三:数据文件

1:初赛数据

初赛阶段提供1.5万个用户的完整行为数据,预测DataTech_Travel_Predict表中指定用户的出游意向及类型。

此阶段数据可下载使用。


2:决赛数据

决赛阶段提供20万用户的完整行为数据,预测DataTech_Travel_Predict表中指定用户的旅游出行意向及旅游类型,并提交可执行源代码。

此阶段数据不可下载,决赛入围选手完成浙江移动大数据开放平台赋权后,需使用平台完成数据处理、建模、算法调试、产出结果等所有环节。


本赛题目标是预测用户旅游出行意向及旅游类型,将使用浙江移动用户历史出行数据作为评估测试数据,采用经典的精确度(precision)、召回率(recall)和F1值作为评估指标。具体计算公式如下:

图片3.jpg

其中PredictionSet为算法预测的出行行为,ReferenceSet为真实的用户出行数据。我们以F1值作为最终的唯一评测标准。


请至个人中心的赛题下载页面下载,登录账户