大赛名称:第二届智慧中国杯精品旅行服务成单预测数据竞赛
大赛截止日期:2018年2月7日23:59:59
竞赛背景
#第二届智慧中国杯首发# 皇包车(HI GUIDES)是一个为中国出境游用户提供全球中文包车游服务的平台。拥有境外10万名华人司机兼导游(司导),覆盖全球90多个国家,1600多个城市,300多个国际机场。截止2017年6月,已累计服务400万中国出境游用户。 由于消费者消费能力逐渐增强、旅游信息不透明程度的下降,游客的行为逐渐变得难以预测,传统旅行社的旅游路线模式已经不能满足游客需求。如何为用户提供更受欢迎、更合适的包车游路线,就需要借助大数据的力量。结合用户个人喜好、景点受欢迎度、天气交通等维度,制定多套旅游信息化解决方案和产品。
奖项
第一名 : 共计1名,20000元现金/队 + 日本东京《千与千寻》5日包车游(7座车);
第二名 : 共计2名,10000元现金/队+ 日本东京《醉美箱根》1日包车游(7座车);
第三名 : 共计3名,5000元现金/队;
第四名 : 共计5名,皇包车提供的1688元现金券/队;
入围奖:共计50名,皇包车提供的2088元现金券/队。
*注:以上第一、第二名奖品均为日本东京包车游,不包含签证,酒店,机票价格。
(详情咨询DC小运营QQ:3511403105)
·实习岗位
数据分析实习生;
产品实习生(数据方向);
IOS/android技术实习生。
*注:以上岗位均由皇包车公司提供.
时间安排
注:2017年2月1日零点排行榜将由A榜单成绩刷新为B榜单成绩(A/B榜详情请见评分算法说明)
参赛与组队规则
评分标准
评分算法A/B榜规则说明:
1. 数据分为训练数据和测试数据,在比赛开始时一并公布给参赛者;
2. 参赛者需要根据训练数据训练模型,并提交对测试数据的预测结果;
3. 主办方后台会把测试数据划分为A榜测试数据和B榜测试数据,参赛者提交对测试数据的预测结果后,系统会即时显示对于A榜测试数据的得分和排名;
4. 对于B榜测试数据的得分和排名,将会于比赛结束前一周公布并即时覆盖原来的A榜得分和排名,彼时,参赛者可以根据B榜测试数据的得分进一步调整自己的模型;
5. Z终的排名,以B榜的得分和排名为准。
任务
在这个比赛中,我们提供了5万多名用户在旅游app中的浏览行为记录,其中有些用户在浏览之后完成了订单,且享受了精品旅游服务,而有些用户则没有下单。
参赛者需要分析用户的个人信息和浏览行为,从而预测用户是否会在短期内购买精品旅游服务。
数据
*注 :
报名参赛或加入队伍后,可获取数据下载权限。
(1)数据整体描述:
数据包含5万多名用户的个人信息,以及他们上百万条的浏览记录和相应的历史订单记录,还包含有用户对历史订单的评论信息。
这些用户被随机分为2组,80%作为训练集,20%作为测试集。
两组数据的处理方式和内容类型是一致的,维壹不同的就是测试集中不提供需要预测的订单类型(即是否有购买精品旅游服务)。
(2)数据详细描述:
(a)用户个人信息:userProfile_***.csv
(***表示train或者test,下同)
数据共有四列,分别是用户id、性别、省份、年龄段。注:信息会有缺失。
例如:
userid,gender,province,age
100000000127,,上海,
100000000231,男,北京,70后
(b)用户行为信息:action_***.csv
数据共有三列,分别是用户id,行为类型,发生时间。
例如:
userid,actionType,actionTime
100000000111,1,1490971433
100000000111,5,1490971446
100000000111,6,1490971479
100000000127,1,1490695669
100000000127,5,1490695821
行为类型一共有9个,其中1是唤醒app;2~4是浏览产品,无先后关系;5~9则是有先后关系的,从填写表单到提交订单再到Z后支付。
注意:数据存在一定的缺失!
(c)用户历史订单数据:orderHistory_***.csv
该数据描述了用户的历史订单信息。数据共有7列,分别是用户id,订单id,订单时间,订单类型,旅游城市,国家,大陆。其中1表示购买了精品旅游服务,0表示未购买精品旅游服务(包括普通旅游服务和未下订单)。
注意:同一时刻可能有多个订单,属于父订单和子订单的关系。
例如:
userid,orderid,orderTime,orderType,city,country,continent
100000000371, 1000709,1503443585,0,东京,日本,亚洲
100000000393,
1000952,1499440296,0,巴黎,法国,欧洲
注意:一个用户可能会有多个订单,需要预测的是用户Z近一次订单的类型;此文件给到的订单记录都是在“被预测订单”之前的记录信息!
(d)待预测订单的数据:orderFuture_***.csv
对于train,有两列,分别是用户id和订单类型。供参赛者训练模型使用。其中1表示购买了精品旅游服务,0表示未购买精品旅游服务(包括普通旅游服务和未下订单)。
例如:
userid,orderType
102040050111,0
103020010127,1
100002030231,0
对于test,只有一列用户id,是待预测的用户列表。
(e)评论数据:userComment_***.csv
共有5个字段,分别是用户id,订单id,评分,标签,评论内容。
其中受数据保密性约束,评论内容仅显示一些关键词。
userid,orderid,rating,tags,commentsKeyWords
100000550471,
1001899,5.0,,
10044000637,
1001930,5.0,主动热情|提前联系|景点介绍详尽|耐心等候,
111333446057,
1001960,5.0,主动热情|耐心等候,['平稳', '很好']
大学生分类赛事交流QQ群组 | |
提示:建议同学们根据自己的专业和兴趣爱好有选择性的添加,而不是盲从添加所有群组。(每人限加4个,谢谢配合!) | |
我爱竞赛网赛事交流总群 | 1061549229 |
商业创业比赛交流群 | 712872412 |
设计广告比赛交流群 | 1130798468 |
科技IT类比赛交流群 | 952392386 |
学科技能比赛交流群 | 788290720 |
选秀歌唱比赛交流群 | 1132347268 |
兴趣爱好比赛交流群 | 936117096 |
公益志愿者交流群 | 952090434 |
青年机遇信息交流群 | 671996694 |