获奖团队简介
团队名称:LSTY
团队成员:张凌瑞、林国伟、周瑞、尹光起
团队共4名成员,均为来自电子科技大学、东南大学、中南大学、西安交通大学的在读研究生,就读于不同的专业方向,包括数学、人工智能、电子信息以及推荐算法。团队成员均为数据挖掘爱好者。
所获奖项:三等奖
摘 要
近年来,中国经济飞速发展,国际地位和国际影响力不断提高,科技发展水平更是突飞猛进。以北京、上海、广州、深圳等城市为首的一线大城市,更是带领着我国经济稳步发展。然而,随着一线城市的生活压力不断增大,越来越多的年轻人选择了返回家乡发展。
中国联通从2012年就初步完成了全网数据的集中,到2014年就开始采集上网和位置数据,搭建大数据平台,数据量破P级,2015年对外推出了第一款指数产品,2016年,大数据纳入6大创新业务之一,开始体系化尝试对外合作,2017年,在之前相对成熟的基础上,成立了大数据公司,形成了运营商第一个大数据公司,通过市场化的形式来进行市场服务,2018年是联通正式市场户的第一年,2019年是发展之年,联通将聚焦行业,并开展全生态链、多方位的大数据合作,成立大数据中心,2021年更是整合了中国联通旗下的五家全资子公司,成立了联通数字科技有限公司,截至目前,中国联通大数据体系已形成九大类3000个以上标签,每日千亿级数据采集加工能力,pb级存储能力能够提供4亿用户的全样本数据,不仅如此,中国联通也一直在进行针对大数据应用和服务模式的创新研究为数据行业提供不少的经验和指导。大数据业务在运营商中连续多年稳居第一。
本文基于联通基站产生的用户信令数据、上网产生的上网行为数据、日常通话和短信产生的数据,进行数学建模,充分挖掘潜在信息,采用机器学习和深度学习等模型进行训练,对用户是否会返乡发展做出有效判断,为更高效服务用户提供基础,提升用户产品使用体验。
关 键 词
大数据,数学建模,机器学习,深度学习
1 数据分析
数据集分为59872条有label标签的训练集、39884条标签label未知的训练集、49858条A榜测试集和49926条B榜测试集。这里主要分析含有label标签的训练集,其中正样本19442条,负样本59872条,正样本占比0.2504。
数据包含id特征、位置类特征、互联网类特征、通话类特征和Y标签。Id是唯一标识特征,不属于数据本身,因此不用做模型训练,位置类特征有f1、f2和f4-f6共5个特征,互联网类特征有f3和f7-f42共37个特征,通话类特征有f43-f46共4个特征,Y标签用于标识是否返乡发展,只在部分训练集中存在。
在位置类特征中,数据分布有明显的差异化,其中f1和f2特征中,值为0的返乡发展概率明显大于值为1的概率,如图1所示。
图1:特征f1和f2分析
互联网类特征中,不同特征之间的差异较大,f3特征取值只有mid、high和low三种,其中取值high的返乡概率明显高于其他取值,如图2所示。
图2:特征f3分析
通话类特征中,4个特征均表现出取值较小有较大概率返乡的现象。
训练集存在一定的干扰数据,将数据进行不打乱的60折交叉验证可以看出,在最后10部分数据中AUC明显低于其他部分数据,如图3所示。因此删去数据后5000条以保证模型训练的准确性。
图3:数据清洗
2 特征工程
本次赛题的数据均为匿名数据,所以很难从业务层面挖掘太多有用的信息,更多的则是利用数据的分布特点和交叉进行挖掘。
2.1 重复特征统计
通过对数据分析我们发现存在部分数据重复出现的情况,考虑到在训练集和测试集都出现了重复特征,所以并未选择删除,而是进行重复次数统计,增强模型区分重复数据的能力。
图4:重复特征统计
2.2 特征交叉
经过初步的分析,我们发现位置信息和通话信息在模型中的特征重要性排名靠前,于是我们采取分别在位置信息和通过信息内进行特征的加减乘除,以挖掘更多的有用的信息,
对于位置信息还可以采取乘以放大系数后再进行交叉。同时考虑到赛题数据均为匿名数据,且测试集分为A,B榜,所以没有对于特征组合方式进行太多尝试,以保证模型的稳定性。
图5:位置类特征交叉
2.3 其他特征
2.3.1 特征二值化
赛题数据中0出现的次数较多,因此特征是否为0具有一定的表征能力,所以对特征进行二值化处理。
2.3.2 个数编码
按列统计每个特征不同取值出现的次数,按行统计每行数据0出现的次数
2.3.3 Onehot编码
对于部分类别特征采用onehot编码。
2.3.4 排序特征
为减小特征不同量纲以及特征大小带来的影响,按照特征值大小进行排序并作为新的特征。
3 模型方案
模型的构建与融合也是本赛题十分重要的工作,构建差异性的模型以及进行特征融合是提高预测精度和保证模型稳定性的关键。因为不同的模型构造原理不同,对于数据的处理方式也不同,对于数据的拟合能力也不尽相同,得到的结果自然也具有差异性。因为本方案采取LightGBM[1]、NN、Autogluon[2]三种不同的方案进行建模,同时对每种模型采取差异性特征工程,用以特征融合。
图6:模型方案
特征融合的在本赛题也显得尤为重要,本方案采取的是投票的方式。在A榜我们对不同方案赋予不同的权重,对于线下和线上效果都表现更好的模型给予较高的权重,最终本模型在A榜取得了0.91266679的成绩,排名第2。B榜我们并未完全选取与A榜测试集相同的方案,因为B榜测试集与A榜测试集具有一定的分布差距,为了更好地保证模型的稳定性,我们对不同模型赋予相近的权重,防止对A榜数据的过拟合,最终B榜取得了0.89980302的成绩,排名第5。这可能也是我们前几名选手的差距所在,本赛题的分数差距较小,前排的差距更是在十万分位,采取更有效的融合方式也是本方案需要进一步探索的地方。
致 谢
感谢中国计算机协会创办本届比赛,感谢DataFountain提供比赛平台,给了我们一个锻炼学习的机会。感谢本次赛事的各位工作人员的辛勤付出和各位评委老师的悉心指导。
参 考
[1] Qi M . LightGBM: A Highly Efficient Gradient Boosting Decision Tree[C]// Neural Information Processing Systems. Curran Associates Inc. 2017.
[2] Erickson N , Mueller J , Shirkov A , et al. AutoGluon-Tabular: Robust and Accurate AutoML for Structured Data[J]. 2020.
—End—
戳“阅读原文”,速来参赛办赛~
原文始发于微信公众号(DataFountain):【三等奖方案】返乡发展人群预测「LSTY」团队思路