酒店消费者数据分析-线上酒店用户流失分析预警
微信号
KTV115116
本文目录一览:
线上酒店用户流失分析预警
本文是对某线上酒店用户流失预测分析项目的一个总结。
目录/分析思路酒店消费者数据分析:
01: 项目介绍
02:问题分析
03:数据探索
04:数据预处理
05:建模分析
06:用户画像分析
一、项目介绍
该项目是对某酒店预订网在一段时间内的客户预定信息数据进行分析酒店消费者数据分析,通过算法预测客户访问的转化结果酒店消费者数据分析,挖掘出影响用户流失的关键因素,并深入了解用户画像及行为偏好,从而更好地完善产品设计,进行个性化营销服务,以减少用户流失,提升用户体验。
二、问题分析
这个项目是问题诊断型,要解决的问题是关于用户流失的。在官方提供的字段和解释中,有一个label字段,这个是目标变量,也就是酒店消费者数据分析我们需要进行预测的值。label=1代表客户流失,label=0代表客户未流失,很显然这是个分类的预测问题。
我们的目标就是在预测准确率高的同时最大化召回率,从业务角度出发,也就是将更多原本可能会流失的客户最大概率地预测出来,以针对性进行挽留。因为通常来讲,获取新用户的成本比挽留老用户流失的成本要多得多。
三、数据探索
1、数据总体情况
本数据集合userlostprob_data.txt,为某酒店预订网2016年5月16至21日期间一周的访问数据。
本数据集总的数据共有689945行,51列,包含样本id,label以及49个变量特征。
考虑到保护用户隐私,该数据经过了数据脱敏处理,和实际的订单、浏览量、转化率有一些差距,但是并不影响问题的可解性。
2、数据指标梳理
观察数据集,里面的变量比较多。所以首先将数据字典中中文解释替换对应变量名,增强可读性,然后最好将指标进行梳理分类,然后逐个字段进行解析。
经过研究发现,指标大概可以分为三类:一类是订单相关的指标,如入住日期、订单数、取消率等;一类是与客户行为相关的指标,如星级偏好、用户偏好价格等;还有一类是与酒店相关的指标,如酒店评分均值、酒店评分人数、平均价格等。
3、相关特征描述性分析
3.1 访问日期和入住时间
入住人数和访问人数都在5月20日达到峰值,大概是“520”情人节的原因;5月21日之后入住人数大幅减少,后面的两个小波峰,表明周末会比平日人多一些。
3.2 访问时间段
可以观察到,凌晨3-5点是访问人数最少的时间段,因为大多数人这个时间都在睡觉;在晚上9-10点左右访问人数是最多的。
3.3 客户价值
“客户近1年价值”和“客户价值”两个特征非常相关,都可以用来表示客户的价值;可以看到,大部分客户的价值在0-100范围;有些客户价值高达600,后期需重点关注分析这类高价值客户。
3.4 消费能力指数
基本呈现正态分布,大部分人的消费能力在30附近。消费能力达到近100的人数也很多,说明在我们酒店的访问和入住客户中,存在不少高消费水平群体。
3.5 价格敏感指数
去掉极值,数据呈右偏分布,大部分客户对价格不是很敏感,不用太费心定价;针对价格敏感指数100的客户群体,可以采用打折的方式进行吸引。
3.6 入住酒店平均价格
大部分人选择酒店价格在1000以下,价格2000以上的酒店选择的人非常少;排除“土豪”,可以看到,消费者对酒店价格的选择,基本是一个正偏态的分布,大部分人会选择的平均价格在300元左右(大概是快捷酒店一类)。
3.7 用户年订单数
大部分用户的年订单数在40以下,同时,也存在部分频繁入住酒店的用户,需要重点维护;
3.8 订单取消率
用户一年内取消订单率最多的是100%和0,对于百分百取消订单的客户可以结合订单数了解一下原因。
3.9 一年内距离上次下单时长
可以观察出,预定间隔时间越长的人数是递减的,说明相当多的人订酒店还是比较频繁的;侧面反映出“熟客”会经常性地选择预定酒店,回头客较多。
3.10 会话ID
服务器分配给访问者的一个id,1为新的访客。
访问客户中老客户占大多数;老客的预定概率比新客的预定概率稍微高一点。
四、数据预处理
4.1 重复值处理
数据维度没有发生 变化,说明该数据集没有重复值。
4.2 生成衍生字段
基于对业务的理解,考虑到用户提前预定酒店时间这一特征可能会比较重要,将两个日期型特征转化生成一个新的特征,提高模型准确度和可解释性。
4.3 缺失值处理
查看缺失值情况
共51个字段,缺失字段:44个
缺失值处理思路及过程
查看特征分布情况:
查看所有数值型特征的分布情况,根据数据分布合理选用处理方法,包括异常值、缺失值处理,同时有助于深入了解用户行为。
共51个字段,缺失字段:44个,选择合适的方法进行缺失值处理:
缺失比例80%以上:1个,“近7天用户历史订单数”缺失88%,直接删除该字段。
趋于正态分布的字段,使用均值填充;右偏分布的字段,使用中位数填充。
检查缺失值填充情况
查看可知,缺失值数据已填充完毕。
4.4 异常值处理
极值处理:
(后面基于实际业务思考,盖帽法存在部分不合理,可能会过滤高价值用户,需要调整)
负值处理:
4.5 标准化处理
距离类模型需要提前进行数据标准化。
五、建模分析
首先拆分训练集和测试集
5.1 逻辑回归
[0.7366529216096935, 0.7016048745527705]
5.2 决策树
[0.8728884186420657, 0.8448881691422343]
5.3 随机森林
[0.8936581901455913, 0.9399374165108152]
5.4 朴素贝叶斯
[0.6224554131126394, 0.6610756921767458]
5.5 XGBOOST
[0.8886143098362913, 0.9383456626294802]
5.6 模型比较
画出ROC曲线
可以看到,朴素贝叶斯表现最差,逻辑回归的表现也不是很好,说明该数据不是线性可分的;随机森林和xgboost模型的表现差不多,二者的AUC得分都在0.9以上,分类效果很好,随机森林AUC值为0.94更高一点,固采用随机森林进行用户流失预测。
5.7 随机森林模型优化
交叉验证
学习曲线——取分类器为80
[0.9333570067179268, 0.97816699979759]
即根据这个随机森林模型召回率可以达到97.8%,流失客户预测准确率可以达到93.3%。
该模型可以直接上线用于用户流失预测。
5.8 影响客户流失的关键因素
用随机森林分析影响客户流失的因素:使用feature_importance方法,可以得到特征的重要性排序。
最重要的前10个特征:
年访问次数、一年内距上次访问时长、昨日访问当前城市同入住日期的app uv数、一年内距离上次下单时长、昨日提交当前城市同入住日期的app订单数、24小时内已访问酒店可订最低价均值、24小时内已访问酒店商务属性指数均值、24小时内已访问次数最多酒店可订最低价、24小时历史浏览次数最多酒店评分人数、客户价值 。
六、用户画像分析
接下来用K-Means聚类的方法将用户分为3类,观察不同类别客户的特征。
K-means聚类
可以看到,聚出来的3类用户有各自非常明显的特征,针对不对类用户的个性化营销建议:
0类为中等群体: 消费水平和客户价值都偏低,访问和预定频率较高,提前预定的时间是三类中最长的;花费非常多的时间进行浏览才能做出选择,比较谨慎,推测可能为出门旅行的用户。
建议:尽可能多地进行推送,因为此类客户通常比较喜欢浏览;多推荐价格相对实惠的酒店;推送当地旅游资讯,因为这类客户旅游出行的概率较大。
1类为低价值客户: 消费水平和客户价值极低,偏好价格较低,访问和预定频率很低; sid值很低,说明新客户居多。
建议:按照流失客户处理,不建议花费过多营销成本,不做特定渠道运营;推荐促销活动,价格折扣大的的低价酒店;新用户占比较大,潜在客户居多,可以维持服务推送。
2类为高价值客户: 消费水平高,客户价值大,追求高品质,价格敏感度高;登陆时间长,访问次数多,提前预定时间短,但退单次数较多。
建议:为客户提供更多差旅地酒店信息; 推荐口碑好、性价比高的商务连锁酒店房源吸引用户; 在非工作日的11点、17点等日间流量小高峰时段进行消息推送。
一些备注:
1、数据特征筛选时可以做相关性分析,因为可能某些特征之间存在高度相关,可以用相关性分析去掉和目标变量相关性小于0.01的变量,其他变量之间相关性高于0.9的可以删除,再利用主成份分析对指标进行降维整合,可能会使模型效果达到最好。
2、如果想对用户分类更加精细,可以使用RFM模型进行用户价值分析。但本项目特征包含信息较多,用RFM可能损失信息量比较大。
酒店行业数据分析内容包括什么软件
酒店行业数据分析内容包括友盟+,百度统计等。
主要用于网站流量统计,功能包括:流量分析、来源分析、访问分析、转化分析、访客分析、优化分析。通过来源分析,可以直接看到网站流量的主要来源,是用户直接访问,还是通过搜索引擎、外部链接。
友盟+功能还算全面,可以涵盖从用户统计、分析到运营。包括即席分析功能在内,大部分功能都是免费使用的,只需要技术集成SDK,基本上可以满足大家对一款App的数据统计分析需求。特别是提供了埋点模版和行业看板。
酒店行业数据分析介绍:
从2015-2024中国酒店市场在线化率数据来看,在线化率自2015年起整体呈现梯形增长趋势,2015年酒店市场在线化率为19.6%,2018年其在线化率增长到29.4%,2024年持续增长为31.4%,预计2024年中国酒店市场在线化率将达到35.2%。
随着新兴的人工智能和大数据挖掘技术快速发展,推动单体酒店产业的数字化变革迫在眉睫,特别是在酒店的运营、管理方面,实现在线化和数字化降为酒店行业的整体发展带来良好的助力。
酒店大数据之客户数据收集
酒店大数据之客户数据收集
收益管理在酒店运营中发挥着至关重要的作用,其精确的数据分析能够帮助酒店根据精准预测,提升效率、增加营收,而酒店标准化的实务操作则有助于发挥收益管理工具的最佳效果。通过制定和执行数据收集操作流程,细化客户类别,酒店可提高实务操作的标准程度,进而使收益管理工具更好地为酒店服务。
在和客户的沟通中,我们经常会被问到:
为什么我们酒店每年拼了命维持住一定的出租率甚至有时还有些提高,但是最终却发现酒店的收入不升反降? 如果酒店已经能够达到一个比较高的出租率的话,那么收益管理到底还怎么能帮助酒店继续提高收益呢?
为了能够帮助客户寻找提升收益的机会,我们尝试着让客户利用系统的数据对酒店的业务情况进行分析,却发现这些数据中连一些最基本的信息都不够完整。比如,酒店有多少是一般散客,有多少是预付或其他散客等等。
通过和客户沟通,我们了解到——客户在内部的数据管理上,并没有清晰的标准。例如刚刚提到的市场细分,到今天为止,很多酒店还在使用预订渠道或公司作为主要的业绩统计来源。然而,相比几年前,现在的OTA的预订却要复杂的多。除了常规的一般散客现付预订,还会经常见到预付、包房、提早预订订单甚至还有某些商务公司的订房,这几乎已经涵盖了酒店大部分的散客市场细分。因此,酒店仅仅统计客户来源的做法,已经很难跟上时代的步伐。因为,大家都知道,对于酒店日常操作判断来说非常重要的就是预测,但是预测的前提基础是要找到有相同属性的客户的消费习惯,这样才能使预测更符合实际。
酒店应该如何设定数据标准,在日常实务操作中收集数据,以便酒店能够更好地理解客户的购买行为,为日后发现潜在销售机会以及提出更有针对性的市场活动提升销售收入打好基础?
数据收集标准操作流程的制定和执行
作为收益管理周期循环中的重要一环,数据收集是客户购买行为划分和分析的基础,但却并未引起大部分酒店或酒店集团的重视——大部分酒店没有设立一个标准化的操作流程或者有标准却不执行。
为了分别统计通过OTA的预付价格来预订的客户和通过OTA现付价格预定的客户等等,需要设置几个重要的分类标准:细分市场代码、细分市场分组、客源代码、房价代码和客户档案的维护和团队操作的标准流程等等。
细分市场代码(Market Segment Code)和细分市场分组(Market Segment Group)
细分市场代码主要是统计客户的购买行为、价格、入住星期等等购买行为的代码,是酒店对于客户行为分析的最基础数据。同时,把具有相类似购买模式的细分市场组合成细分市场分组,构成了进行预测的关键数据。对于细分市场代码的有效的界定和严格的执行往往是我们能否做出精准预测的关键。很遗憾的是,很多酒店对此没有引起足够的重视,前台甚至是预订部门都搞不清楚每个具体的细分市场的含义与用途。在实际工作中,这部分数据往往经常与客户来源数据(Source Code)的使用相混淆。
客户的购买行为的统计主要包括了对预订的时间(也就是我们通常说的预订进度)、价格、类型(散客预订还是团队预订)、入住的星期(比如商务客户一般选择周中,而休闲客户会选择周末及假期)、入住的天数以及可能产生的不确定性(诸如取消或者未入住)。
随着收益管理的不断变化,关于细分市场的划分会越来越专业化和精细化,将会出现一些根据是否有价格关联或者是否能够被调控的新的细分市场的趋势。
客源代码(Source Code)
客源代码主要是统计客户通过何种渠道来预订的。包含酒店自有渠道,诸如传统上的电话(或者呼叫中心)、传真、邮件以及酒店官网和APP乃至于酒店官方微信营销等,除此之外还包括第三方订房渠道,如OTA、GDS渠道和酒店中央预订系统产生的其他预订等等。对于各种订房来源进行归类,能够帮助我们更好地理解酒店客户的订房来源和预订方式。现在几乎很少会有客户使用传真这样的方式来预订,而更多地使用网络或者APP这样的新型预订方式。酒店应根据类似这样的实际情况尽快调整自身的预订接受方式。更甚者,有的酒店会调整预订部的工作时间,以便接受晚上9点后APP预订高峰所产生的订单。
客源代码能够让酒店了解各个订房来源的实际情况,以便针对不同的客源实施不同的策略,甚至对不同渠道的投入提供数据支持。
房价代码(Rate Code)
房价代码是对不同客源客户的价格进行分类的代码,这个相对比较好理解。但是,我们经常在实际工作中看到,许多酒店会使用一个房价代码来操作所有的团队预订,或者使用相同的房价代码来处理同一个OTA渠道的所有订单等等,之后,再使用手工变价的方式来满足不同预订价格的订单。这种简单的控制方法基本丧失了使用房价代码来统计不同客源的可能。针对这种情况,酒店应该设置不同的房价代码用于不同价格的预订。简而言之,同一个公司或渠道的不同的价格可以用不同的房价代码来表示,这样可以方便地统计出不同价格的预订情况。
客户档案的建立和维护
几乎每家酒店都会在PMS系统中建立客户入住的档案。但是由于不同预订来源提供的客户联系方式不同(在中文中,同名同姓甚至同音的情况特别多),导致在预订的时候,预订员很难分辨是否为同一位客户。大部分的情况下,预订员会先处理完订单,留待客户入住时,由前台人员跟进确认。但是由于很多原因,在实际操作的时候,很难确保每位客户的入住历史能够被很好地记录下来,导致很多酒店的系统中存在许多重复的客户档案。这也意味着酒店很难像OTA那样完整地记录着客户每一次的入住以及消费信息。所以,建议酒店定期检查合并同一位客户的档案,以帮助酒店了解每位客户的具体需求、入住习惯、价格水平以及消费记录。
团队操作的标准流程
说到团队操作,很多酒店几乎没有清晰的运作标准。
销售在报价的时候应该注意收集各种信息,包括客户愿意承受的预算以及竞争酒店的报价等等。 同时,在报价时还需要注意计算该团队潜在的置换收入。 销售或预订部处理团队锁房的具体标准需要明确。询价、待定、确定、分配,这些流程需要每一位团队成员清晰了解并认真执行。
酒店对于团队数据的处理需要遵循一致的标准,这样才能帮助收益经理更加准确地理解团队预订的进度以及相对的不确定性,为团队的合理预测提供有利的支持。
合理、准确并综合运用这些不同的代码,能够帮助酒店精确地了解自身的客源结构、业绩构成并能够作为制定未来决策的数据基础。然而,很多酒店的运营部门还没有意识到自己的日常操作和服务对收益管理和数据处理所带来的影响。只有自上及下认识到收益管理能够给酒店带来好处,收益管理才能实实在在给酒店带来变化,让酒店精准的数据分析给酒店管理带来革命性的变化。如需了解更多有关内容,请注册参加IDeaS公司8月26日举办的在线讲座——“酒店大数据之客户数据收集标准”。
商务酒店如何通过CDP客户数据平台提升入住频次?
商务酒店目标消费者是商旅人士,CDP客户数据平台能通过打通实时和非实时数据,形成完整酒店消费者数据分析的客户画像,通过AI和机器学习算法挖掘出其中的商旅人士,以及酒店消费者数据分析他的营销价值,并根据客户的画像标签分析他的出行偏好、消费能力、浏览行为、出行目的等数据,通过AI及算法模型推测出客户的未来行程,进行精准的营销推荐。国内在做CDP的公司推荐创略科技。