一、分析背景与目的
此次分析将基于淘宝APP约一百万随机用户的所有行为的样本数据,希望更加了解用户购买行为,挖掘潜在的商机。所以本文通过梳理淘宝用户在APP的不同行为(浏览、加入购物车、喜欢、购买),分析和研究不同用户对产品的购买行为来为产品优化、改善销售方案或提升用户价值,给出有用的分析建议。分析报告链接:https://zhuanlan.zhihu.com/p/65661526
二、分析思路与过程
数据分析的常规套路有很多种,以下数据分析过程会按照提出问题、理解数据、数据清洗、构建模型、数据可视化等基本分析框架来对“淘宝用户行为”数据集进行分析。分析过程如下:

2.1 提出问题
- 用户从浏览到购买的转化率是多少?转化环节是否存在问题?
- 不同日期的日活是多少?哪个时间段用户较为活跃?
- 付费人数占比是多少,哪些用户对平台贡献价值最大,且他们是否有某些特定的行为?
- 哪种类目的商品最受欢迎、购买次数最多?
2.2 指标建模
在提出问题之后,通常会基于业务问题从行业的分析指标体系选取相应的分析指标进行分析,以下是针对此次业务问题整理的电商行业的分析指标:
后续我们也将参考AARRR、RFM两个模型来进行分析
2.2.2 AARRR模型
在提出问题之后,通常会基于业务问题从行业的分析指标体系选取相应的分析指标,以下是针对此次业务问题提取的相关指标:
2.3 理解数据
本数据集取自时间介于2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为,包含100150806条行为数据,987994个不同用户,4162024个商品,3623个不同商品分类, 4种用户行为数据,关于数据集来源及详细信息如下:
2.4 数据清洗
原始数据集共有1亿条数据记录,数据量较大,本次分析选取了100万条记录进行分析。清洗步骤如下:
1)选择子集:
此数据集字段较少,但每个字段数据皆需用到,故选择所有字段。
2)列重命名:
原始数据集表没有表,增加一行作为字段名称。
3)删除重复值:
原始数据集在倒入Excel时,每一行样本数据无重复值,故无需进行处理。
4)缺失值插补:
原始数据集在倒入Excel时,每一行样本数据无缺失值,故无需进行处理。
5)一致化处理:
Excel默认不支持Unix格式时间戳,用公式(x+8*3600)/86400+70*365+19将时间戳转换成Excel格式的时间字段Date ,并通过文本函数TEXT([value],[format_text])生成日期小时两个字段,共新增时间、日期、小时三个字段。
6)数据异常处理:
在将时间戳转化为时间格式时,发现部分时间不是介于2017年11月25日至2017年12月3日之间,通过数据-筛选将该时间段以外的时间进行删除,共删除383条数据。
备注:
在数据清洗过程中,发现Excel在处理百万条数据的时候相当缓慢、吃力,故后续再处理大数据选择mysql、python等工具会比较合适。
2.5 构建模型
1)通过AARRR模型分析用户使用行为
解决问题:用户从浏览到购买的转化率是多少?转化环节是否存在问题?
清洗后的数据主要涉及AARRR模型中的激活用户和购买转化两个环节,通过用户从浏览到最终购买整个过程的流失情况,包括浏览、收藏、加入购物车和购买环节,先看一下转化率:
- 通过Excel数据透视表功能,得到浏览、收藏、加入购物车、购买整个流程的行为数量及各流程转化率:
从以上的漏斗分析模型中可以看出:用户行为包括浏览(pv)、加入购物车(cart)、收藏(fav)以及购买(buy),其中浏览商品转化率89.6%,加入购物车转化率是5.6%,收藏转化率是2.8%,最后实际购买只占2.0%,发现从浏览到购买的转化率非常低,初步推断可能的原因是用户花费大量时间在商品的浏览选择上,后面我们可以通过用户人均访问数PV/UV来证实一下这个原因。
- 通过Excel删除重复项功能,删除用户ID、日期两字段的重复数据,并使用透视功能得到淘宝APP的UV情况:独立访客总数(UV):9739
- 通过Excel数据透视功能,选择用户日期为行、用户行为为列、用户行为计数等分析字段,得到淘宝APP的PV情况:页面总访问量(PV):895636
平均访问量(PV / UV):91.96
从结果可以看到用户人均访问页面数量达到了92,但购买转化率却很低,证明了客户花费大量时间在商品的浏览和选择上。
2)不同时间尺度下用户行为模式分析
- 通过Excel删除重复项功能,删除用户ID、日期两字段的重复数据,并使用透视功能得到每日的UV情况:
- 通过Excel删除重复项功能,删除用户ID、日期两字段的重复数据,并使用透视功能得到每日的PV情况:
- 通过Excel透视功能将小时、行为类型、行为类型分别作为行、列、计数统计项,得到一天24小时每个小时的不通行为类型的行为统计量
小结:
从以上分析图表可以看出,在进入12月份之后,独立访客数(UV)有一个明显的提升,初步推断是双十二活动前对用户的吸引力增强、或是商家双十二前期活动所致,通过每小时不同类型行为数量统计可以观察出用户活跃时段集中在晚上18:00~22:00点
3)从用户行为看商品销售
- 通过Excel透视功能将商品ID、购买、购买计数分别作为行、列、计数统计项,得到商品销售量Top10
- 通过Excel透视功能将商品类目ID、购买、购买计数分别作为行、列、计数统计项,得到商品销售量Top10
小结:
通过上述分析可以了解到不同商品及商品类目用户购买次数的排行,其中商品ID=2122135、商品类目ID=2735466的商品最受用户欢迎, 若数据集提供产品单价信息,则可以找出高价值的商品及商品类目,平台可针对TOP系列的商品优化产品页面分布和广告资源位结构,引导用户快速找到心仪的商品,提高商品购买转化
4)从用户行为看用户付费转化
- 通过Excel透视功能将用户ID、购买、购买计数分别作为行、列、计数统计项,得到购买次数最多的用户Top20ID及购买次数:
- 通过高级筛选功能,以清洗后数据作为列表区域、TOP20用户作为条件区域,筛选得到TOP20用户的所有数据:
- 通过Excel透视功能将TOP20用户ID、购买行为、购买行为计数分别作为行、列、计数统计项,得到购买次数最多的TOP20用户所有行为统计:
- 通过Excel透视功能,得到购买次数最多的TOP20用户购买次数最多的商品类目、商品ID统计:
小结:
通过了解高价值用户的购买行为、购买时间、购买产品以及购买商品类目等,可以得到高价值用户的最喜爱购买的商品及商品类目、购买时间点(集中在16:00~17:00时段),平台可以在特定时间对高价值用户推出有针对性的产品推荐,通过个性化的推荐提高产品销售额。
三、分析结论与建议
本文通过Excel分析了100万条淘宝APP用户行为数据,从用户、商品、平台三个角度提出业务问题,使用漏斗分析模型和其余分析手段分析数据给出如下结论和建议:
1) 通过漏斗模型可以看出从浏览到购买转化率只有2%,且用户人均浏览页面达到98页面,可推断出用户花费大量时间在商品的浏览选择上,根据分析结果建议:
- 产品部门可以在浏览页面加入悬浮的购买按键,缩短购买流程,以便用户一键购买,提高用户体验;
- 结合用户浏览的商品加入商品比对功能,通过对比浏览过商品或推荐商品,让用户快速作出购买决策;
- 提升商品主图和详情图的展示效果,比如提高图片清晰度、色彩感或者加入动图、试用报告等方式让展现形式更为生动,可以让用户更加了解商品,增加用户购买欲。
2)通过观察用户UV、PV以及不同时间段的用户行为统计,在进入12月份之后,用户数量有一个明显的提升,且用户活跃时段集中在晚上18:00~22:00点,根据分析结果建议:
- 鉴于活动前用户数量不断攀升,商家可以根据在用户一天的活跃时段,投放一些优质的产品文案或者商品活动优惠券,以吸引用户进行购买;
3)通过用户行为与商品维度进行结合分析,可以了解最受用户欢迎的商品,其中商品,平台可针对TOP系列的商品优化产品页面分布和广告资源位结构,引导用户快速找到心仪的商品,提高商品购买转化。
4)通过统计分析找出高购买率的用户,再针对此用户群体购买行为可以得到的最喜爱购买的商品及商品类目以及购买时间点(集中在16:00~17:00时段),根据分析结果建议:
- 平台可以在特定时间对高价值用户推出有针对性的产品推荐,通过个性化的推荐提高产品销售额。
- 对于年购买次数和金额达到规定量的客户推出VIP服务,享受全场不限时9.5折优惠,购买次数同比上升之后相应福利也上升,利用这种方法提高高价值用户的留存率和对平台的忠诚度。
从浏览到购买转化率不高可推断出用户花费大量时间在商品的浏览选择上,产品部门可以通过改进产品浏览或者在浏览页面加入直接购买的功能点,以提高用户购买商品的转化率。
本文转自 知乎,原文链接:https://zhuanlan.zhihu.com/p/63799495,如需转载请自行联系原作者