最近一直在写python相关的文章,也得到了各位值友的好评。感兴趣的小伙伴们,欢迎关注我~
今天继续写大家都感兴趣的话题吧,统计分析某东--丝袜--真实的销量数据,也顺便做一下关于中国女性(不仅是女性)喜好的简单分析,各位老司机们坐稳了,咱们这就出发。
数据准备1、确定获取内容
淘宝数据太多,鱼龙混杂,不便于分析,所以获取方向就定在了京东。
通过浏览京东相关商品,最终确定了本次统计分析要抓取的内容,就是每个商品下面的评论等内容。
因为每个评论都是实际购买之后才发生的,所以具有一定的真实性和可参考性。
本次获取的内容如下:
1)用户名
2)Plus会员以及普通用户数量情况
3)评论内容(情感特征词分析用)
4)丝袜颜色
5)购买时间
2、实施内容获取
1)生成统计文档
当然,如果您有耐心的话,一条条去翻看评论,最后也能得出结论。但是咱毕竟是搞技术的,还是通过代码获取吧。
通过大半天的获取,最终形成了100多篇结构性文档,将近35万条丝袜有效购买的数据,并做了数据清理以及检验之后,录入数据库。
2)录入数据库,进行数据的再次加工
结构化文档录入数据库,将丝袜颜色,用户类型(Plus会员和普通会员)数据二次加工之后,整理成方便统计的统一数据。整理好之后,不仅是各位女性,老司机们也能看的明白了,方便你我他她它
~
统计生成可视化图表
OK!一切搞定,咱们看看能分析出哪些有意思的图表吧。
1、京东Plus会员比例情况
通过获取购买丝袜品类下所有的用户类型,咱们看看京东Plus会员的占比情况。
左边是普通用户(20万),右边是Plus用户(13万)。
可以看出,普通用户将近是Plus会员的2倍。通过这个统计也可以推测出,京东非会员比例还是相当高的,看来京东还是有很大的营收前景。
2、评论时间趋势分析
通过35万件商品的评论时间,大致推断出女性网购以及消费的时间趋势。
X轴是一天的24小时分布,Y轴是评论量。
统计之后我就一个感想,好家伙!我直呼好家伙!!
8点之后,评论量直线攀升,一直到10点左右,到达最高点2万多人,难道大家一上班就开始摸鱼么?
下午的评论量也不少,维持在2万上下,直到晚上9点之后才开始下降。看来9点以后,大家都回归到家庭生活之中,在线人数自然也就下来了。
紧接着是0点,又一波高潮之后逐渐下降,不用想,肯定又是一波零点抢购啊
。
3、丝袜颜色分析
久等了!老司机们喜欢的内容终于来了!!
这里统计了丝袜颜色销量的前10位。
第一位不用想了,满大街都是的肤色,或者是浅肤色丝袜,达到了12万件。可能这个颜色的丝袜无论是日常生活,还是工作场合,都显得正式吧(此结论纯属个人猜测)
然后就是黑色,销量10万件+,是因为黑色的正式,显瘦,还是什么?知道答案的小伙伴们欢迎留言。
白色和灰色丝袜销量不相上下,最近很多跳舞的小姐姐们都爱穿这些颜色的丝袜,是不是带火了一波销量呢?
再往后就各种颜色的丝袜都有了,咖啡色、粉色、蓝色......销量也都不算少。
但是在北京,我是真没见过。
不知道您都在哪些地方见到过?
4、新发现
本次统计中,除了女性日常穿着的丝袜,还有哪些另类的款式呢?跟我来看看。
对,你没猜错!
生活情趣方面的用品销量也真不少呀。看来咱们除了美好的物质生活之外,也开始逐渐追求精神层次的享受了。挺好!
(这里就不放图和链接了,老司机们可自行搜索)
5、情感特征词分析
本次获取了35万条有效评论,并解析出将近150万的关键词,通过大数据统计,咱们看看最常出现的评价都有哪些。
大字是高频的词汇,看来丝袜这个品类下整体评价还不错,大部分购买后的人都会评论说“不错”,“值得”,“可以”,也会有很多诸如“勾丝”,“瑕疵”之类的负面评价。所以各位女性,以及老司机们在购买丝袜时,一定要多看评论再下单哦~
写在最后
以上就是本篇文章的全部内容了。
写这篇文章着实费了不少功夫,所以希望屏幕前的你一键三连支持哦~
各位值友还有什么想看的,欢迎在下方留言。
我是大蒜先生,咱们下回见。