都说码农不容易,白天写程序员,晚上熬夜加班,有的时候项目忙的连陪女友的时间都没有!我容易吗~~。这不双十一来了,毕竟全年最优惠的时刻,大家都不想错过。小编也想帮女友更换一部手机,因此就想着快速的从众多的手机中挑选出合适的手机。为了女友拼了!于是熬了一夜,看我如何从上千部手机中获取到信息并进行简单的信息评分,得到自己最满意的几部手机。
首先我们抓取到的是苏宁平台的手机信息,一共有2700+条手机信息。包括了手机的价格,名字,好评率、总评价数目和晒图评价数目和网页地址等信息。
通过数据清洗,将类别型中含有数值变量缺失值的行删除,并将其转化为数值型变量。对于非数值型变量信息,我们不做处理。
01.价格分布信息
对于手机来说,价格是一个重要的信息标签,小编按照0到1000、1000-2000、2000-3000、3000-5000和5000+分为了5类。
- 可以看出,在所有的销售手机当中,价格在0-2000的手机类别是最多的,超过了全部手机的一半;
- 这类别中,价格在1000-2000的手机销售类别数量是最多的。价格在5000+的销售类别数是最少的;
- 对于大多数厂家,低端机制作技术更容易掌握,低端机更具有性价比;
- 而高端手机需要配合精湛的技术和工艺,而且主打旗舰品牌,因此,销售的手机类别自然少一些。
02.不同价格下,手机的销售量
接下来我们来看一下,不同价格区间下的手机的销售量。这里的话,由于商品信息中,没有给出明确的销售数量。所以小编用总的评价数量来代替销售量。
可以看到虽然2000价位的手机类别数量占据了第一位,但是在购买销售数量上,3000-5000和5000+的手机占据了上风。日益增长的物质水平,让大家越来越有钱买价格更高的手机。
03.不同品牌手机类别
那对于不同的手机类别,他们的手机类别如何呢?
在手机销售类别中,华为手机销售类别是最多的,紧随其后的是小米和苹果。而上述的五家公司的手机销售类别,已经占到了整个市场的73.22%,这也比较符合当下我国的手机市场现状。
04.简单的手机挑选
经过了简单的数据分析后,接下来就是手机的挑选了。女友的要求很简单,价格在2000-3000之间的,品牌不做要求。在这个状况下,可以根据手机价格在2000-3000之间的进行筛选,然后根据手机的好评率、总评价数、带图评价率、手机价格和带图评价率/总评价数这五个特征来进行带权重的评分,并按照评分进行手机的挑选。
上图中,每个特征都有一个权重,权重是根据自己的喜好来进行设定。将最终的结果进行相加得到我们的最终值。首先,对于每个特征,我们需要进行归一化处理,防止不同特征的数量级不同而带来的偏差,然后我们设置每个特征的权重,然后将结果相加,得到最终的结果。
一顿操作猛如虎,对于五个特征进行归一化处理,然后根据权重来计算总的得分,得分结果如程序上方图所示。最后从几千个手机里面挑选出华为的Nova5,小米的红米K30。
以上就是小编熬了一夜,分析出来的结果,今天准备下单了。