用Python分析了1741家大裤衩数据进行分析,终于找到可以买入那一条

大数据 数据分析
最近的几天真的是太热了,志斌翻了翻自己的衣柜,发现去年的大裤衩已经不在适合自己现在肥胖的体型,所以志斌打开淘宝,搜索了1741条大裤衩的数据,然后进行了可视化分析,最终找到一条可以入手的大裤衩。

[[398676]]

本文转载自微信公众号「志斌的python笔记」,作者志斌 。转载本文请联系志斌的python笔记公众号。

大家好,我是志斌~

最近的几天真的是太热了,志斌翻了翻自己的衣柜,发现去年的大裤衩已经不在适合自己现在肥胖的体型,所以志斌打开淘宝,搜索了1741条大裤衩的数据,然后进行了可视化分析,最终找到一条可以入手的大裤衩。

在后台回复[大裤衩]即可获得数据集。

01数据采集

淘宝网站是一个动态加载的网站,我们之前可以采用解析接口或者用selenium自动化测试工具来爬取数据,但是现在淘宝对接口进行了加密,使我们很难分析出来其中的规律,同时淘宝也对selenium进行了反爬限制,所以我们要换种思路来进行数据获取。

因为篇幅问题,数据采集的方式在这里就不在过多的讲解,有兴趣的小伙伴可以看看这篇文章,它详细的介绍了淘宝商品数据的获取方式,我们这里只展示核心代码。

  1. response = requests.get('https://s.taobao.com/search', headers=headers, params=params) 
  2. shangpinming = re.findall('"raw_title":"(.*?)"', response.text) 
  3.  
  4. jiage = re.findall('"view_price":"(.*?)"', response.text) 
  5.  
  6. fahuodi = re.findall('"item_loc":"(.*?)"', response.text) 
  7.  
  8. fukuanrenshu = re.findall('"view_sales":"(.*?)人付款"', response.text) 
  9.  
  10. dianpumingcheng = re.findall('"nick":"(.*?)"', response.text) 
  11.  
  12. for i in range(44): 
  13.    try: 
  14.        if (fukuanrenshu[i] == '1.5万+'): 
  15.            f = 15000 
  16.        elif (fukuanrenshu[i] == '1.0万+'): 
  17.            f = 10000 
  18.        elif ('+' in fukuanrenshu[i]): 
  19.            f = re.findall('\d+', fukuanrenshu[i]) 
  20.        else
  21.            f = fukuanrenshu[i] 
  22.        if float(jiage[i]) > 10: 
  23.            sheet.append([dianpumingcheng[i], shangpinming[i], float(jiage[i]), f 

02数据清洗

01导入商品数据

用pandas读取爬取后的商品数据并预览。

  1. df = pd.read_excel('裤衩男.xlsx',names=['店铺名称','商品名','价格','产地','付款人数']) 
  2. print(df.head()) 

02删除重复数据

  1. df.drop_duplicates() 

03查看数据类型

查看字段类型和缺失值情况,符合分析需要,无需另做处理。

  1. df.info() 

03数据可视化

我们来对这1741条大裤衩的数据进行可视化分析。

01在售的大裤衩的特点。

通过对大裤衩的商品名称进行词云图绘制,志斌发现,大裤衩的主要特点是宽松,其次是休闲和运动。仔细想来,夏天的时候大家的穿着确实是比较宽松和休闲的。

 

02各省市产量分布图

通过对各商品的产地数据进行统计并绘制了全国地图,我们发现福建和浙江这两个地方盛产大裤衩。

我们对这两个省份的数据进行更一步的分析发现:福建省的大裤衩主产地在泉州,占据全省产量的70.4%

浙江省的大裤衩主产地在杭州,占据全省产量的87.4%。

03各价位商品数量图

通过对商品价格进行分段可视化,我们可以看出100元以下的大裤衩占据全部市场的77.4%,可见大家对大裤衩的心理价位选择普遍较低。

04大裤衩月销量top20商家

通过对各商品月销售量进行可视化分析,我们发现,巴布衫旗舰店的月销量最多是10000。语克旗舰店的商品在月销量top20中占据6个,top5中占据了3个,看来这个旗舰店的商品受大众喜欢的类型更多。同时我们还能看出,用户们更喜欢去旗舰店和专卖店进行购物。

05选择合适的大裤衩并入手

经过以上的分析和对宝贝的评价、好评率等数据进行综合考虑之后,志斌最终选择购买这条大裤衩来入手。

05小结

1. 本文仅供学习研究使用,提供的评论仅供参考。如有不妥之处请及时告知作者。

 

2. 如需代码,请联系作者进行获取。

 

责任编辑:武晓燕 来源: 志斌的python笔记
相关推荐

2022-09-06 08:01:23

数据采集数据可视化加密

2021-11-03 09:49:25

Python可视化数据

2020-07-23 09:15:25

Python机器学习聚类分析

2022-10-12 07:38:24

SQL语句异常

2019-06-23 18:30:00

Python数据分析编码

2011-04-14 09:05:07

ExcelMySQL数据

2020-07-08 15:10:11

Python数据分析代码

2018-05-14 08:33:06

比赛数据攻略

2020-05-16 13:25:03

分析网购数据

2010-05-17 16:25:05

MySQL数据

2021-04-16 07:04:53

SQLOracle故障

2020-12-24 15:18:27

大数据数据分析

2018-07-10 15:28:44

Python爬虫数据分析

2017-07-06 15:44:33

2022-04-06 14:15:10

Python数据

2018-06-21 09:12:01

编程语言Python数据分析

2012-08-08 09:53:23

HadoopMapReduce

2018-09-04 11:45:31

前端JavaScriptNodeJS

2021-07-10 07:40:27

Excel数据分析大数据

2021-07-21 16:16:40

PythonNLTK编程语言
点赞
收藏

51CTO技术栈公众号