用Python分析元旦旅游热门城市

开发 后端
元旦马上就要到了,难得的3天小长假,玩肯定是要去玩的,但去哪儿玩是个问题。于是,笔者以旅游热门城市厦门为例,用Python获取了去哪儿网的相关景点数据。

 元旦马上就要到了,难得的3天小长假,玩肯定是要去玩的,但去哪儿玩是个问题。于是,笔者以旅游热门城市厦门为例,用Python获取了去哪儿网的相关景点数据,包括景点名称、地区、评分、销量、价格、坐标等字段,对数据进行可视化并作简单分析,以求找到性价比较高的景点。

数据获取

去哪儿网数据采集相对简单,找到真实url后,构造参数拼接,用request请求到json数据,以追加模式将数据存储为csv文件即可。

爬虫核心代码如下: 

  1. # -*- coding = uft-8 -*-  
  2. # @Time : 2020/12/25 9:47 下午  
  3. # @Author : 公众号 菜J学Python  
  4. # @File : 去哪儿.py  
  5. import requests  
  6. import random  
  7. from time import sleep  
  8. import csv  
  9. import pandas as pd  
  10. from fake_useragent import UserAgent  
  11. def get_data(keyword,page):  
  12.     ua = UserAgent(verify_ssl=False 
  13.     headers = {"User-Agent": ua.random}  
  14.     url = f'http://piao.qunar.com/ticket/list.json?keyword={keyword}&region=&from=mpl_search_suggest&page={page}'  
  15.     res = requests.request("GET", url,headersheaders=headers)  
  16.     sleep(random.uniform(1, 2))  
  17.     try:  
  18.         resres_json = res.json()  
  19.         #print(res_json) 
  20.          sight_List = res_json['data']['sightList']  
  21.         print(sight_List)  
  22.     except:  
  23.         pass  
  24. if __name__ == '__main__':  
  25.     keyword = "厦门"  
  26.     for page in range(1,100): #控制页数  
  27.         print(f"正在提取第{page}页")  
  28.         sleep(random.uniform(1, 2))  
  29.         get_data(keyword,page) 

数据处理

导入相关包

首先导入数据处理和数据可视化相关第三方库,便于后续操作。 

  1. import pandas as pd   
  2. import numpy as np  
  3. import matplotlib.pyplot as plt  
  4. import seaborn as sns  
  5. %matplotlib inline  
  6. plt.rcParams['font.sans-serif'] = ['SimHei']  # 设置加载的字体名  
  7. plt.rcParams['axes.unicode_minus'] = False   # 解决保存图像是负号'-'显示为方块的问题   
  8. import jieba  
  9. import re  
  10. from pyecharts.charts import *  
  11. from pyecharts import options as opts   
  12. from pyecharts.globals import ThemeType    
  13. import stylecloud  
  14. from IPython.display import Image 

导入景点数据

用pandas读取爬取的csv格式景点数据并预览。 

  1. df = pd.read_csv("/菜J学Python/旅游/厦门旅游景点.csv",names=['name', 'star', 'score','qunarPrice','saleCount','districts','point','intro'])  
  2. df.head() 

删除重复数据

网站存在一定的重复数据,需要进行剔除。 

  1. dfdf = df.drop_duplicates() 

查看数据信息

查看字段类型和缺失值情况,符合分析需要,无需另作处理。 

  1. df.info()    
  1. <class 'pandas.core.frame.DataFrame'>  
  2.    Int64Index: 422 entries, 0 to 423  
  3.    Data columns (total 8 columns):  
  4.     #   Column      Non-Null Count  Dtype    
  5.    ---  ------      --------------  -----    
  6.     0   name        422 non-null    object   
  7.     1   star        422 non-null    object   
  8.     2   score       422 non-null    float64  
  9.     3   qunarPrice  422 non-null    float64  
  10.     4   saleCount   422 non-null    int64    
  11.     5   districts   422 non-null    object   
  12.     6   point       422 non-null    object   
  13.     7   intro       377 non-null    object   
  14.    dtypes: float64(2), int64(1), object(5)  
  15.    memory usage: 29.7+ KB 

描述性统计

从描述性统计表可知,剔除重复数据后,剩余424个景点,门票均价为40元。 

  1. color_map = sns.light_palette('orange', as_cmap=True)  # light_palette调色板  
  2. df.describe().style.background_gradient(color_map) 

可视化分析

景点介绍

通过对厦门景点介绍文本进行词云图绘制,我们很容易看出厦门的特点。典型的海滨休闲城市,帆船、鼓浪屿、游艇等词被大量提及,建筑、博物馆等词也有一定提及,体现出厦门浓厚的人文气息。 

  1. #绘制词云图  
  2. text1 = get_cut_words(content_series=df['intro'])  
  3. stylecloud.gen_stylecloud(text=' '.join(text1), max_words=100 
  4.                           collocations=False 
  5.                           font_path='simhei.ttf' 
  6.                           icon_name='fas fa-heart' 
  7.                           size=653 
  8.                           #palette='matplotlib.Inferno_9' 
  9.                           output_name='./offer.png' 
  10. Image(filename='./xiamen.png'

景点分布

利用kepler.gl绘制厦门市旅游景点分布地图,同时以圆圈的大小表示门票月销量的大小,我们可以很清晰的看到,厦门市景点集中分布在思明区和湖里区,其他区域分布较为分散。尤其是思明区,门票销量遥遥领先其他区域。 

  1. df["lon"] = df["point"].str.split(",",expand=True)[0]   
  2. df["lat"] = df["point"].str.split(",",expand=True)[1]   
  3. df.to_csv("/菜J学Python/data.csv") 

评分TOP10景点

从景点评分来看,厦门大学评分最高,5分满分。其次是鼓浪屿和南普陀寺,分别为4.9分和4.6分。难怪有人说,没去过厦大和鼓浪屿,相当于没来过厦门。 

  1. dfdf_score = df.pivot_table(index='name',values='score' 
  2. df_score.sort_values('score',inplace=True,ascending=False 
  3. df_score[:10] 

月销量TOP10景点

从门票月销量来看,鼓浪屿排第一,月销量1230,其次是厦门园林植物园和鼓浪屿往返轮渡。厦门方特梦幻王国也有600以上的月销量。 

  1. dfdf_saleCount = df.pivot_table(index='name',values='saleCount' 
  2. df_saleCount.sort_values('saleCount',inplace=True,ascending=False 
  3. df_saleCount[:10] 

价格TOP20景点

从景点价格来看,玩游艇、直升机、帆船类的活动花销较大,另外,厦门方特价格也不便宜,如果对价格不敏感可以考虑,如果是穷游可以提前避开。 

  1. dfdf_qunarPrice = df.pivot_table(index='name',values='qunarPrice' 
  2. df_qunarPrice.sort_values('qunarPrice',inplace=True,ascending=False 
  3. df_qunarPrice[:20] 

月销售额TOP20景点

由于厦门近一个月景点销量的变化幅度小于价格的变化幅度,销售额受价格影响更大。从以下图中也可以看出,月销售额较大的景点仍然是游艇、方特之类。 

  1. df["saleTotal"] = df["qunarPrice"]*df["saleCount"]  
  2. dfdf_saleTotal = df.pivot_table(index='name',values='saleTotal' 
  3. df_saleTotal.sort_values('saleTotal',inplace=True,ascending=False 
  4. df_saleTotal[:20] 

景点等级分布

从厦门景点等级分布来看,3A以上等级景点占比不到5%。 

  1. dfdf_star = df["star"].value_counts() 
  2. df_stardf_star = df_star.sort_values(ascending=False 
  3. #print(df_star)  
  4. c = (  
  5.         Pie(init_opts=opts.InitOpts(theme=ThemeType.WALDEN))  
  6.         .add(  
  7.             "", 
  8.              [list(z) for z in zip(df_star.index.to_list(),df_star.to_list())]  
  9.         )  
  10.         .set_global_opts(legend_opts = opts.LegendOpts(is_show = False),title_opts=opts.TitleOpts(title="景点等级分布",subtitle="数据来源:去哪儿网\n制图:菜J学Python",pos_top="0.5%",pos_left = 'left')) 
  11.          .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%",font_size=16))  
  12.     )  
  13. c.render_notebook() 

 

  1. df[df["star"]!='无'].sort_values("star",ascending=False

以下为筛选出的部分3A及以上景点:

小结

通过以上简单的分析,我们大致可以获得以下几点启发: 

1.厦门是典型的海滨休闲城市,具有丰富的海洋和人文景观;

2.厦门旅游景点主要集中分布在思明区,其他区域较为分散;

3.厦门大学口碑最高,其次才是鼓浪屿;

4.鼓浪屿门票销量遥遥领先厦门其他景点;

5.消费较高的景点或活动包括游艇、帆船和方特。

温馨提示:疫情还未完全散去,元旦游玩尽量避开风险区域。 

 

责任编辑:庞桂玉 来源: Python中文社区
相关推荐

2020-10-27 06:39:14

智慧城市智慧旅游物联网

2023-04-09 23:17:16

Python监控城市空气

2019-09-29 10:00:46

Python程序员旅游

2021-08-02 23:15:20

Pandas数据采集

2017-10-10 13:13:48

2022-05-05 14:48:47

大数据旅游五一

2014-04-08 15:16:07

2048算法分析算法

2018-06-15 11:22:52

Python分析世界杯

2020-07-23 09:15:25

Python机器学习聚类分析

2013-07-05 09:30:07

大数据旅游业革命

2017-10-10 15:42:56

Python鹿晗关晓彤

2019-08-12 10:32:30

大数据数据科学云计算

2023-01-28 10:09:00

Pandas数据分析Python

2010-04-23 17:26:23

CTO

2022-02-07 22:48:07

大数据春节冬奥会带

2017-03-07 10:32:11

智慧城市王茜网络

2018-12-10 15:53:41

Python必胜客数据分析

2020-04-29 11:26:54

Python数据消费券

2023-08-15 09:50:32

大数据旅游企业

2024-03-29 11:16:35

大数据大数据分析
点赞
收藏

51CTO技术栈公众号