GitHub超级火!任意爬取,超全开源爬虫工具箱

新闻 开发工具
最近国内一位开发者在 GitHub 上开源了个集众多数据源于一身的爬虫工具箱——InfoSpider,一不小心就火了!!!

 

最近国内一位开发者在 GitHub 上开源了个集众多数据源于一身的爬虫工具箱——InfoSpider,一不小心就火了!!!

现在一般网站都有反爬虫机制,对于爱爬虫的朋友来说,想爬虫些数据,做下数据分析。是越来越难了。不过最近我们,发现一个超宝藏的爬虫工具箱。

这个爬虫工具箱有多火呢?

开源没几天就登上GitHub周榜第四,标星1.3K,累计分支 172 个。同时作者已经开源了所有的项目代码及使用文档,并且在B站上还有使用视频讲解。

项目代码:

https://github.com/kangvcar/InfoSpider

项目使用文档:

https://infospider.vercel.app

项目视频演示:

https://www.bilibili.com/video/BV14f4y1R7oF/

在这样一个信息爆炸的时代,每个人都有很多个账号,账号一多就会出现这么一个情况:个人数据分散在各种各样的公司之间,就会形成数据孤岛,多维数据无法融合,这个项目可以帮你将多维数据进行融合并对个人数据进行分析,这样你就可以更直观、深入了解自己的信息。

InfoSpider 是一个集众多数据源于一身的爬虫工具箱,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明,并提供数据分析功能,基于用户数据生成图表文件。

目前支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书。

根据创建者介绍,InfoSpider 具有以下特性:

  • 安全可靠:本项目为开源项目,代码简洁,所有源码可见,本地运行,安全可靠。
  • 使用简单:提供 GUI 界面,只需点击所需获取的数据源并根据提示操作即可。
  • 结构清晰:本项目的所有数据源相互独立,可移植性高,所有爬虫脚本在项目的 Spiders 文件下。
  • 数据源丰富:本项目目前支持多达24+个数据源,持续更新。
  • 数据格式统一:爬取的所有数据都将存储为json格式,方便后期数据分析。
  • 个人数据丰富:本项目将尽可能多地为你爬取个人数据,后期数据处理可根据需要删减。
  • 数据分析:本项目提供个人数据的可视化分析,目前仅部分支持。

InfoSpider使用起来也非常简单,你只需要安装python3和Chrome浏览器,运行 python3 main.py,在打开的窗口点击数据源按钮, 根据提示选择数据保存路径,接着输入账号密码,就会自动爬取数据,根据下载的目录就可以查看爬下来的数据。

依赖安装

  • 安装python3和Chrome浏览器
  • 安装与Chrome浏览器相同版本的驱动
  • 安装依赖库 ./install_deps.sh (Windows下只需pip install -r requirements.txt)

工具运行

  • 进入 tools 目录
  • 运行 python3 main.py
  • 在打开的窗口点击数据源按钮, 根据提示选择数据保存路径
  • 弹出的浏览器输入用户密码后会自动开始爬取数据, 爬取完成浏览器会自动关闭

在对应的目录下可以查看下载下来的数据(xxx.json), 数据分析图表(xxx.html)

作者认为该项目的最大潜力在于能把多维数据进行融合并对个人数据进行分析,是个人数据效益最大化。

当然如果你想自己去练习和学习爬虫,作者也开源了所有的爬取代码,非常适合实战。

举个例子,比如爬取taobao的:

  1. import json 
  2.  
  3. import random 
  4.  
  5. import time 
  6.  
  7. import sys 
  8.  
  9. import os 
  10.  
  11. import requests 
  12.  
  13. import numpy as np 
  14.  
  15. import math 
  16.  
  17. from lxml import etree 
  18.  
  19. from pyquery import PyQuery as pq 
  20.  
  21. from selenium import webdriver 
  22.  
  23. from selenium.webdriver import ChromeOptions 
  24.  
  25. from selenium.webdriver.common.by import By 
  26.  
  27. from selenium.webdriver.support import expected_conditions as EC 
  28.  
  29. from selenium.webdriver.support.wait import WebDriverWait 
  30.  
  31. from selenium.webdriver import ChromeOptions, ActionChains 
  32.  
  33. from tkinter.filedialog import askdirectory 
  34.  
  35. from tqdm import trange 
  36.  
  37.  
  38.  
  39. def ease_out_quad(x): 
  40.  
  41. return 1 - (1 - x) * (1 - x) 
  42.  
  43. def ease_out_quart(x): 
  44.  
  45. return 1 - pow(1 - x, 4
  46.  
  47. def ease_out_expo(x): 
  48.  
  49. if x == 1
  50.  
  51. return 1 
  52.  
  53. else
  54.  
  55. return 1 - pow(2, -10 * x) 
  56.  
  57. def get_tracks(distance, seconds, ease_func): 
  58.  
  59. tracks = [0
  60.  
  61. offsets = [0
  62.  
  63. for t in np.arange(0.0, seconds, 0.1): 
  64.  
  65. ease = globals()[ease_func] 
  66.  
  67. offset = round(ease(t / seconds) * distance) 
  68.  
  69. tracks.append(offset - offsets[-1]) 
  70.  
  71. offsets.append(offset) 
  72.  
  73. return offsets, tracks 
  74.  
  75. def drag_and_drop(browser, offset=26.5): 
  76.  
  77. knob = browser.find_element_by_id('nc_1_n1z'
  78.  
  79. offsets, tracks = get_tracks(offset, 12'ease_out_expo'
  80.  
  81. ActionChains(browser).click_and_hold(knob).perform() 
  82.  
  83. for x in tracks: 
  84.  
  85. ActionChains(browser).move_by_offset(x, 0).perform() 
  86.  
  87. ActionChains(browser).pause(0.5).release().perform() 
  88.  
  89. def gen_session(cookie): 
  90.  
  91. session = requests.session() 
  92.  
  93. cookie_dict = {} 
  94.  
  95. list = cookie.split(';'
  96.  
  97. for i in list: 
  98.  
  99. try
  100.  
  101. cookie_dict[i.split('=')[0]] = i.split('=')[1
  102.  
  103. except IndexError: 
  104.  
  105. cookie_dict[''] = i 
  106.  
  107. requests.utils.add_dict_to_cookiejar(session.cookies, cookie_dict) 
  108.  
  109. return session 
  110.  
  111. class TaobaoSpider(object): 
  112.  
  113. def __init__(self, cookies_list): 
  114.  
  115. self.path = askdirectory(title='选择信息保存文件夹'
  116.  
  117. if str(self.path) == ""
  118.  
  119. sys.exit(1
  120.  
  121. self.headers = { 
  122.  
  123. 'User-Agent''Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
  124.  
  125.  
  126. option = ChromeOptions() 
  127.  
  128. option.add_experimental_option('excludeSwitches', ['enable-automation']) 
  129.  
  130. option.add_experimental_option("prefs", {"profile.managed_default_content_settings.images"2}) # 不加载图片,加快访问速度 
  131.  
  132. option.add_argument('--headless'
  133.  
  134. self.driver = webdriver.Chrome(options=option) 
  135.  
  136. self.driver.get('https://i.taobao.com/my_taobao.htm'
  137.  
  138. for i in cookies_list: 
  139.  
  140. self.driver.add_cookie(cookie_dict=i) 
  141.  
  142. self.driver.get('https://i.taobao.com/my_taobao.htm'
  143.  
  144. self.wait = WebDriverWait(self.driver, 20) # 超时时长为10s 
  145.  
  146. # 模拟向下滑动浏览 
  147.  
  148. def swipe_down(self, second): 
  149.  
  150. for i in range(int(second / 0.1)): 
  151.  
  152. # 根据i的值,模拟上下滑动 
  153.  
  154. if (i % 2 == 0): 
  155.  
  156. js = "var q=document.documentElement.scrollTop=" + str(300 + 400 * i) 
  157.  
  158. else
  159.  
  160. js = "var q=document.documentElement.scrollTop=" + str(200 * i) 
  161.  
  162. self.driver.execute_script(js) 
  163.  
  164. time.sleep(0.1
  165.  
  166. js = "var q=document.documentElement.scrollTop=100000" 
  167.  
  168. self.driver.execute_script(js) 
  169.  
  170. time.sleep(0.1
  171.  
  172. # 爬取淘宝 我已买到的宝贝商品数据, pn 定义爬取多少页数据 
  173.  
  174. def crawl_good_buy_data(self, pn=3): 
  175.  
  176. # 对我已买到的宝贝商品数据进行爬虫 
  177.  
  178. self.driver.get("https://buyertrade.taobao.com/trade/itemlist/list_bought_items.htm"
  179.  
  180. # 遍历所有页数 
  181.  
  182.  
  183.  
  184. for page in trange(1, pn): 
  185.  
  186. data_list = [] 
  187.  
  188. # 等待该页面全部已买到的宝贝商品数据加载完毕 
  189.  
  190. good_total = self.wait.until( 
  191.  
  192. EC.presence_of_element_located((By.CSS_SELECTOR, '#tp-bought-root > div.js-order-container'))) 
  193.  
  194. # 获取本页面源代码 
  195.  
  196. html = self.driver.page_source 
  197.  
  198. # pq模块解析网页源代码 
  199.  
  200. doc = pq(html) 
  201.  
  202. # # 存储该页已经买到的宝贝数据 
  203.  
  204. good_items = doc('#tp-bought-root .js-order-container').items() 
  205.  
  206. # 遍历该页的所有宝贝 
  207.  
  208. for item in good_items: 
  209.  
  210. # 商品购买时间、订单号 
  211.  
  212. good_time_and_id = item.find('.bought-wrapper-mod__head-info-cell___29cDO').text().replace('\n'"").replace('\r'""
  213.  
  214. # 商家名称 
  215.  
  216. # good_merchant = item.find('.seller-mod__container___1w0Cx').text().replace('\n'"").replace('\r'""
  217.  
  218. good_merchant = item.find('.bought-wrapper-mod__seller-container___3dAK3').text().replace('\n'"").replace('\r'""
  219.  
  220. # 商品名称 
  221.  
  222. # good_name = item.find('.sol-mod__no-br___1PwLO').text().replace('\n'"").replace('\r'""
  223.  
  224. good_name = item.find('.sol-mod__no-br___3Ev-2').text().replace('\n'"").replace('\r'""
  225.  
  226. # 商品价格 
  227.  
  228. good_price = item.find('.price-mod__price___cYafX').text().replace('\n'"").replace('\r'""
  229.  
  230. # 只列出商品购买时间、订单号、商家名称、商品名称 
  231.  
  232. # 其余的请自己实践获取 
  233.  
  234. data_list.append(good_time_and_id) 
  235.  
  236. data_list.append(good_merchant) 
  237.  
  238. data_list.append(good_name) 
  239.  
  240. data_list.append(good_price) 
  241.  
  242. #print(good_time_and_id, good_merchant, good_name) 
  243.  
  244. #file_path = os.path.join(os.path.dirname(__file__) + '/user_orders.json'
  245.  
  246. # file_path = "../Spiders/taobao/user_orders.json" 
  247.  
  248. json_str = json.dumps(data_list) 
  249.  
  250. with open(self.path + os.sep + 'user_orders.json''a') as f: 
  251.  
  252. f.write(json_str) 
  253.  
  254. # print('\n\n'
  255.  
  256. # 大部分人被检测为机器人就是因为进一步模拟人工操作 
  257.  
  258. # 模拟人工向下浏览商品,即进行模拟下滑操作,防止被识别出是机器人 
  259.  
  260. # 随机滑动延时时间 
  261.  
  262. swipe_time = random.randint(13
  263.  
  264. self.swipe_down(swipe_time) 
  265.  
  266. # 等待下一页按钮 出现 
  267.  
  268. good_total = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.pagination-next'))) 
  269.  
  270. good_total.click() 
  271.  
  272. time.sleep(2
  273.  
  274. while 1
  275.  
  276. # time.sleep(0.2
  277.  
  278. try
  279.  
  280. # good_total = self.driver.find_element_by_xpath('//li[@title="下一页"]'
  281.  
  282. break 
  283.  
  284. # except: 
  285.  
  286. continue 
  287.  
  288. # # 点击下一页按钮 
  289.  
  290. while 1
  291.  
  292. # time.sleep(2
  293.  
  294. try
  295.  
  296. # good_total.click() 
  297.  
  298. break 
  299.  
  300. # except Exception: 
  301.  
  302. # pass 
  303.  
  304. # 收藏宝贝 传入爬几页 默认三页 https://shoucang.taobao.com/nodejs/item_collect_chunk.htm?ifAllTag=0&tab=0&tagId=&categoryCount=0&type=0&tagName=&categoryName=&needNav=false&startRow=60 
  305.  
  306. def get_choucang_item(self, page=3): 
  307.  
  308. url = 'https://shoucang.taobao.com/nodejs/item_collect_chunk.htm?ifAllTag=0&tab=0&tagId=&categoryCount=0&type=0&tagName=&categoryName=&needNav=false&startRow={}' 
  309.  
  310. pn = 0 
  311.  
  312. json_list = [] 
  313.  
  314. for i in trange(page): 
  315.  
  316. self.driver.get(url.format(pn)) 
  317.  
  318. pn += 30 
  319.  
  320. html_str = self.driver.page_source 
  321.  
  322. if html_str == ''
  323.  
  324. break 
  325.  
  326. if '登录' in html_str: 
  327.  
  328. raise Exception('登录'
  329.  
  330. obj_list = etree.HTML(html_str).xpath('//li'
  331.  
  332. for obj in obj_list: 
  333.  
  334. item = {} 
  335.  
  336. item['title'] = ''.join([i.strip() for i in obj.xpath('./div[@class="img-item-title"]//text()')]) 
  337.  
  338. item['url'] = ''.join([i.strip() for i in obj.xpath('./div[@class="img-item-title"]/a/@href')]) 
  339.  
  340. item['price'] = ''.join([i.strip() for i in obj.xpath('./div[@class="price-container"]//text()')]) 
  341.  
  342. if item['price'] == ''
  343.  
  344. item['price'] = '失效' 
  345.  
  346. json_list.append(item) 
  347.  
  348. # file_path = os.path.join(os.path.dirname(__file__) + '/shoucang_item.json'
  349.  
  350. json_str = json.dumps(json_list) 
  351.  
  352. with open(self.path + os.sep + 'shoucang_item.json''w') as f: 
  353.  
  354. f.write(json_str) 
  355.  
  356. # 浏览足迹 传入爬几页 默认三页 https://shoucang.taobao.com/nodejs/item_collect_chunk.htm?ifAllTag=0&tab=0&tagId=&categoryCount=0&type=0&tagName=&categoryName=&needNav=false&startRow=60 
  357.  
  358. def get_footmark_item(self, page=3): 
  359.  
  360. url = 'https://www.taobao.com/markets/footmark/tbfoot' 
  361.  
  362. self.driver.get(url) 
  363.  
  364. pn = 0 
  365.  
  366. item_num = 0 
  367.  
  368. json_list = [] 
  369.  
  370. for i in trange(page): 
  371.  
  372. html_str = self.driver.page_source 
  373.  
  374. obj_list = etree.HTML(html_str).xpath('//div[@class="item-list J_redsList"]/div')[item_num:] 
  375.  
  376. for obj in obj_list: 
  377.  
  378. item_num += 1 
  379.  
  380. item = {} 
  381.  
  382. item['date'] = ''.join([i.strip() for i in obj.xpath('./@data-date')]) 
  383.  
  384. item['url'] = ''.join([i.strip() for i in obj.xpath('./a/@href')]) 
  385.  
  386. item['name'] = ''.join([i.strip() for i in obj.xpath('.//div[@class="title"]//text()')]) 
  387.  
  388. item['price'] = ''.join([i.strip() for i in obj.xpath('.//div[@class="price-box"]//text()')]) 
  389.  
  390. json_list.append(item) 
  391.  
  392. self.driver.execute_script('window.scrollTo(0,1000000)'
  393.  
  394. # file_path = os.path.join(os.path.dirname(__file__) + '/footmark_item.json'
  395.  
  396. json_str = json.dumps(json_list) 
  397.  
  398. with open(self.path + os.sep + 'footmark_item.json''w') as f: 
  399.  
  400. f.write(json_str) 
  401.  
  402. # 地址 
  403.  
  404. def get_addr(self): 
  405.  
  406. url = 'https://member1.taobao.com/member/fresh/deliver_address.htm' 
  407.  
  408. self.driver.get(url) 
  409.  
  410. html_str = self.driver.page_source 
  411.  
  412. obj_list = etree.HTML(html_str).xpath('//tbody[@class="next-table-body"]/tr'
  413.  
  414. data_list = [] 
  415.  
  416. for obj in obj_list: 
  417.  
  418. item = {} 
  419.  
  420. item['name'] = obj.xpath('.//td[1]//text()'
  421.  
  422. item['area'] = obj.xpath('.//td[2]//text()'
  423.  
  424. item['detail_area'] = obj.xpath('.//td[3]//text()'
  425.  
  426. item['youbian'] = obj.xpath('.//td[4]//text()'
  427.  
  428. item['mobile'] = obj.xpath('.//td[5]//text()'
  429.  
  430. data_list.append(item) 
  431.  
  432. # file_path = os.path.join(os.path.dirname(__file__) + '/addr.json'
  433.  
  434. json_str = json.dumps(data_list) 
  435.  
  436. with open(self.path + os.sep + 'address.json''w') as f: 
  437.  
  438. f.write(json_str) 
  439.  
  440.  
  441.  
  442. if __name__ == '__main__'
  443.  
  444. # pass 
  445.  
  446. cookie_list = json.loads(open('taobao_cookies.json''r').read()) 
  447.  
  448. t = TaobaoSpider(cookie_list) 
  449.  
  450. t.get_orders() 
  451.  
  452. # t.crawl_good_buy_data() 
  453.  
  454. # t.get_addr() 
  455.  
  456. # t.get_choucang_item() 
  457.  
  458. # t.get_footmark_item() 

这么优秀的仓库,大家多多给仓库创建者 star 支持呀!

 

责任编辑:张燕妮 来源: 新智元
相关推荐

2010-01-25 14:04:17

Android Wid

2010-01-04 18:11:44

Silverlight

2021-01-18 08:10:35

安全工具病毒

2017-02-14 10:17:08

软件咨询师工具箱

2009-12-14 14:00:39

VS 关系图

2020-05-20 14:19:47

滴滴开源工具

2024-06-18 07:50:43

2022-12-25 16:44:40

开源工具Github

2013-01-28 10:47:14

Windows 8

2013-06-07 13:30:20

2010-07-23 08:48:21

PHP架构

2009-12-18 09:27:04

VS 2008 工具箱

2012-04-23 13:53:26

带宽QoS

2009-10-10 13:09:45

2015-05-27 14:26:05

2016-06-08 14:45:59

应用程序创新工具开源

2017-05-24 15:07:19

Python爬虫爬取

2016-12-07 11:18:58

Python爬虫网站

2021-04-06 11:41:31

前端工具Web

2015-11-09 10:39:58

公有云 ssh 工具箱
点赞
收藏

51CTO技术栈公众号