Python 制作微博抓取 GUI 程序

开发 前端
对于微博的具体爬取方法,这里就不再展开说明了,我是把所有微博爬虫的代码都封装好了,这里直接调用暴露的接口即可。

在前面的分享中,我们制作了一个天眼查 GUI 程序,今天我们在这个的基础上,继续开发新的功能,微博抓取工具,先来看下最终的效果。

图片

整体的界面还是继承自上次的天眼查界面,我们直接来看相关功能。

微博功能布局

我们整体的界面布局就是左侧可以选择不同功能,然后右侧的界面会对应改变。

创建微博 Widget

对于右侧界面的切换,我们可以为不同的功能创建不同的 Widget,当点击左侧不同功能按钮后,对应切换 Widget 即可。

我们新建一个 weibo 相关的函数,主要用来界面布局。

def weiboWidget(self):
self.left_button_widget_3 = QtWidgets.QWidget()
self.weiboWebEngine = QWebEngineView()
self.weiboWebEngine2 = QWebEngineView()
self.progressWidget = QtWidgets.QWidget()
self.ciyunWidget = QtWidgets.QWidget()

我们还看到整体界面有一个词云,该词云是通过 matplotlib 渲染的,所以还需要创建 matplotlib 布局。

self.figure = plt.figure(figsize=(7, 2))
self.canvas = FigureCanvasQTAgg(self.figure)
self.gridLayout_weibo.addWidget(self.canvas, 5, 0, 1, 9)

创建微博查询

接下来我们创建一个微博查询函数,同时因为我们这里需要实时更新抓取进度条,所以使用了多线程的方式。

def doWeiboQuery(self):
weibo_link = self.lineEdit_weibo_link.text()
weibo_name = self.lineEdit_weibo_name.text()
weibo_page = self.weibo_comboBox.currentText()
if not weibo_link or not weibo_name:
QMessageBox.information(self, "Error", "微博链接或者用户名称不能为空",
QMessageBox.Yes)
return
self.weiboWebEngine.load(QUrl(weibo_link))
self.qth = WeiBoQueryThread()
self.qth.update_data.connect(self.weiboPgbUpdate)
self.qth.draw_ciyun.connect(self.drawCiyun)
self.qth.weibo_page = weibo_page
self.qth.weibo_link = weibo_link
self.qth.weibo_name = weibo_name
self.qth.start()

而主线程与子线程之间的通信,是使用信号槽的形式。

def weiboPgbUpdate(self, data):
self.pgb.setValue(data)

def drawCiyun(self):
self.canvas.draw()
self.toolbar = NavigationToolbar2QT(self.canvas, self)
self.gridLayout_weibo.addWidget(self.toolbar, 8, 0, 1, 9)

接下来就是创建子进程函数,函数主体是爬取微博的代码。

"""子进程微博查询"""
class WeiBoQueryThread(QThread):
# 创建一个信号,触发时传递当前时间给槽函数
update_data = pyqtSignal(int)
draw_ciyun = pyqtSignal()
weibo_name = None
weibo_link = None
weibo_page = None
total_pv = 0
timestamp = str(int(time.time()))
def run(self):
# 微博爬虫
try:
file_name = self.weibo_name + "_" + self.timestamp + 'comment.csv'
my_weibo = weibo_interface.Weibo(self.weibo_name)
uid, blog_info = my_weibo.weibo_info(self.weibo_link)
pv_max = int(self.weibo_page)
pre_pv = 100 // pv_max
for i in range(int(self.weibo_page)):
my_weibo.weibo_comment(uid, blog_info, str(i), file_name)
self.total_pv += pre_pv
self.update_data.emit(self.total_pv)
print("所有微博评论爬取完成!")
print("开始生成词云")
font, img_array, STOPWORDS, words = ciyun(file_name)
wc = WordCloud(width=2000, height=1800, background_color='white', font_path=font, mask=img_array,
stopwords=STOPWORDS, contour_width=3, contour_color='steelblue').generate(words)
plt.imshow(wc)
plt.axis("off")
self.draw_ciyun.emit()
print("生成词云完成")
except Exception as e:
print(e)

而对于微博的具体爬取方法,这里就不再展开说明了,我是把所有微博爬虫的代码都封装好了,这里直接调用暴露的接口即可。

词云制作

对于词云的制作,我们还是先通过 jieba 进行分词处理,然后使用 wordcloud 库生成词云即可。

# 词云相关
def ciyun(file, without_english=True):
font = r'C:\Windows\Fonts\FZSTK.TTF'
STOPWORDS = {"回复", "@", "我", "她", "你", "他", "了", "的", "吧", "吗", "在", "啊", "不", "也", "还", "是",
"说", "都", "就", "没", "做", "人", "赵薇", "被", "不是", "现在", "什么", "这", "呢", "知道", "邓"}
df = pd.read_csv(file, usecols=[0])
df_copy = df.copy()
df_copy['comment'] = df_copy['comment'].apply(lambda x: str(x).split()) # 去掉空格
df_list = df_copy.values.tolist()
comment = jieba.cut(str(df_list), cut_all=False)
words = ' '.join(comment)
if without_english:
words = re.sub('[a-zA-Z]', '', words)
img = Image.open('ciyun.png')
img_array = np.array(img)
return font, img_array, STOPWORDS, words

由于很多评论当中会存在链接信息,导致制作的词云有很多高权重的英文字符,所有这里也通过正则进行了去英文字符处理。

至此,我们这个微博查询功能就完成了!

责任编辑:武晓燕
相关推荐

2023-10-30 09:38:12

GUI程序接口方法

2020-12-10 08:20:27

Python微博评论

2021-12-30 10:28:30

Python 微博评论

2011-07-25 13:15:22

2012-04-13 09:51:56

火狐微博助手

2011-12-08 16:31:43

新浪微博开放平台

2011-12-21 16:19:06

网秦手机安全微博保镖

2011-08-15 13:42:57

2011-09-14 14:40:13

专业化微博IT微博

2015-09-24 18:08:50

微博架构架构演进架构

2015-04-16 10:35:08

微博微博如何实现

2013-03-26 10:40:21

2010-10-25 10:07:48

jQuery

2010-10-27 10:02:36

PHP

2012-07-12 15:00:26

漏洞账号错乱新浪微博

2011-12-20 09:54:43

微博

2017-04-27 11:15:05

新浪微博LNMP架构侯青龙

2013-07-10 14:15:38

php新浪微博

2012-05-09 14:02:46

HTML5

2011-10-21 09:43:28

Python
点赞
收藏

51CTO技术栈公众号