Python分析新浪微博各种表情使用频率-51CTO.COM

用新浪微博API积累了微博广场的1.4万条数据，我选择了21个字段输出为TXT文件，想用Python稍微处理一下，统计一下这1.4万条微博里面表情使用情况，统计结构在***。

无聊的时候用了下新浪JAVA版的API，对JAVA还不熟悉，但是稍微改一下还是没问题的，数据保存为TXT文件，再用Python处理，JAVA部分很简单，Python部分只涉及到表情的正则提取，都不好意思写出来了。

1、调用新浪JAVA API下载微博广场数据

步骤思路：

初始化API的Weibo类，设置Token后，设置下载间隔，然后重复调用getPublicTimeline()函数就可以了，下面是主要类的代码：

这个不是完整的代码，没有初始化暂停间隔，可以掠过，很简单。

class WriteWeiboData{  
     private int n;  
     public WriteWeiboData(int count)  
     {  
         this.n=count;  
     }  
     public void Start(){  
         System.setProperty("weibo4j.oauth.consumerKey", Weibo.CONSUMER_KEY);  
         System.setProperty("weibo4j.oauth.consumerSecret", Weibo.CONSUMER_SECRET);  
         try {  
             //获取前20条***更新的公共微博消息  
             Weibo weibo = new Weibo();  
             //weibo.setToken(args[0],args[1]);  
             weibo.setToken("keystring", "keyscrect");  
             for(int i=0;i<this.n;i++){  
                 System.out.print("Start to get weibo data num "+(i+1)+"\n");  
                 List<Status> statuses =weibo.getPublicTimeline();  
                 for (Status status : statuses) {  
                     SaveData(status);  
                 }  
                 try{  
                     System.out.print("Success to get weibo data num "+(i+1)+"\n");  
                     System.out.print("Sleep for 30 seconds");  
                     Thread.sleep(30000);  
                 }catch(Exception ee){  
                     System.out.print("Sleep Error");  
                 }  
             }  
         } catch (WeiboException e) {  
             e.printStackTrace();  
         }  
     }  
     public void SaveData(Status status){  
         //Return data format:  
                 //created_at,id,text,source,mid  
                 //user:id,screen_name,name,provience,city,location,description,url,domain,gender,  
                 //followers_count,friends_count,statuses_count,favourites_count,created_at,verified  
                 //annotations:server_ip  
                 try{  
                     User user=status.getUser();  
                     FileWriter fw=new FileWriter("F:/Sina.txt",true);  
                     fw.write(status.getCreatedAt()+"\t"+status.getId()+"\t"+status.getText()+"\t"+  
                     status.getSource()+"\t"+status.getMid()+"\t"+  
                     user.getId()+"\t"+user.getScreenName()+"\t"+user.getName()+"\t"+  
                     user.getProvince()+"\t"+user.getCity()+"\t"+user.getLocation()+"\t"+  
                     user.getDescription()+"\t"+user.getURL()+"\t"+user.getUserDomain()+"\t"+  
                     user.getGender()+"\t"+user.getFollowersCount()+"\t"+user.getFriendsCount()+"\t"+  
                     user.getStatusesCount()+"\t"+user.getFavouritesCount()+"\t"+user.getCreatedAt()+"\t");  
                     fw.write("\n");  
                     fw.close();  
                 }  
                 catch(Exception e){  
                     System.out.print("IO Error");  
                 }  
     }  
 }

2、数据格式：

要取得数据就是微博内容，先练一下手玩玩。

3、Python处理数据

目标：查看微博用户表情使用情况，暂时只分性别，如果积累了合适的数据后可以分析各个时间段人们爱用哪种表情。

步骤：

$ 读取TXT文件，递归处理每一行

$ 单独提取出微博字段，正则提取表情字段，同时把性别提取出来，放到一个dict里面，dict的格式是：表情/女性使用频率/男性使用频率，递归处理，累积频率

$ 把结果写入到文件

注意：Python正则提取中文部分，先解码成unicode编码，再正则提取，表情的标志是[]，虽有误差，但无大碍。

代码：

__collection函数是处理函数，返回处理结果(dict)

class EmotionFrequent():  
     infoFile='F:/Sina.txt' 
     def __init__(self):  
         pass 
     def __collection(self):  
         f=open(self.infoFile)  
         d=dict()  
         n=1 
         for line in f.readlines():  
             if line.strip()=='' or line.strip()=='\n':  
                 pass 
             cols=line.split('\t')  
             if len(cols)<20:  
                 continue 
             n+=1 
             es=[]  
             #if cols[2].find('[')!=-1 and cols[2].find(']')!=-1:  
             info=cols[2]  
             for i in re.findall(r'\[\S+?\]',info.decode('utf-8')):  
                 data=i[1:-1].encode('utf-8')  
                 if d.has_key(data):  
                     if cols[14]=='f':  
                         d[data][0]+=1 
                         d[data][2]+=1 
                     else:  
                         d[data][1]+=1 
                         d[data][2]+=1 
                 else:  
                     if cols[14]=='f':  
                         d[data]=[1,0,1]  
                     else:  
                         d[data]=[0,1,1]  
         print 'Total records num '+str(n)  
         return d  
         pass 
     def WriteDict(self):  
         d=self.__collection()  
         f=open('F:/keys.txt','w')  
         for k in d:  
             f.write(k+'\t')  
             f.write(str(d[k][0])+'\t')  
             f.write(str(d[k][1])+'\t')  
             f.write(str(d[k][2])+'\n')  
         f.close()  
         pass 
     def Run(self):  
         self.WriteDict()  
     pass

脚本运行结果：

把结果放到EXCEL里面重新排序，得到如下结果：

至于怎么解读这个结果，有没有意义，各有各的想法。

网友评价：印证了女人是情绪化动物，爱哭爱笑爱爱卖萌爱撒娇要抱抱。。。。而男人，辛苦易生病易头晕。

原文：http://www.cnblogs.com/Lannik/archive/2011/10/21/2219776.html

【编辑推荐】