中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中文分词具有极高的地位。
NLP刚入门,想找个东西练练手,于是便看到了手边的农药。。。
思路
- 使用Python爬取王者荣耀官网所有英雄的背景资料文本信息
- 使用RMM最大逆向匹配分词算法对文本进行分词处理,计算词频
- 使用Excel出具简单的可视化报告
结果
爬取了王者荣耀官方网站-腾讯游戏
71位英雄的英雄故事文本
共计59793个字符
排名前20的高频词汇:
【自己】一词出现了194次,词频为0.48%,高居榜首。
王者荣耀团队在介绍英雄时,多以第一人称视角进行故事叙述和情感宣泄。
有利于用户更好地理解英雄背景,触发共情效果,有利于提高用户的整体游戏体验。
如苏烈的英雄故事中,【自己】就出现了4次,图片所截区域不全,仅作展示说明。
男女词汇比例
男性词汇: 他 他们 男 男子 男人 少年 爹爹;出现次数704次,词频为1.74%。
女性词汇: 她 她们 少女 女 妻子 太后 女娲 小女孩 女郎 女孩 女婴 女战士;出现次数263次,词频为0.65%。
男女词汇比例为73:27,男女英雄数量比例为72:28,几乎一致王者荣耀的英雄更迭与故事发展主要与男性英雄相关
如铠的英雄背景中,【他】出现了31次,【她】出现了1次
在同为长城小队队员的花木兰英雄背景中,【他】出现了12次,而【她】出现了1次
主要情节均由男性角色推动。
排名前20的地点词汇:
【长安】、【长城】和【大唐】稳居榜首前三,占据了前20地名中46.67%的词频
繁华盛世和战乱边疆都是孕育无数英雄豪杰的好地方,兼容并蓄的社会环境和攘外安内的国家政策迸发出一批又一批的青年才俊。
王者荣耀的游戏策划也是深谙此道。
目前所有的英雄均来自于王者大陆的魔幻土地之上,如城镇、废墟、地下、森林、深渊、寺院和戈壁等。
官方人员在设计新的英雄时,不妨把视角转向浩渺的天空。
如Dota中的双头龙、精灵龙、寒冰飞龙、死灵飞龙和凤凰等角色,来为游戏注入新的活力,进一步加强游戏本身的趣味性和可玩性。
正负面情感词汇比例
正负面词汇比例为65:35,英雄们多因外族入侵、魔道猖獗、国破家亡和希望破灭等因素,为了国家安定和梦想实现,不得不拿起手中刀剑,奔向战场
天降大任于斯人也,必先苦其心志,劳其筋骨,饿其体肤,空乏其身,行指乱其所为,所以动心忍性,曾益其所不能。
正面词汇: 爱 仁 和平 信任 胜利 希望 微笑 荣耀 伟大 辉煌 美丽 自信 等;出现次数425次,词频为1.04%。
负面词汇: 魔 魔道 黑暗 愤怒 背叛 可怕 恐惧 失去 死亡 危险 吞噬 邪恶 残忍 嘲笑 折磨 战乱 等;出现次数780次,词频为1.91%。