【51CTO.com快译】现实生活中经常有突发热点事件,例如突发热点新闻,突发疫情,突发信息安全事件等等。如果能够提前预测突发事件,不仅能够防止重大安全事件的发生,在某些商业应用场景下还能带来高额的商业收益。不管是在学术界还是工业界,突发热点事件都是研究和关注的重点。
信息瀑布模型(Information Cascades)是近年来社交网络分析的研究热点。信息瀑布模型主要研究社交网络中信息的扩散情况,例如豆瓣网对某本书点赞行为的扩散模型。信息瀑布模型在学术界和工业界引起了广泛的关注。Facebook 作为全球***的社交网站,对信息瀑布模型也非常的重视。本文编译自知名国际会议 WWW 2017 年 Facebook 和弗吉尼亚理工联合发表的论文 Detecting Large Reshare Cascades in Social Networks。
信息瀑布模型可以归约为如下问题:判断社交网络中某个时间什么时候会产生爆发式的流行行为。因为这种爆发式的流行行为非常的少见,并且是爆发式的,因此传统的一些算法会受到极大的影响。如果用分类的方式对问题进行预测,会导致不均衡分类问题;如果用时间序列分析的方法来对问题建模,因为爆发式的流行行为与时间序列的平滑性等要求不符,因此也很难对问题进行好的刻画。而生存分析技术能够很好地解决这一问题。
Facebook 为了解决这类信息瀑布模型问题,提出了 SansNet 方法。问题的场景是为了刻画网站上转播行为(reshare)的信息传播模式。
首先我们定义一下什么样的行为被认为是爆发式的流行行为。Facebook 认为当转播行为超过了绝对或者相对大小的某个阈值,就认为是爆发式的流行行为,例如某个帖子被转播了1万次。问题的定义如下:
Facebook 用扩展 COX 模型对 m 个转贴时间序列进行预测。这个模型的生存函数如下:
其中 v(t) 是 t 时刻信息瀑布的大小。
爆发式流行行为可以归约为如下***化问题:
该***化问题的本质是分类问题 , 其中 是分类标签( +1 / -1) 用来标记某个帖子的转播时间序列是否是爆发式流行行为。 是每一类的误分率。这个问题的实质是通过生存概率来***化两个不同分类之间的***间隔,或者换句话来说,最小化分类问题的误分率。
SansNet 算法的伪代码如下:
SansNet 的总的时间复杂度是 O(m(|R|+T)) 。
Facebook 的研究人员选取了 2015 年 8 月8日上传到 Facebook 的 25 万个照片和视频,统计了每个小时照片/视频的转发量,将持续一周时间的数据作为实验数据集进行了算法实验。SansNet 在照片和视频上的召回率(红色线条)如下:
可以看到 SansNet 算法与线形模型、逻辑回归、树模型和随机过程模型相比有明显的优势。
SansNet 在 Top 10 热点的覆盖率如下所示:
SansNet 在 Top 30 热点的覆盖率如下所示:
Facebook 的这篇论文是 2017 年发表的***成果,具有广泛的应用场景。例如:新闻网站如新浪和网易均把热点预测作为重要的算法研究问题。另外针对社交网站例如 Twitter 上流行微博和流行主题的预测也引起了学术界和工业界的广泛关注。预测问题是大数据领域具有重要现实意义的问题,特别是长期预测,至今仍是一个充满挑战性的***。
原文标题:Detecting Large Reshare Cascades in Social Networks,作者:Karthik Subbian , B. Aditya Prakash , Lada Adamic
【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】