给你一天的Google搜索日志,你怎么设计算法找出是否有一个搜索词,它出现的频率占所有搜索的一半以上?如果肯定有一个搜索词占大多数,你能怎么提高你的算法找到它?再假定搜索日志就是内存中的一个数组,能否有O(1)空间,O(n)时间的算法?
最多连续数的子集之参考答案
题目:
给一个整数数组, 找到其中包含最多连续数的子集,比如给:15, 7, 12, 6, 14, 13, 9, 11,则返回: 5:[11, 12, 13, 14, 15] 。最简单的方法是sort然后scan一遍,但是要o(nlgn),有什么O(n)的方法吗?
分析:
我们先来学习一种叫做并查集的数据结构。
并查集(Disjoint set或者Union-find set)是一种简单的用途广泛的算法和数据结构。并查集是若干个不相交集合,能够实现较快的合并和判断元素所在集合的操作,应用很多,如其求无向图的连通分量个数等。
并查集可以方便地进行以下三种操作:
1、Make_Set(x) 把每一个元素初始化为一个集合
初始化后每一个元素的父亲节点是它本身,每一个元素的祖先节点也是它本身(也可以根据情况而变)。
2、Find_Set(x) 查找一个元素所在的集合
查找一个元素所在的集合,其精髓是找到这个元素所在集合的祖先。这个才是并查集判断和合并的最终依据。
判断两个元素是否属于同一集合,只要看他们所在集合的祖先是否相同即可。
合并两个集合,也是使一个集合的祖先成为另一个集合的祖先,具体见示意图。
3、Union(x,y) 合并x,y 所在的两个集合
合并两个不相交集合操作很简单:
利用Find_Set找到其中两个集合的祖先,将一个集合的祖先指向另一个集合的祖先。如图
并查集的优化:
1、Find_Set(x)时 路径压缩
寻找祖先时我们一般采用递归查找,但是当元素很多亦或是整棵树变为一条链时,每次Find_Set(x)都是O(n)的复杂度,有没有办法减小这个复杂度呢?
答案是肯定的,这就是路径压缩,即当我们经过"递推"找到祖先节点后,"回溯"的时候顺便将它的子孙节点都直接指向祖先,这样以后再次Find_Set(x)时复杂度就变成O(1)了,如下图所示;可见,路径压缩方便了以后的查找。
2、Union(x,y)时 按秩合并
即合并的时候将元素少的集合合并到元素多的集合中,这样合并之后树的高度会相对较小。
有了背景知识,我们来看如何利用它来解决这个问题。
首先,Make_Set(x)将每个元素变成一个并查集,然后扫描,Union(x-1, x),Union(x, x+1)。
接下来的问题是怎么快速找到x-1,x+1的位置?那么需要引入查找为常数复杂度的哈希表。
其他网友建议的解决方案
网友Mike建议 :
用一个map,它的key是一个起始的数字,value是这个起始数字起连续的个数。这样这个数组遍历一遍下来,只要map维护好了,自然就能得到最长的连续子串了,并且算法复杂度应该是O(n)。(不考虑map函数实现的复杂度)
前面说了维护好map就可以了,那么怎么来维护这个map呢?
取出当前的整数,在map里看一下是否已经存在,若存在则直接取下一个,不存在转2 (为什么要看是否已经存在,因为题目没有说不会有重复的数字。) 查看下map里面当前数字的前一个是否存在,如果存在,当前的最长长度就是前一个最长长度+1 查看下map里面当前数字的后一个是否存在,如果存在,那么就将以下一个数字开始的子串的最后一个更新下,因为本来没有连上的2个子串,因为当前数字的出现连起来了 接着再看下前面数字是否存在,如果存在,就更新以这个数字结尾的子串的第一个数字的连续子串长度,原因同上。
算法就是如上所示了,我们拿例子演练一遍。
- 首先给定15,这个时候map里面没有15也没有14和16,那么这个执行完了之后map是map[15] = 1;
- 然后遇到7,同上,也没有6,7和8,所以执行玩了之后变成map[7]=1, map[15]=1;
- 12同上,map[7]=1, map[12]=1, map[15]=1;
- 接下来是6,6就不一样了,因为7存在的,所以执行上面第3步之后,map[6]=2,map[7]=2,map[12]=1,map[15]=1;
- 14的情况跟6一样,结果是map[6]=2,map[7]=2,map[12]=1,map[14]=2,map[15]=2;
- 13的情况相对复杂一些,因为12和14都存在了 ,所以它会执行以上1,2,3,4的所有4步:首先12存在,所以13的最长子串是2,14存在,所以会更新到14起始的最后一个数字的最长长度,这里就 是15的长度=它自己的加上13的长度,也就是4,同时我们把13的长度也改成4,最后因为12存在,我们要更新以12结尾的连续子串的开始处,本例中就 是12自己,12对应更新成4。
- 最后是11,11的前面一个数字不存在,后一个数字存在,也就是要执行以上1,3,第3步结束的时候已经是11和15都更新成5了。最后的结果也就是5,并且是从11起始的。
网友xd_jackfeng建议:
设置一个bitmap,初始值为0,如果出现则设置为1,这样看有多少个1连续就可以了。