基本介绍
二分搜索(折半搜索)是一种在有序数组中查找某一特定元素的搜索算法。
从定义可知,运用二分搜索的前提是数组必须是排好序的,另外,输入并不一定是数组,也有可能是给定一个区间的起始和终止的位置。
他的时间复杂度是 O(lgn),非常高效。
基本特点
他的缺点要求待查找的数组或者区间是排好序的。
如果对数组进行动态的删除和插入操作并完成查找,平均复杂度会变为 O(n)。
因此,当输入的数组或者区间是排好序的,同时又不会经常变动,而要求从里面找出一个满足条件的元素的时候,二分搜索就是最好的选择。
解题思路
二分搜索一般化的解题思路如下:
- 从已经排好序的数组或区间中取出中间位置的元素,判断该元素是否满足要搜索的条件,如果满足,停止搜索,程序结束。
- 如果正中间的元素不满足条件,则从它两边的区域进行搜索。由于数组是排好序的,可以利用排除法,确定接下来应该从这两个区间中的哪一个去搜索。
- 通过判断,如果发现真正要找的元素在左半区间的话,就继续在左半区间里进行二分搜索。反之,就在右半区间里进行二分搜索。
二分查找的解题框架
int binarySearch(int[] nums, int target) {
int left = 0, right = ...;
while(...) {
//计算 mid 时需要技巧防止溢出,建议写成: mid = left + (right - left) / 2
int mid = (right + left) / 2;
if (nums[mid] == target) {
...
} else if (nums[mid] < target) {
left = ...
} else if (nums[mid] > target) {
right = ...
}
}
return ...;
}
常见解法
递归解法
假设我们要从一个排好序的数组里 {1, 3, 4, 6, 7, 8, 10, 13, 14} 查看一下数字 7 是否在里面,如果在,返回它的下标,否则返回 -1。
递归写法的代码模板如下:
// 二分搜索函数的定义里,除了要指定数组 nums 和目标查找数 target 之外,还要指定查找区间的起点和终点位置,分别用 low 和 high 去表示。
int binarySearch(int[] nums, int target, int low, int high) {
// 为了避免无限循环,先判断,如果起点位置大于终点位置,表明这是一个非法的区间,已经尝试了所有的搜索区间还是没能找到结果,返回 -1。
if (low > high) {
return -1;
}
// 取正中间那个数的下标 middle。
int middle = low + (high - low) / 2;
// 判断一下正中间的那个数是不是要找的目标数 target,是,就返回下标 middle。
if (nums[middle] == target) {
return middle;
}
// 如果发现目标数在左边,就递归地从左半边进行二分搜索。
if (target < nums[middle]) {
return binarySearch(nums, target, low, middle - 1);
} else {
return binarySearch(nums, target, middle + 1, high);
}//否则从右半边递归地进行二分搜索。
}
注意:
- 在计算 middle 下标的时候,不能简单地用 (low + hight) / 2,可能会导致溢出。
- 在取左半边以及右半边的区间时,左半边是 [low, middle - 1],右半边是[middle + 1, high],这是两个闭区间。因为已经确定了 middle 那个点不是我们要找的,就没有必要再把它加入到左、右半边了。
- 对于一个长度为奇数的数组,例如:{1, 2, 3, 4, 5},按照 low + (high - low) / 2 来计算,middle 就是正中间的那个位置,对于一个长度为偶数的数组,例如 {1, 2, 3, 4},middle 就是正中间靠左边的一个位置。
最后的时间复杂度是 O(logn)。
非递归解法
非递归写法的代码模板如下:
int binarySearch(int[] nums, int target, int low, int high) {
// 在 while 循环里,判断搜索的区间范围是否有效
while (low <= high) {
// 计算正中间的数的下标
int middle = low + (high - low) / 2;
// 判断正中间的那个数是不是要找的目标数 target。如果是,就返回下标 middle
if (nums[middle] == target) {
return middle;
}
// 如果发现目标数在左边,调整搜索区间的终点为 middle - 1;否则,调整搜索区间的起点为 middle + 1
if (target < nums[middle]) {
high = middle - 1;
} else {
low = middle + 1;
}
}
// 如果超出了搜索区间,表明无法找到目标数,返回 -1
return -1;
}
为什么 while 循环的条件中是 <=,而不是 < ?
答:因为初始化 high 的赋值是nums.length - 1,即最后一个元素的索引,而不是 nums.length。
这二者可能出现在不同功能的二分查找中,区别是:前者相当于两端都闭区间 [left, right],后者相当于左闭右开区间 [left, right),因为索引大小为 nums.length 是越界的。
我们这个算法中使用的是 [left, right] 两端都闭的区间。这个区间就是每次进行搜索的区间。
实际应用
我们知道Kafka是一款性能强大且常用的分布式消息队列,常常用于对流量进行消峰、解耦系统和异步处理部分逻辑以提高性能的场景。
在Kafka中,所有的消息都是以日志的形式存储的。
你可以认为Kafka的海量消息就是按照写入的时间顺序,依次追加在许多日志文件中。
那在某个日志文件中,每条消息自然会距离第一条消息有一个对应的offset,不过这里的offset更像是一个消息的自增ID,而不是一个消息在文件中的偏移量。
Kafka的每个topic会有多个partition,每个partition下的日志,都按照顺序分成一个个有序的日志段,顺次排列。
怎么找到消息
Kafka虽然不允许从尾部以外的地方插入或者修改数据,但我们在Kafka中还是很可能需要从某个时间点开始读数据的,这就意味着我们要通过一个offset,快速查找到某条消息在日志文件的什么位置。
但由于每条消息的消息体不同,每条消息所占用的磁盘大小都是不同的,只有offset,没有办法直接定位到文件的位置。
所以我们要么遍历日志文件进行查找,要么我们为日志文件建立一套索引系统,将消息offset和在文件中的position关联起来,这样我们就可以利用消息offset的有序性,通过二分法加速查找了。
下面是某个topic的某个partition下(日志文件)的存储情况:
00000000000000000000.log
00000000000000000000.index
00000000000000000000.timeindex
00000000000000000035.log
00000000000000000035.index
00000000000000000035.timeindex
- .log文件就是存储了消息体本身的日志文件;
- .index文件就是用于帮我们快速检索消息在文件中位置的索引文件;
- 这里还有个.timeindex后缀的文件,它和index其实差不多都是索引文件,只不过在这个文件中关联position的变成了时间戳。
例题分析
找确定的边界
边界分上边界和下边界,有时候也被成为右边界和左边界。确定的边界指边界的数值等于要找的目标数。
例题:LeetCode 第 34 题,在一个排好序的数组中找出某个数第一次出现和最后一次出现的下标位置。
示例:输入的数组是:{5, 7, 7, 8, 8, 10},目标数是 8,那么返回 {3, 4},其中 3 是 8 第一次出现的下标位置,4 是 8 最后一次出现的下标位置。
解题思路
在二分搜索里,把第一次出现的地方叫下边界,把最后一次出现的地方叫上边界。
那么成为 8 的下边界的条件:
- 该数必须是 8;该数的左边一个数必须不是 8;8 的左边有数,那么该数必须小于 8;8 的左边没有数,即 8 是数组的第一个数。
成为 8 的上边界的条件:
- 该数必须是 8;该数的右边一个数必须不是 8:8 的右边有数,那么该数必须大于8;8 的右边没有数,即 8 是数组的最后一个数。
代码实现
用递归的方法来寻找下边界,代码如下:
int searchLowerBound(int[] nums, int target, int low, int high) {
if (low > high) {
return -1;
}
int middle = low + (high - low) / 2;
//判断是否是下边界时,先看看 middle 的数是否为 target,并判断该数是否已为数组的第一个数,或者,它左边的一个数是不是已经比它小,如果都满足,即为下边界。
if (nums[middle] == target && (middle == 0 || nums[middle - 1] < target)) {
return middle;
}
if (target <= nums[middle]) {
return searchLowerBound(nums, target, low, middle - 1);
} else {
return searchLowerBound(nums, target, middle + 1, high);
} //不满足,如果这个数等于 target,那么就得往左边继续查找。
}
查找上边界的代码如下:
int searchUpperBound(int[] nums, int target, int low, int high) {
if (low > high) {
return -1;
}
int middle = low + (high - low) / 2;
//判断是否是上边界时,先看看 middle 的数是否为 target,并判断该数是否已为数组的最后一个数,或者,它右边的数是不是比它大,如果都满足,即为上边界。
if (nums[middle] == target && (middle == nums.length - 1 || nums[middle + 1] > target)) {
return middle;
}
if (target < nums[middle]) {
return searchUpperBound(nums, target, low, middle - 1);
} else {
return searchUpperBound(nums, target, middle + 1, high);
} //不满足时,需判断搜索方向。
}
找模糊的边界
二分搜索可以用来查找一些模糊的边界。模糊的边界指,边界的值并不等于目标的值,而是大于或者小于目标的值。
例题:从数组 {-2, 0, 1, 4, 7, 9, 10} 中找到第一个大于 6 的数。
解题思路
在一个排好序的数组里,判断一个数是不是第一个大于 6 的数,只要它满足如下的条件:
- 该数要大于 6;该数有可能是数组里的第一个数,或者它之前的一个数比 6 小。只要满足了上面的条件就是第一个大于 6 的数。
代码实现
Integer firstGreaterThan(int[] nums, int target, int low, int high) {
if (low > high) {
return null;
}
int middle = low + (high - low) / 2;
//判断 middle 指向的数是否为第一个比 target 大的数时,须同时满足两个条件:middle 这个数必须大于 target;middle 要么是第一个数,要么它之前的数小于或者等于 target。
if (nums[middle] > target && (middle == 0 || nums[middle - 1] <= target)) {
return middle;
}
if (target < nums[middle]) {
return firstGreaterThan(nums, target, low, middle - 1);
} else {
return firstGreaterThan(nums, target, middle + 1, high);
}
}
旋转过的排序数组
二分搜索也能在经过旋转了的排序数组中进行。
例题:LeetCode 第 33 题,给定一个经过旋转了的排序数组,判断一下某个数是否在里面。
示例:给定数组为 {4, 5, 6, 7, 0, 1, 2},target 等于 0,答案是 4,即 0 所在的位置下标是 4。
解题思路
对于这道题,输入数组不是完整排好序,还能运用二分搜索吗?
由于题目说数字了无重复,举个例子:
1 2 3 4 5 6 7 可以大致分为两类,
第一类 2 3 4 5 6 7 1 这种,也就是 nums[start] <= nums[mid]。此例子中就是 2 <= 5。
这种情况下,前半部分有序。因此如果 nums[start] <=target
第二类 6 7 1 2 3 4 5 这种,也就是 nums[start] > nums[mid]。此例子中就是 6 > 2。
这种情况下,后半部分有序。因此如果 nums[mid]
代码实现
int binarySearch(int[] nums, int target, int low, int high) {
if (low > high) {
return -1;
} //判断是否已超出了搜索范围,是则返回-1。
int middle = low + (high - low) / 2; //取中位数。
if (nums[middle] == target) {
return middle;
} //判断中位数是否为要找的数
if (nums[low] <= nums[middle]) { //判断左半边是不是排好序的。
if (nums[low] <= target && target < nums[middle]) { //是,则判断目标值是否在左半边。
return binarySearch(nums, target, low, middle - 1); //是,则在左半边继续进行二分搜索。
}
return binarySearch(nums, target, middle + 1, high); //否,在右半边进行二分搜索。
} else {
if (nums[middle] < target && target <= nums[high]) { //若右半边是排好序的那一半,判断目标值是否在右边。
return binarySearch(nums, target, middle + 1, high); //是,则在右半边继续进行二分搜索。
}
return binarySearch(nums, target, low, middle - 1); //否,在左半边进行二分搜索。
}
}
不定长的边界
前面介绍的二分搜索的例题都给定了一个具体范围或者区间,那么对于没有给定明确区间的问题能不能运用二分搜索呢?
例题:有一段不知道具体长度的日志文件,里面记录了每次登录的时间戳,已知日志是按顺序从头到尾记录的,没有记录日志的地方为空,求当前日志的长度。
解题思路
可以把这个问题看成是不知道长度的数组,数组从头开始记录都是时间戳,到了某个位置就成为了空:{2019-01-14, 2019-01-17, … , 2019-08-04, …. , null, null, null …}。
思路 1:顺序遍历该数组,一直遍历下去,当发现第一个 null 的时候,就知道了日志的总数量。很显然,这是很低效的办法。
思路 2:借用二分搜索的思想,反着进行搜索。
- 一开始设置 low = 0,high = 1
- 只要 logs[high] 不为 null,high *= 2
- 当 logs[high] 为 null 的时候,可以在区间 [0, high] 进行普通的二分搜索
代码实现:
// 先通过getUpperBound函数不断地去试探在什么位置会出现空的日志。
int getUpperBound(String[] logs, int high) {
if (logs[high] == null) {
return high;
}
return getUpperBound(logs, high * 2);
}
// 再运用二分搜索的方法去寻找日志的长度。
int binarySearch(String[] logs, int low, int high) {
if (low > high) {
return -1;
}
int middle = low + (high - low) / 2;
if (logs[middle] == null && logs[middle - 1] != null) {
return middle;
}
if (logs[middle] == null) {
return binarySearch(logs, low, middle - 1);
} else {
return binarySearch(logs, middle + 1, high);
}
}`