第1章 实用数据结构

1.1 并查集

原理 并查集详解

若某个部落过于庞大,则部落成员见面也有可能不认识。已知某个部落的成员关系图,任意给出其中两个人,判断是否有亲戚关系。规定:①若x、y是亲戚,yz是亲戚,则xz也是亲戚;②若x、y是亲戚,则x的亲戚也是y的亲戚,y的亲戚也是x的亲戚。

如何才能快速判断两个人是否有亲戚关系呢?以上规定中的第①条是传递关系,第②条相当于两个集合的合并,因此对该问题可以采用并查集轻松解决。并查集是一种树形数据结构,用于处理集合的合并及查询问题。

1. 算法步骤

(1)初始化。将每个节点所在的集合号都初始化为其自身编号。

(2)查找。查找两个元素所在的集合,即找祖宗。查找时,采用递归的方法找其祖宗,找到祖宗(集合号等于自身)时停止;然后回归,回归时将祖宗到当前节点路径上的所有节点都统一为祖宗的集合号。

(3)合并。若两个节点的集合号不同,则将两个节点合并为一个集合,合并时只需将一个节点的祖宗集合号修改为另一个节点的祖宗集合号。擒贼先擒王,只改祖宗即可!

2. 完美图解

假设现在有7个人,首先输入亲戚关系图,然后判断两个人是否有亲戚关系。

(1)初始化。

(2)查找。输入亲戚关系2、7,查找到2的集合号为2,7的集合号为7。

(3)合并。两个元素的集合号不同,将两个元素合并为一个集合。在此约定将小的集合号赋值给大的集合号,因此修改fa[7]=2。

(4)查找。输入亲戚关系4、5,查找到4的集合号为4,5的集合号为5。

(5)合并。两个元素的集合号不同,将两个元素合并为一个集合,修改fa[5]=4。

(6)查找。输入亲戚关系3、7,查找到3的集合号为3,7的集合号为2。

(7)合并。两个元素的集合号不同,将两个元素合并为一个集合,修改fa[3]=2。

(8)查找。输入亲戚关系4、7,查找到4的集合号为4,7的集合号为2。

(9)合并。两个元素的集合号不同,将两个元素合并为一个集合,修改fa[4]=2。擒贼先擒王,只改祖宗即可!有两个节点的集合号为4,只需修改两个节点中的祖宗,无须将集合号为4的所有节点都检索一遍,这正是并查集的巧妙之处!

(10)查找。输入亲戚关系3、4,查找到3的集合号为2,4的集合号为2。

(11)合并。两个元素的集合号相同,无须合并。

(12)查找。输入亲戚关系5、7,查找到7的集合号为2,查找到5的集合号不等于5,所以找5的祖宗。首先找到其父节点4,4的父节点为2,2的集合号等于2(祖宗),搜索停止。返回时,将祖宗到当前节点路径上所有节点的集合号都统一为祖宗的集合号。更新5的集合号为祖宗的集合号2。

(13)合并。两个元素的集合号相同,无须合并。

(14)查找。输入亲戚关系5、6,查找到5的集合号为2,6的集合号为6。

(15)合并。两个元素的集合号不同,将两个元素合并为一个集合,修改fa[6]=2。

(16)查找。输入亲戚关系2、3,查找到2的集合号为2,3的集合号为2。

(17)合并。两个元素的集合号相同,无须合并。

(18)查找。输入亲戚关系1、2,查找到1的集合号为1,2的集合号为2。两个元素的集合号不同,将两个元素合并为一个集合,修改fa[2]=1。

假设到此为止,亲戚关系图已经输入完毕。可以看到3、4、5、6、7这些节点的集合号并没有被修改为1,这样做真的可以吗?现在,若判断5和2是不是亲戚关系,则过程如下。

(1)查找到5的集合号为2,5的集合号不等于5,找其祖宗。首先查找到5的父节点2,2的父节点1,1的集合号为1(祖宗),搜索停止。将祖宗1到5这条路径上所有节点的集合号都更新为1。

(2)查找到2的集合号为1,找其祖宗。2的祖宗为1,1的集合号为1(祖宗),搜索停止。将祖宗1到2这条路径上所有节点的集合号都更新为1。

(3)5和2的集合号都为1,因此5和2是亲戚关系。

3. 算法实现

(1)初始化。将节点i的集合号初始化为其自身编号。

(2)查找。查找两个元素所在的集合,即找祖宗。查找时,采用递归的方法找其祖宗(集合号等于自身)。回归时,将祖宗到当前节点路径上的所有节点都统一为祖宗的集合号。

fa[x]表示x的集合号,若x!=fa[x],则说明x节点不是祖宗。继续向上找,找到祖宗后返回。回归时将祖宗到当前节点路径上的所有节点都统一为祖宗的集合号,如下图所示。

(3)合并。先找到x的集合号ay的集合号b,若ab相等,则无须合并。若ab不相等,则将a的集合号修改为b,或者将b的集合号修改为a。擒贼先擒王,只改祖宗即可!

输入1和8的亲戚关系,先找到1的祖宗2,8的祖宗6,将6的集合号修改为2即可。

4. 算法分析

若有n个节点、e条边(关系),则每条边(u, v)进行集合合并时,都要查找uv的祖宗,查找的路径为从当前节点一直到根节点,n个节点组成的树的平均高度为logn,因此并查集中,合并集合的时间复杂度为O(elogn)。