Flow Divert 协议在 macOS 中提供了强大的流量管理和重定向功能,广泛应用于 VPN 和其他高级网络控制场景。通过内核扩展和用户态守护进程的协同工作,Flow Divert 允许系统和应用程序动态管理网络流量,增强安全性、隐私保护和网络性能。本文旨在分析FlowDivert模块内出现的历史的漏洞以及引入的新代码所引发的漏洞存在。
首先此处通过connect
函数来进行简单分析下调用路径,后续会有用到其中一些内容。
当我们在用户态调用connect
函数的时候,系统则会在库里面调用对应的系统调用并进入内核中在内核中,它对应函数的名字依旧是connect()
作为函数名,其中三个参数分别是当前进程结构体的引用,以及此处的uap指针则是用户态传给内核态的相关参数,最后则是一个返回值的指针。
进一步进入函数connect_nocancel
里面,其中会对uap结构体中的内容进行检测,之后则是从uap里面获取所需的一些参数或者结构体。
首先是通过file_socket
函数,从当前进程中获取对应fd
值所对应在内核中的套接字结构体指针,之后再获取相关对象数据,并进入connectit
函数。
由于之前已经获取到了对应的socket
结构体指针,所以在一进入connectit
函数后,则会对当前socket
加上一个全局的锁,通过socket_lock
的调用施加一个锁,然后调用soconnectlock
函数,返回后并根据设置判断是否是阻塞还是非阻塞的套接字,最终完成后则解锁返回。
在进入soconnectlock
函数后,可以很快发现存在一个函数指针的调用 (*so->so_proto->pr_usrreqs->pru_connect)
;对应的指针则是从当前套接字结构体中所获取的。
下面拿TCP协议来举例,在内核中,会定义一个名为tcp_usrreqs
的结构体,其中保存了很多的协议实现的接口函数指针,包括前面所提到的pru_connect
函数指针亦是存在,对应的则是tcp_usr_connect
函数。
之后则是将tcp_usrreqs
结构体指针保存在一个名为static struct protosw inetsw[]
的结构体中。此处又保存了相关的初始化或者报文处理函数,以及一些配置函数,例如setsockopt
函数进入后对TCP部分的配置实现则是在tcp_ctloutput
中。
简单的路径跟踪之后,可以发现,在进入到具体对应的协议实现之前,则会有各种相关的检测,且在进入对应协议的接口之前,就已经调用socket_lock
函数对当前的套接字进行加锁处理。
漏洞一:标志位缺失与条件竞争
该漏洞是位于控制块在初始化阶段发生的,在初始化的时候,会通过相关函数对应当前套接字生成一个对应的FlowDivert协议下的控制块结构对象,并保存到相关的group组里面与当前的套接字对象上。
根据上述代码的更新情况可以总结出以下变化:
-
函数进入之后,会根据传入的两个参数计算出一个
group_unit
; -
在
insert
之前保存参数和标志位,当函数触发error错误返回的时候,则会在分支置空so_fd_pcb
和SOF_FLOW_DIVERT
标志位。
变化一:
flow_divert_derive_kernel_control_unit
是根据传入的参数来计算一个在GROUP_COUNT_MAX(32)
范围内的值,并返回。
返回的结果是作为group_unit
变量,同步存放在套接字结构体中control_group_unit
变量中,而后续则是通过group_unit
的值来指明具体的group用于存放当前创建的控制块结构体指针fd_cb
。
但是对漏洞缓解来看并无太大作用,可以确定不是导致漏洞产生的原因,只是在代码更新阶段同步引入了另外的功能。
变化二:
而在原代码中可以很轻易的发现存在如下代码:
此处的代码则是用于检测当进入该函数的时候,是否已经存在SOF_FLOW_DIVERT
标志位,如若存在则会直接返回EALREADY错误值。
而在insert之前会对套接字设置SOF_FLOW_DIVERT
标志位,在insert触发error之后则会清空SOF_FLOW_DIVERT
标志位,由此可以猜测此处存在一个条件竞争的漏洞,而SOF_FLOW_DIVERT
的处理则会用于限制另一个线程在同时间进入到此函数造成竞争漏洞的出现。
在进入分析之前,我们对相关函数进行了简单的跟踪,当时提到过一点,则是在进入对应接口具体实现之前,则已经会对当前套接字进行了一个加锁的处理,其中使用了socket_lock
函数。
但是在flow_divert_pcb_insert
函数中,可以发现,使用了socket_unlock
函数进行暂时性的解锁,之后虽然又将锁加了回去,但是正因为此处的暂时性解锁,假如此时存在另一个线程请求加锁,则会处于阻塞状态,等待锁的释放,那么此处的暂时性解锁则会导致锁一释放的瞬间,另一个请求加锁的通行,则另一个线程则会进入下一步执行,而轮到flow_divert_pcb_insert
函数会到socket_lock
函数请求加锁而进入阻塞状态。
再来看看flow_divert_pcb_create
函数是如何创建fd_cb
结构体的,首先会根据结构体分配对应的空间,申请成功后,则会将当前的socket
指针存放于存放于新的控制块结构体中,最后返回之前,别忘记给新申请的控制块指针添加一次引用计数。
因此如若两个线程同时进入flow_divert_pcb_init_internal
函数,则会导致分别创建一次新的控制块指针,并指向同一个套接字指针。
因此修复方案则是在insert
函数之前就已经添加SOF_FLOW_DIVERT
标志位检测,当第二个线程进入flow_divert_pcb_init_internal
之后,虽然第一个线程进入了insert
函数,但是第二个线程检测到此标志位就会直接返回了,根本到不了flow_divert_pcb_create
函数。
漏洞二:CVE-2022-26757
在案例一的漏洞中,分析的root cause明确的可以说是flow_divert_pcb_insert
中由于暂时性解锁和标志位缺失设置共同导致的条件竞争问题,而官方在修复过程中,只是通过设置标志位修复了两个线程同时进入该函数导致漏洞的一种情形。
CVE-2022-26757则是在案例一的漏洞修复之后所产生的漏洞,主要是官方对漏洞产生的场景没有完全的缓解导致依旧可以通过另一条路径进行条件竞争。
在之前跟踪函数调用的过程中,描述过在不同的协议中,内核会有不同的用于存放接口函数实现的结构体,而对于FlowDivert
函数同样存在类似的结构体,但是此处是从g_tcp_protosw
拷贝而来,即TCP4对应的相关内容直接拷贝过来的,但是在拷贝后,将其中比较常见的一些函数替换为了FlowDivert
协议下独有的接口函数。
在其中,可以发现存在函数flow_divert_close
,保存在pru_disconnect
对应的指针处,而在此函数中,会首先通过宏定义SO_IS_DIVERTED
判断是否存在SOF_FLOW_DIVERT
标志位,若存在则会将fd_cb
指针从对应的group中删除,添加进group使用的是flow_divert_pcb_insert
函数,而从group中移除此处使用的是flow_divert_pcb_remove
函数。
当尝试调用shutdown
或者disconnectx
函数时,则会调用到flow_divert_close
函数。
而在FlowDivert
协议代码中,另外有一个函数flow_divert_detach
,它通常是在close(socket)
过程中进行的调用,相对于flow_divert_pcb_close()
函数,此函数则会多出一个FDRELEASE
引用计数释放的宏定义操作。往上根据函数引用可以发现,当进入sofreelastref
函数后,若套接字存在SOF_FLOW_DIVERT
标志位,则会进入flow_divert_detach
函数。
但是如果是TCP协议的话,能调用到flow_divert_detach()
方式则可以存在如下路径:
而上述路径,则可以不通过close(socket)
即可触发,通过disconnectx(socket,0,0)
则可以执行此路径,但是此路径只是理想状态下,具体如何才能执行到这条路径,下面继续分析。
在案例一的漏洞中,官方在新添加的代码中,调用flow_divert_pcb_insert
函数之前,已经对相关的参数进行保存到了socket
结构体中,尤其是SOF_FLOW_DIVERT
的标志位的保存以及so_fd_pcb
指针的保存。
若通过创建一个TCP套接字进入flow_divert_pcb_init_internal
函数,而只有在insert成功之后,才会使用flow_divert_set_protosw
函数通过g_flow_divert_in_protosw
指针覆盖原套接字的so_proto
指针。
那么,若是能够在so_proto
指针被覆盖之前,调用到tcp_close
函数,最终则会执行到flow_divert_detach
函数。
-
首先线程1当发生暂时性解锁的时候,会发生在
flow_divert_pcb_insert
函数中, -
socket套接字具有
SOF_FLOW_DIVERT
标志位; -
so->so_proto
未曾覆盖,依旧使用的原TCP协议对应的接口函数; -
新创建的控制块对象已经保存于
socket
结构体中。 -
线程2可以通过调用
disconnectx(socket,0,0)
-
由于采用的TCP协议接口函数,则会进入
tcp_close
函数,最终进入sofreelastref
函数; -
线程满足
SOF_FLOW_DIVERT
标志位的条件,进入flow_divert_detach
函数,且so→so_fd_pcb
指针存在,会对so_fd_pcb
指针进行引用计数释放操作。 -
线程1在
flow_divert_pcb_insert
返回失败的时候,再一次调用FDRELEASE(fd_cb)
,对fd_cb
进行引用计数释放操作。
环环相扣,在线程1中fd_cb
创建的时候,会默认引用计数增加一次,但是线程2在进入flow_divert_detach
函数中,引用计数又会被释放,因此线程2中取出fd_cb
对象,并对其进行释放回收处理,而线程1在flow_divert_pcb_insert
函数返回失败的情况下,再次调用FDRELEASE
释放fd_cb
对象,而两者是从同一个套接字取出的fd_cb
对象,对已经释放的对象进行操作,因此存在条件竞争导致的UAF的漏洞。
漏洞三:CVE-2024-23208
该漏洞是在新引入的功能分支代码中由于代码书写不规范而导致的,而在新引入的代码中,对于同一个进程,可以通过KernControl
协议访问对应服务,并在当前进程的情况下,生成多个group组,对控制块进行管理。
在更新的macOS14 Sonoma系统后,XNU对于FlowDivert
协议加入了新的功能实现,通过KernControl
协议即可到达对应功能,另外实现了一条分支,可以注册的管理控制块的group数量可以达到到 (2^32 - 0x10000)
数量级,用g_flow_divert_in_process_group_list
链表进行管理,但是XNU这部分代码应该是不完善,仅仅能保存到用g_flow_divert_in_process_group_list
链表管理的group中,而在使用的时候,依旧被限制在以前 GROUP_COUNT_MAX(32)
的数量级中,大多只能访问 ID == (1 ~ 32)
的group。
在新添加的代码中,有一段代码是用于新添加的group管理链表所对应的分支,在根据用户传入的ctl_unit
变量用于查询对应符合条件的group对象时。
如果用户请求到达后,所传入的ctl_unit
变量的值大于 FLOW_DIVERT_IN_PROCESS_UNIT_MIN(0xFFFF)
,则会来到下面的分支,根据给定的ctl_unit
数值,在双向链表中进行遍历匹配。
符合group_cursor->ctl_unit == ctl_unit
情况下则会将指针group_cursor
交给指针group 保存。
判断的时候,其实是分为group == NULL
或者group ≠ NULL
两种情况:
-
如果
group == NULL
,则会直接跳出循环,返回的group为NULL; -
如果
group ≠ NULL
,则会从分支[2]和[3]再次进行选择,而正常符合情况的分支应该是从[3]走,对group指针附加引用计数,并最终返回一个带有引用计数的group指针; -
如果
group ≠ NULL
,同时满足分支[2]的条件,则会通过FDLOG
函数打印一段日志,并直接跳出循环,但是没有对残留指针group进行处理,导致group返回的时候[4]返回的为不带有引用计数的group指针。
而能用户可控的分支则是满足如下条件即可:
内核会从当前所对应的fd_cb
控制块指针保存的套接字获取对应的最近一次使用该套接字的进程的PID
值。
函数so_update_last_owner_locked
可以用来更新当前套接字对应的pid
,很容易就能发现若是当前进程的pid
与套接字所对应的套接字是不匹配的,就会更新为当前进程的pid
保存到套接字结构体中。
最终可以发现可以很多网络协议所用的接口函数,例如accept
、connect
、bind
、listen
等函数都会在还没有进入具体的对应协议的API接口函数之前,就已经有此函数的调用。
macOS上通过fork进程即可传递让子进程继承使用父进程创建的套接字,所以fork
函数创建子进程后,在子进程中调用listen
函数,传入父进程创建的fd
的即可。
iOS上触发,则可以通过共享文件,通过两个App绑定到共同可访问的文件,使用SCM_RIGHTS
方法将套接字发送给另一个App,因为iOS中每个App都是以单进程出现,所以发送到另一个App,即可在另一个App上更新套接字中的进程ID。
漏洞四:套接字锁的引用计数与条件竞争
在第三个漏洞案例中,通过KernControl
协议能到达对应FlowDivert
协议中管理group相关的功能。而新引入的代码中,主要是用于在生成控制块的过程中,在对于group组进行查询的时候所导致的,那么,FlowDivert
对于group组服务的相关控制流程,则是会有对应的接口进行管理,下面的漏洞则是在针对group组管理的接口中所出现的。
Kern Control(内核控制)是 macOS 操作系统中的一种通信机制,用于在内核和用户空间之间传递控制和数据信息。它提供了一种可扩展的方式,允许用户空间程序与内核进行交互和通信,以实现自定义的网络协议、网络服务或其他内核功能的扩展。
通过KernControl协议,指定连接对象参数,首先通过ioctl
根据传入的name
进行查询对应服务的ID,然后获取ID之后,即可通过connect
函数直接连接上对应的FlowDivert
服务。
在FlowDivert
模块内,根据服务名,交叉引用即可发现如上代码,设置了FlowDivert
服务对应的KernControl
协议下的相关网络协议API接口函数,flow_divert_kctl_setup
函数则是之前所提到的Apple新添加功能的主要内容之一,扩大了可供管理控制块的group数量级。
每一个连接到FlowDivert
服务的客户端,则可以对应在内核中生成一个group对象,而其中用于指明group位置的则是通过connect过程中所传入的sc_unit
变量作为特征,在之后查询的时候,会与查询时传入的参数进行匹配,匹配成功则会返回对应的group对象。
当然,在通过send
函数可以发送自定义字段的数据报文,在flow_divert_input
函数中进行解析。
当所传入的数据包类型为FLOW_DIVERT_PKT_CONNECT_RESULT
时,则会进入flow_divert_handle_connect_result
函数。
在XNU的某版本更新中,可以发现此函数是由socket_lock(so, 0)
变更为socket_lock(so, 1)
;而此处的套接字指针so又是从当前group中保存的其中一个fd_cb
结构体中获取的,也是首次获取,因此此处属于第一次对该套接字加锁。
在之前的代码中,所提到两点:
-
FlowDivert
协议控制块对应的套接字,是从原协议所对应的相关协议接口中拷贝过来,替换其中部分实现函数后成为对应于FlowDivert
的函数表; -
某个具体的协议会有功能函数,不论是面向用户态还是内核所使用的函数,会存放相关结构在
<struct protosw inetsw[]>
结构体中。
那么此处的socket_lock()
函数的调用,若当前控制块对应的是TCP协议转换过来的,则会调用tcp_lock()
。
在tcp_lock()
函数中,可以发现refcount
参数的使用是用于对当前套接字的持有的引用计数增加,用于表明当前的套接字是被持有状态,而在刚才flow_divert_handle_connect_result
函数中,首次获取套接字想要使用的时候,传入的参数2却为0,因此有个问题则是当前系统无法通过引用计数来判断当前套接字是否被持有。
当然,套接字是处于加锁状态,正常使用正常释放,处于使用状态用户是没有办法通过close
函数,对其进行关闭回收的。
在flow_divert_handle_connect_result
函数中,会有一个分支会调用到flow_divert_disable
函数,此函数可以知道是用于关闭FlowDivert
相关功能的实现,其中会对控制块的释放,标志位的清除,以及通过pffindproto
函数 还原该套接字原协议的接口函数。
那么后续(*so->so_proto->pr_usrreqs->pru_connect)
函数的调用,则会调用到原协议的connect
函数,此处若原协议为TCP4协议,那么转到TCP4协议对应的connect
函数中。
很明显,此处同样存在一个暂时性解锁,那么可以总结出以下三点:
-
进入
flow_divert_handle_connect_result
函数,通过控制块fd_cb
对象,加锁套接字,但是持有的引用计数未+1; -
在解锁之前,调用了
flow_divert_disable
函数,还原到原协议接口函数; -
其中会调用原协议接口函数,例如
tcp_connect
函数,其中存在socket_unlock
函数对套接字暂时性解锁,那么此时的套接字引用计数不变,且不曾处于加锁状态。
那么即可通过close
函数对套接字进行关闭,系统则会对套接字进行垃圾回收,当然close流程中,依旧存在各种检测,但是由于此时是通过fd_cb
控制块取出的套接字,并不是通过常规的路径对文件描述符进行操控的,所以可以缺少对文件描述符使用过程中的各种检测的施加。
本文根据近年在FlowDivert
模块中出现的历史漏洞分析,主要从四个漏洞入手进行分析:
第一个案例的漏洞产生是由于条件竞争且标志位设置的缺失,导致能够多个线程同时进入同一个路径调用同一个函数。
第二个案例的漏洞是在第一个案例的漏洞patch上进一步挖掘得到,发现的另一路径的条件竞争。官方在修复方案中,并没有对其具体的root cause进行彻底的根除,导致修复了仅仅修复了同时进入该函数导致的一种情况,但是暂时性解锁的问题却没有解决,因此产生了第二个案例的漏洞。
第三个案例的漏洞是由于开发过程中的小细节,对残留变量没有处理好,导致返回指针是一个残留指针,而残留指针是处于未添加引用计数的状态,由此产生后续的UAF漏洞。
第四个案例的漏洞是在当前模块另一个方面进行考虑,前面的漏洞都是在控制块相关的进行考虑,而第四个案例的漏洞则是从group的解析入手,发现属于被动取出套接字进行使用的时候,没有严格按照主动使用套接字相关接口的方法进行合理的使用。
总结上述此类漏洞产生的原因,从业人员在日常的研究工作中,可以针对审计产品新添加的功能或者从历史漏洞的patch入手,可能会有意想不到的正收益效果。
【版权说明】
本作品著作权归fmyy所有
未经作者同意,不得转载
fmyy
天工实验室安全研究员
专注于macOS安全、IoT安全
原文始发于微信公众号(破壳平台):Apple操作系统-XNU内核下FlowDivert网络协议漏洞分析