[转载] 深入理解 OC/C++ 闭包
背景
苹果的 Objective-C 编译器允许用户在同一个源文件里自由地混合使用 C++ 和 Objective-C,混编后的语言叫 Objective-C++。相对于其它语言(例如 Swift、Kotlin、Dart 等)和 C++的文件隔离和架桥通信(例如 Kotlin 使用 JNI
,Dart 使用 FFI
),Objective-C 和 C++的同文件混编方式无疑是令人舒畅的。OC/C++混编虽然可以在一个文件中进行编写,但是有一些注意事项需要解:Objective-C++没有为 OC 类增加 C++的功能,也没有为 C++增加 OC 的功能,例如:不能用 OC 语法调用 C++对象,也不能为 OC 对象增加构造函数和析构函数,也不能将this和self互相替换使用。类的体系结构是独立的,C++类不能继承 OC 类,OC 类也不能继承 C++类。
本文主要就之前令人困惑的 OC 的Block
和 C++的 lambda
混编问题 做一些探索。
实验环境:C++版本为 C++14,OC 只局限于 ARC。
基本了解
在深入探索之前,先通过对比的方式了解下二者:
语法
1 | ^(int x, NSString *y){} // ObjC, take int and NSString* |
原理
OC 的Block
的底层可以参考《深入研究 Block 捕获外部变量和 __block
实现原理》,这里不做深入探究,仅仅是要展开代码达到对比效果。
1 | - (void)viewDidLoad { |
通过clang -rewrite-objc
重写,可以得到以下结果:
1 | struct __ViewController__viewDidLoad_block_impl_0 { |
而 C++ lambda
采取了截然不同的的实现机制,会把lambda
表达式转换为一个匿名
C++类。这里借助cppinsights
看下 C++ lambda
的实现。
1 |
|
1 |
|
可以看到:lambda
表达式add
被转换为类__lambda_12_15
,且重载了操作符()
,对add
的调用也被转换为对add.operator()
的调用。
捕获变量
OC Block
只可能通过普通方式和__block
方式捕获变量:
1 | int x = 42; |
1 | __block int x = 42; |
C++ lambda
带来了更多的灵活性,可以通过以下这些方式捕获变量:
1 | [] Capture nothing |
1 | int x = 42; |
内存管理
OC 的Block
和 C++ lambda
均起源于栈对象,然而二者的后续发展截然不同。OC 的Block
本质是 OC 对象,他们是通过引用方式存储,从来不会通过值方式存储。为了延长生命周期,OC Block
必须被拷贝到堆上。OC Block
遵循 OC 的引用计数规则,copy和release必须平衡(Block_copy
和Block_release
同理)。首次拷贝会把Block
从栈上移动到堆上,再次拷贝会增加其引用计数。当引用计数为 0 的时候,Block会被销毁,其捕获的对象会被release。
C++ lambda
按值存储,而非按引用存储。所有捕获的变量都会作为匿名类对象的成员变量存储到匿名类对象中。当lambda
表达式被拷贝的时候,这些变量也都会被拷贝,只需要触发适当的构造函数和析构函数即可。这里面有一个极其重要的点:通过引用捕获变量。这些变量是作为引用存储在匿名对象中的,他们并没有得到任何特殊待遇。这意味着这些变量的生命周期结束之后,lambda仍然有可能会去访问这些变量,从而造成未定义的行为或者崩溃,例如:
1 | - (void)viewDidLoad { |
相对来说,this
指向的存储在堆上,它的生命周期有一定的保证,但是即使如此,也无法绝对保证生命周期安全,有些情况下需要借助智能指针延长生命周期。
1 | auto strongThis = shared_from_this(); |
闭包混合捕获问题
前面讨论的内容都是相互独立的,OC 的Block
并未涉及 C++对象,C++的lambda
也没有牵扯 OC 对象,这大概是我们最希望看到的,但是混编过程中会发现这只是自己的一厢情愿。二者往往会相互把自己的魔杖伸向对方领域,从而会引发一些比较费解的问题。
C++的lambda捕获OC对象
C++的lambda
可以捕获 OC 变量吗?如果可以的话,会有循环引用的问题吗?如果有循环引用的问题,该怎么处理呢?
值捕获 OC 对象
如代码所示,在OCClass
类中有一个 C++字段cppObj
,在OCClass
的初始化方法中,对cppObj
进行了初始化,并对其字段callback
进行了赋值。可以看到,在lambda
中对self
进行了捕获,按照前面的规则,可以认为值捕获。
1 | class CppClass { |
1 | @implementation OCClass { |
1 | OCClass *ocObj = [[OCClass alloc] init]; |
不幸的是,这样的捕获方式会发生循环引用:OCClass
对象ocObj
持有cppObj
,cppObj
通过callback
持有了ocObj
。
看下对应的汇编代码,可以发现捕获的时候,触发了ARC
语义,自动对self
进行了retain
。
这几行汇编代码对self
增加引用计数。
1 | 0x10cab31ea <+170>: movq -0x8(%rbp), %rdi |
最后来看一下匿名类的参数,可以发现self
是OCClass *
类型,是一个指针类型。
那么可以简单地认为捕获伪代码如下,在ARC
语义下会发生retain
行为:
1 | __strong __typeof(self) capture_self = self; |
为了解决循环引用的问题,可以使用__weak。
1 | cppObj = std::make_shared<CppClass>(); |
再次观察汇编代码,发现前面的objc_retain
逻辑已经消失,代替的逻辑为objc_copyWeak
。
引用捕获 OC 对象
那么是否可以通过引用捕获来捕获self
呢?
1 | cppObj = std::make_shared<CppClass>(); |
可以看到汇编代码中同样没有objc_retain
逻辑。
最后来看一下匿名类的参数,可以发现self
是OCClass *&
类型,是一个指针引用类型。
可以看到引用捕获并不会对self
进行retain
,可以简单的认为捕获伪代码如下,在ARC
语义下不会发生retain
行为。
1 | __unsafe_unretained __typeof(self)& capture_self = self; |
被捕获的 OC 对象什么时候释放?
以这个代码片段为例:
1 | auto cppObj = std::make_shared<CppClass>(); |
可以看到,在CppClass
的析构函数中对std::function
进行了析构,而std::function
则对其捕获的 OC 变量 oc2
进行了释放。
结论
C++ lambda
的本质是创建一个匿名结构体类型,用来存储捕获的变量。ARC会保证包含
OC 对象字段的 C++结构体类型遵循ARC
语义:
- C++结构体的构造函数会将 OC 对象字段初始化为
nil
; - 当该 OC 对象字段被赋值的时候,会
release
掉之前的值,并retain
新值(如果是block
,会进行copy
); - 当 C++结构体的析构函数被调用的时候,会
release
掉 OC 对象字段。
C++ lambda
会通过值或者引用的方式捕获 OC 对象。
- 引用捕获 OC 对象相当于使用
__unsafe_unretained
,存在生命周期问题,本身比较危险,不太推荐; - 而值捕获的方式相当于使用
__strong
,可能会引起循环引用,必要的时候可以使用__weak。
OC 的 Block 如何捕获 C++对象?
反过来看看 OC 的Block
是怎么捕获 C++对象的。
代码中的HMRequestMonitor
是一个 C++结构体,其中的WaitForDone
和SignalDone
方法主要是为了实现同步。
1 |
|
upload
方法使用HMRequestMonitor
对象,达到同步等待网络请求结果的目的(为了排版,代码有所调整)。
1 | hermas::ResponseStruct HMUploader::upload( |
这里直接使用std::weak_ptr
。
不使用__block
通过实验可以得到以下结论:
- C++的对象会被 OC 的Block捕获,且通过值传递方式。通过断点可以发现调用的是
std::weak_ptr
的拷贝构造函数。2.1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18template<class _Tp>
inline
weak_ptr<_Tp>::weak_ptr(weak_ptr const& __r) _NOEXCEPT
: __ptr_(__r.__ptr_),
__cntrl_(__r.__cntrl_)
{
if (__cntrl_)
__cntrl_->__add_weak();
}
monitor
的弱引用计数变化如下:
初始化
monitor
时,weak_count = 1
;初始化
weakMonitor
时,weak_count = 2
,增加 1;OC Block 捕获后,
weak_count = 4
,增加了 2。通过观察汇编代码,有 2 处:首次捕获的时候,对
weakMinotor
进行了复制,在汇编代码 142 行;Block
从栈上拷贝到堆上的时候,再次对weakMinotor
进行了复制,在汇编 144
行;
这里需要注意的是:C++的
weak_count
比较奇怪,它的值 = 弱引用个数 + 1,这么设计的原因比较复杂,具体可以参考:How does weak_ptr work?
如果此处不使用std::weak_ptr
,而是直接捕获std::shared_ptr
,被捕获后其强引用计数为 3,逻辑和上述的std::weak_ptr
是一致的。(就本质上来说,std::shared_ptr
和std::weak_ptr
都是 C++类)
1 | std::shared_ptr<hermas::HMRequestMonitor> monitor = std::make_shared<hermas::HMRequestMonitor>(); |
1 | (lldb) po monitor |
使用__block
那么是否可以使用__block
修改被捕获的 C++变量呢?通过实验发现是可行的。
可以得到以下结论:
- OC 的
Block
可以通过引用传递方式捕获 C++对象; monitor
的weak
引用计数如下:
- 初始化
monitor
时,weak_count = 1
; - 初始化
weakMonitor
时,weak_count = 2
,增加 1; - OC
Block
捕获后,weak_count = 2
,主要是由于移动构造函数被触发,只是所有权的转移,不会改变引用计数;
__block 的疑问
了解 C++的同学可能会疑惑,这里既然是移动构造函数被触发,只是所有权发生了转移,意味着monitor
作为右值被传递进来,已经变为nullptr
被消亡,那么为什么示例中的monitor
还可以继续访问?可以来验证一下:
- 当首次执行完如下代码的时候
会发现monitor
变量的地址为:
1 | (lldb) po &monitor |
- 当执行block赋值的时候,会调用到
std::shared_ptr
的移动构造函数中:
移动构造函数中的
this
地址为0x0000600003b0c830
;__r
的地址也是0x0000700001d959e8
,和monitor
的地址一致。
- 当执行完block的时候,再次打印
monitor
的地址,会发现monitor
的地址已经发生了变化,和第二步中的this
保持了一致,这说明monitor
已经变为第二步中的this
。1
2
3(lldb) po &monitor
0x0000600003b0c830
整个过程中,monitor
前后地址发生了变化,分别是 2 个不同的std::shared_ptr
对象。所以monitor
还可以继续被访问。
被捕获的 C++对象何时释放?
同样在 OC 的Block
释放的时候,会对其捕获的 C++对象进行释放。
捕获 shared_from_this
C++的this
是一个指针,本质就是一个整数,OC 的Block
捕获this
和捕获一个整数并没有本质上的区别,所以这里不再详细讨论。这里重点看下 C++的shared_from_this
类,它是 this
的智能指针版本。
一个 C++类如果想访问
shared_from_this
,必须继承自类enable_shared_from_this
,并把自己的类名作为模板参数传入。
1 | class CppClass : public std::enable_shared_from_this<CppClass> { |
1 | @interface OCClass2 : NSObject |
1 | auto cppObj = std::make_shared<CppClass>(); |
根据前面的结论,在CppClass
成员函数attachOCBlock
中,ocBlock
直接捕获shared_from_this
同样会引发循环引用,同样采取std::weak_ptr
来解决。
1 | void CppClass::attachOCBlock() { |
结论
OC 的Block
可以捕获 C++对象。
如果使用普通方式捕获栈上的 C++对象,会调用拷贝构造函数;
如果使用
__block
方式捕获栈上的 C++对象,会调用移动构造函数,并且__block
修饰的
C++对象在被捕获的时候,会进行重定向。
总结
本文一开始分别从语法、原理、变量捕获和内存管理 4 个维度,对 OC 的Block
和 C++的lambda
进行了简单的对比,然后花了较多的篇幅重点讨论 OC/C++
的闭包混合捕获问题。之所以如此大费周章,是因为不想稀里糊涂地「猜想」和「试错」,只有深入了解背后机制,才能写出较好的 OC/C++
混编代码,同时也希望能给有同样困惑的读者带来一些帮助。然而对于 OC/C++
整个混编领域来说,这仅仅是冰山一角,疑难问题仍然重重,期待未来能带来更多的探索。