PHP协程
在了解 PHP 协程前,还有 迭代器 和 生成器 这两个概念需要先认识一下。
# 迭代器
PHP5 开始内置了 Iterator
即迭代器接口,所以如果你定义了一个类,并实现了Iterator
接口,那么你的这个类对象就是 ZEND_ITER_OBJECT
即可迭代的,否则就是 ZEND_ITER_PLAIN_OBJECT
。
对于 ZEND_ITER_PLAIN_OBJECT
的类,foreach
会获取该对象的默认属性数组,然后对该数组进行迭代。
而对于 ZEND_ITER_OBJECT
的类对象,则会通过调用对象实现的 Iterator
接口相关函数来进行迭代。
任何实现了 Iterator
接口的类都是可迭代的,即都可以用 foreach
语句来遍历。
# Iterator 接口
interface Iterator extends Traversable
{
// 获取当前内部标量指向的元素的数据
public mixed current()
// 获取当前标量
public scalar key()
// 移动到下一个标量
public void next()
// 重置标量
public void rewind()
// 检查当前标量是否有效
public boolean valid()
}
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
# 常规实现 range 函数
PHP 自带的 range 函数原型:
range — 根据范围创建数组,包含指定的元素:
array range (mixed $start , mixed $end [, number $step = 1 ])
在不使用迭代器的情况要实现一个和 PHP 自带的 range
函数类似的功能,可能会这么写:
function range ($start, $end, $step = 1)
{
$ret = [];
for ($i = $start; $i <= $end; $i += $step) {
$ret[] = $i;
}
return $ret;
}
2
3
4
5
6
7
8
9
10
需要将生成的所有元素放在内存数组中,如果需要生成一个非常大的集合,则会占用巨大的内存。
# 迭代器实现 xrange 函数
来看看迭代实现的 range
,我们叫做 xrange
,他实现了 Iterator
接口必须的 5 个方法:
class Xrange implements Iterator
{
protected $start;
protected $limit;
protected $step;
protected $current;
public function __construct($start, $limit, $step = 1)
{
$this->start = $start;
$this->limit = $limit;
$this->step = $step;
}
public function rewind()
{
$this->current = $this->start;
}
public function next()
{
$this->current += $this->step;
}
public function current()
{
return $this->current;
}
public function key()
{
return $this->current + 1;
}
public function valid()
{
return $this->current <= $this->limit;
}
}
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
使用时代码如下:
foreach (new Xrange(0, 9) as $key => $val) {
echo $key, ' ', $val, "\n";
}
2
3
输出:
0 0
1 1
2 2
3 3
4 4
5 5
6 6
7 7
8 8
9 9
2
3
4
5
6
7
8
9
10
看上去功能和 range()
函数所做的一致,不同点在于迭代的是一个 对象(Object)
而不是数组:
var_dump(new Xrange(0, 9));
输出:
object(Xrange)#1 (4) {
["start":protected]=>
int(0)
["limit":protected]=>
int(9)
["step":protected]=>
int(1)
["current":protected]=>
NULL
}
2
3
4
5
6
7
8
9
10
另外,内存的占用情况也完全不同:
// range
$startMemory = memory_get_usage();
$arr = range(0, 500000);
echo 'range(): ', memory_get_usage() - $startMemory, " bytes\n";
unset($arr);
// xrange
$startMemory = memory_get_usage();
$arr = new Xrange(0, 500000);
echo 'xrange(): ', memory_get_usage() - $startMemory, " bytes\n";
2
3
4
5
6
7
8
9
10
11
输出:
xrange(): 624 bytes
range(): 72194784 bytes
2
range()
函数在执行后占用了 50W 个元素内存空间,而 xrange
对象在整个迭代过程中只占用一个对象的内存。
# 迭代器使用场景
- 使用返回迭代器的包或库时(如 PHP5 中的 SPL 迭代器)
- 无法在一次调用获取所需的所有元素时
- 要处理数量巨大的元素时(数据库中要处理的结果集内容超过内存)
- …
# 生成器
需要 PHP 5 >= 5.5.0 或 PHP 7
虽然迭代器仅需继承接口即可实现,但毕竟需要定义一整个类然后实现接口的所有方法,实在是不怎么方便。
生成器则提供了一种更简单的方式来实现简单的对象迭代,相比定义类来实现 Iterator
接口的方式,性能开销和复杂度大大降低。
Generator implements Iterator {
/* 方法 */
public current ( void ) : mixed
public key ( void ) : mixed
public next ( void ) : void
public rewind ( void ) : void
public send ( mixed $value ) : mixed
public throw ( Exception $exception ) : void
public valid ( void ) : bool
public __wakeup ( void ) : void
}
2
3
4
5
6
7
8
9
10
11
生成器允许在 foreach
代码块中迭代一组数据而不需要创建任何数组。一个生成器函数,就像一个普通的有返回值的自定义函数类似,但普通函数只返回一次, 而生成器可以根据需要通过 yield
关键字返回多次,以便连续生成需要迭代返回的值。
一个最简单的例子就是使用生成器来重新实现 xrange()
函数。效果和上面我们用迭代器实现的差不多,但实现起来要简单的多。
# 生成器实现 xrange
函数
function xrange($start, $limit, $step = 1) {
for ($i = 0; $i < $limit; $i += $step) {
yield $i + 1 => $i;
}
}
foreach (xrange(0, 9) as $key => $val) {
printf("%d %d \n", $key, $val);
}
// 输出
// 1 0
// 2 1
// 3 2
// 4 3
// 5 4
// 6 5
// 7 6
// 8 7
// 9 8
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
实际上生成器生成的正是一个迭代器对象实例,该迭代器对象继承了 Iterator
接口,同时也包含了生成器对象自有的接口,具体可以参考 Generator (opens new window) 类的定义以及语法参考 (opens new window)。
同时需要注意的是:一个生成器不可以返回值,这样做会产生一个编译错误。然而 return 空是一个有效的语法并且它将会终止生成器继续执行。
# yield 关键字
生成器函数的核心是yield关键字。它最简单的调用形式看起来像一个return申明,不同之处在于普通return会返回值并终止函数的执行,而yield会返回一个值给循环调用此生成器的代码并且只是暂停执行生成器函数。
yield
除了可以返回值以外,还能接收值,也就是可以在两个层级间实现双向通信。
来看看如何传递一个值给 yield
:
function printer()
{
while (true) {
printf("receive: %s\n", yield);
}
}
$printer = printer();
$printer->send('hello');
$printer->send('world');
// 输出
receive: hello
receive: world
2
3
4
5
6
7
8
9
10
11
12
13
14
15
根据 PHP 官方文档 (opens new window)的描述可以知道 Generator
对象除了实现 Iterator
接口中的必要方法以外,还有一个 send
方法,这个方法就是向 yield
语句处传递一个值,同时从 yield
语句处继续执行,直至再次遇到 yield
后控制权回到外部。
既然 yield
可以在其位置中断并返回或者接收一个值,那能不能同时进行接收和返回呢?当然,这也是实现协程的根本。对上述代码做出修改:
function printer()
{
$i = 0;
while (true) {
printf("receive: %s\n", (yield ++$i));
}
}
$printer = printer();
printf("%d\n", $printer->current());
$printer->send('hello');
printf("%d\n", $printer->current());
$printer->send('world');
printf("%d\n", $printer->current());
// 输出
1
receive: hello
2
receive: world
3
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
这是另一个例子:
function gen() {
$ret = (yield 'yield1');
var_dump($ret);
$ret = (yield 'yield2');
var_dump($ret);
}
$gen = gen();
var_dump($gen->current()); // string(6) "yield1"
var_dump($gen->send('ret1')); // string(4) "ret1" (第一个 var_dump)
// string(6) "yield2" (继续执行到第二个 yield,吐出了返回值)
var_dump($gen->send('ret2')); // string(4) "ret2" (第二个 var_dump)
// NULL (var_dump 之后没有其他语句,所以这次 ->send() 的返回值为 null)
2
3
4
5
6
7
8
9
10
11
12
13
current
方法是迭代器 Iterator
接口必要的方法,foreach
语句每一次迭代都会通过其获取当前值,而后调用迭代器的 next
方法。在上述例子里则是手动调用了 current
方法获取值。
上述例子已经足以表示 yield 能够作为实现双向通信的工具,也就是具备了后续实现协程的基本条件。
上面的例子如果第一次接触并稍加思考,不免会疑惑为什么一个 yield
既是语句又是表达式,而且这两种情况还同时存在:
- 对于所有在生成器函数中出现的
yield
,首先它都是语句,而跟在yield
后面的任何表达式的值将作为调用生成器函数的返回值,如果yield
后面没有任何表达式(变量、常量都是表达式),那么它会返回NULL
,这一点和return
语句一致。 yield
也是表达式,它的值就是send
函数传过来的值(相当于一个特殊变量,只不过赋值是通过send
函数进行的)。只要调用send方法,并且生成器对象的迭代并未终结,那么当前位置的yield
就会得到send
方法传递过来的值,这和生成器函数有没有把这个值赋值给某个变量没有任何关系。
这个地方可能需要仔细品味上面两个 send()
方法的例子才能理解。但可以简单的记住:
任何时候 yield 关键词即是语句:可以为生成器函数返回值;也是表达式:可以接收生成器对象发过来的值。
除了 send()
方法,还有一种控制生成器执行的方法是 next()
函数:
Next()
,恢复生成器函数的执行直到下一个yield
Send()
,向生成器传入一个值,恢复执行直到下一个yield
# 协程
对于单核处理器,多进程实现多任务的原理是让操作系统给一个任务每次分配一定的 CPU 时间片,然后中断、让下一个任务执行一定的时间片接着再中断并继续执行下一个,如此反复。由于切换执行任务的速度非常快,给外部用户的感受就是多个任务的执行是同时进行的。
多进程的调度是由操作系统来实现的,进程自身不能控制自己何时被调度,也就是说:
进程的调度是由外层调度器抢占式实现的
而协程要求当前正在运行的任务自动把控制权回传给调度器,这样就可以继续运行其他任务。这与抢占式的多任务正好相反, 抢占多任务的调度器可以强制中断正在运行的任务, 不管它自己有没有意愿。协作式多任务在 Windows 的早期版本 (windows95) 和 Mac OS 中有使用, 不过它们后来都切换到抢占式多任务了。理由相当明确:如果仅依靠程序自动交出控制的话,那么一些恶意程序将会很容易占用全部 CPU 时间而不与其他任务共享。
协程的调度是由协程自身主动让出控制权到外层调度器实现的
回到刚才生成器实现 xrange
函数的例子,整个执行过程的交替可以用下图来表示:
协程可以理解为纯用户态的线程,通过协作而不是抢占来进行任务切换。相对于进程或者线程,协程所有的操作都可以在用户态而非操作系统内核态完成,创建和切换的消耗非常低。
简单的说 Coroutine(协程) 就是提供一种方法来中断当前任务的执行,保存当前的局部变量,下次再过来又可以恢复当前局部变量继续执行。
我们可以把大任务拆分成多个小任务轮流执行,如果有某个小任务在等待系统 IO,就跳过它,执行下一个小任务,这样往复调度,实现了 IO 操作和 CPU 计算的并行执行,总体上就提升了任务的执行效率,这也便是协程的意义。
# PHP 协程和 yield
PHP 从 5.5 开始支持生成器及 yield
关键字,而 PHP 协程则由 yield
来实现。
要理解协程,首先要理解:代码是代码,函数是函数。函数包裹的代码赋予了这段代码附加的意义:不管是否显式的指明返回值,当函数内的代码块执行完后都会返回到调用层。而当调用层调用某个函数的时候,必须等这个函数返回,当前函数才能继续执行,这就构成了后进先出,也就是 Stack
。
而协程包裹的代码,不是函数,不完全遵守函数的附加意义,协程执行到某个点,协会协程会 yield
返回一个值然后挂起,而不是 return
一个值然后结束,当再次调用协程的时候,会在上次 yield
的点继续执行。
所以协程违背了通常操作系统和 x86 的 CPU 认定的代码执行方式,也就是 Stack
的这种执行方式,需要运行环境(比如 php,python 的 yield 和 golang 的 goroutine)自己调度,来实现任务的中断和恢复,具体到 PHP,就是靠 yield
来实现。
堆栈式调用 和 协程调用的对比:
结合之前的例子,可以总结一下 yield
能做的就是:
- 实现不同任务间的主动让位、让行,把控制权交回给任务调度器。
- 通过
send()
实现不同任务间的双向通信,也就可以实现任务和调度器之间的通信。
yield
就是 PHP 实现协程的方式。