凯利准则与人生的非遍历性

Posted by 佚名 on November 11, 2025

内容

在本次的内容开始之前先思考一个问题,当你入职一个公司有三种薪水的发放方式:

1、每个月发放四次,每次250元

2、每个月发放一次,每次1000元

3、每年发放一次,每次12000元

你会选择哪一种?

三次看似金额一样的选项却蕴含一个关键的差别。

它牵涉一个近年来从经济学到物理生命科学的研究都越来越被注意到的一个及其反人类直觉的数学现象,可能会颠覆我们熟知的很多研究方法和结论,让一些著名的悖论或矛盾瞬间理所当然。

当我们举一个例子,假设有包括你在内的一千个人,每个人手上有1000个金币。你们准备拿着金币去股票市场大赚一把。你们使用同一个策略,那就是如果买的股票升值超过30%就卖出止盈;如果买的股票下跌超过30%也卖出止损,就像毫无感情的交易机器。如此每个人胜负的关键就是能否成功找到能上涨超30%的股票了,假设你们都是股市的老手,成功选择上涨股票的概率超过了50%,达到了惊人的55%。基本的数学逻辑告诉我们,如果能无限重复下去,你们的资金将不断增长,获利也越来越多。而且我们还可以用概率算出你们资金变化的期望,比如某时刻你的资金来到了 A,那么玩一把之后资金将来到 $ 55\% \times (1 + 30\%) \times A + 45\% \times (1 - 30\%) \times A = 1.03 \times A $。所以当你操作100次之后你的资金将来到 $A \times {1.03}^{10}$,也就是说相比于本金翻了将近 20 倍。

那么我们可以使用简单的程序来模拟一下你们的操作情况。

代码点此处查看

stock_simulation

从上面的结果图中可以发现,即便他们选盈利股的比例仍然大于 50%,大部分人依然在亏钱。

这到底是怎么回事儿呢?

这里没有巧妙地设计或不容易注意的数字游戏的假象,概率或盈利止损界限完全可以换成别的类似的数字,无论运行多少次,结果依然会如此。

为什么一个胜率高于 50% 的游戏,不断玩下去却是越输越多(随着参加次数越多)?

我们可以来看一下模拟的另一个可以追踪的变量——人均收益。它确实如预期是随着回合数的进行是正向成长的。

average_profit_per_person

再来看看人均收益与玩家数量之间的关系。

average_profit_per_person_number_of_players

可以发现人均收益随着玩家数量的增加变得更不明确,甚至有增高的趋势。

试想一个系统随着测量的个体的增加,均值并未越来越明确,反而想着彻底相反的方向越走越远,就像我们通知学校的平均身高,随着测量的学生的人数增多,其结果竟然越来越不清楚。而它正是我们的系统呈现非遍历性过程的一个原因。如果我们把模拟的每个人的 1000 本金在一段时间内的变化当作每人每年创造的财富汇总后就能够得出估计一个叫:人均GDP的数值。由于每个系欸但活力的高铝大于 50% ,GDP 总量呈现出让人欣喜的成长,甚至平均后人均 GDP 也表现靓丽,但如果我们细看每个人的资产大部分其实并无明显变化,大部分都在 0 到 2000 的范围内徘徊。如此正解释了另一个反直觉的现象,那就是在统计国家城市甚至地区的人均 GPD 的结果被发布的时候,人们总是会有种被代表的感觉,其原因也就在此了。

在当代资本运作的逻辑小,整个社会的财富分配是一个巨大的非遍历性的过程(参考文献)。从根本逻辑上,不仅是个人的资金其社会地位名气权力价值如同我们模拟中的账户变化,所遵循的是幂律的曲线,其改变来自每一步的相乘,其改变的速度会永远和当下此刻自身的大小成正比。也正因如此,这样函数所构建的曲线也被称作生命的曲线,广为自然界的万物所遵循。如自然建模物种的种群数量的增减就会正比于当下种群的人口的多寡。又如我们大脑对声音高地的感知,当然这样的关系不仅局限于声音、亮度、疼痛、快感,一直到大脑底层结构的神经传导均是如此。而这让我们的问题似乎更加不合理了,既然我们对万物的直觉感知和资金的变化都遵循同样的函数,为何我们对其结果的预期会和实际以及模拟跑出来的结果相差如此之远呢?社会上还有什么样如人均 GDP 这样的系统会让我们在不自觉间产生误判呢?

遍历性的概念被波尔斯曼在 1884 年提出时,使用在计算热力学系统的变化时。由于每一个粒子的动量和位置都是时间 t 的函数,那么对它们的积分计算,如果能让其时间上的平均等同于位置上的平均,整个计算就会瞬间简洁可控许多。即假设每个例子最终会走遍空间的任何一点,此时某个时间的系统状态不在依赖于难以计算的系统最初以来的时间,T 便能直接从公式中被抹去。正如波尔斯曼自己都承认的,它不过是数学上的一个技巧。而幸运的是,对热力学系统来说这点基本符合现实,也基本合理。但如果我们研究的系统不在符合这样的假设呢?

PixPin_2025-11-12_20-38-27

如果有多个变量在时间轴上的变化如图所示,我们习以为常的均值对齐的估算其实仅相当于取其中一个切片做平均。如果系统的过程是遍历性的,其结果将真实地反映整个系统的状态。而问题就出在,当系统在时间轴上的均值和在肌体上的均值呈现分离状态时。

思考一个小游戏,假设我抛一枚硬币是正面的概率是二分之一。当我第一次抛的硬币是正面,那么我将给你 2 元,如果第一次抛的硬币不是正面就继续抛;如果第二次抛得是正面时,我将给你 2 的平方也就是 4 元,如果不是正面就继续抛;如果第三次抛得时正面时,我将给你 2 的三次方也就是 8 元,如果不是就继续抛;以此类推,当抛到第 n 次出现正面时我将给你 2 的 n 次方元。那么你愿意付多少钱来参与一次这个游戏呢?这个问题其实就是著名的圣彼得堡悖论。

你可能认为三到四次就会出现一次正面,但是如果按广为接受的经济学原理进行计算,你会发现你应该为此付出的成本应该是无穷大。期望收益的计算公式如下: \(E = {1\over 2} \times 2 + {1\over 4} \times 4 + {1\over 8} \times 8 + ... + {1\over n} \times n = \infty\) 问题就出在我们对期望收益的计算来自对其遍历性的假设,假设有无限个平行世界,穷尽了无限种出现正面的硬币次数的可能性之后获得的钱的总和的平均。如果我们能如同玻尔兹曼的热力学系统中的粒子最终走遍任何空间位置,比如能穿越不同平行世界让其中赢得多的晚间填补亏钱的玩家,将其盈利和亏损汇合,游戏的迎面就能确实如期望所计算的。

最后再来思考一下开头的股市游戏,为什么即使能确保 50% 以上的正确选股还是会输钱的问题。

如果我们把每回合正确选股的概率写作 p,错误的是 q,收益为 a 时止盈,亏损为 b 时止损。每回合只投入一个总财产的百分比 f,总共 n 回合内获利 m 回合之后,初始资产 A 就变成 $A_{end} = A_{origin} \times (1 + af)^m \times (1 - bf)^{n - m}$ 带入 $m = n \times p$ 得到 ${A_{end} \over A_{origin}} = (1 + af)^{np} \times (1 - bf)^{nq}$。把 $A_{origin} = 1, n = 1, p = 0.55, q = 0.45, a = 0.3, b = 0.3$,随着 f 以 0.001 的步长递增,$A_{end}$ 的值会得到一个抛物线,对这个公式对 f 求导就可以求出 $A_{end}$ 最大时 f 的值为 ${p \over a} - {q \over b}$。而它就是 1956 年贝尔实验室的研究院 Kelly 在他的论文终所发现正对此类问题的解——凯利的准则。带入我们模拟的设定值可以得出 $f = 55\%/0.3 - 45\%/0.3 = 0.3333$ 时,即每把只投入 33% 的账户资金,如下图所示,随着回合数的增加平均收益也稳步增加(可以自行求一下众数,规律应该也是类似的)。

average_profit_per_person

据传,凯利的同僚信息论之父的 Claude Shannon 和 Edward Thorp正是领域此方法和他们的信息论在当年的拉斯维加斯赌场狠狠地大赚了一笔。

一个让人好奇的问题是凯利的准则是否也可以用于解决其他的非遍历性系统的问题呢。因为你可能还记得以自身变化为速度的曲线正如自然万物以及声明的逻辑是一个生命的函数。如果我们将每一次的选股当作每一次人生道路岔路口的选择,每一个节点的盈利或止损当作每次行动后的社会地位以及自我的提升与降低的变化,那么每一条曲线也将代表每一个人在社会中蜿蜒曲折的履历所构成的生命的曲线。此时整个坐标将是上上下下命运沉浮的芸芸众生、熙熙攘攘的社会大地图、以及更关键的他们所处的一个非遍历性的系统。可惜的是你不能如凯利的准则每次只拿出自己的一部分去做人生尝试,你的生命曲线的每一个节点的抉择都必须是你全身心投入的无法回头地迈进,它将代表你的每一次努力与偷懒、成功与失败、愤怒与喜悦,包含着你每一个逃课的午后或深夜的自习,每一个随意的取舍或深思熟虑的抉择,它的每一份每一秒都会是以你当下的全部为微分所构建的、只属于你自己的生命曲线。唯一的不同是,曲线上的每一个节点,不再只是概率的游戏,而是我们主观能动性的选择后果。在认识到其非遍历性的属性后,我们更不能用遍历性的平均思维取计算每个结点的得失。正如某教育界名人所说的,在你漫长的一生中,你唯一能够也是最轻松、最能够掌握的变量只有你自己的学习。而少壮不努力,老大徒伤悲的悲伤,也并非少壮所以更容易学更好学,而是在一个非遍历性的系统中投入和回报两个变量的分离所构成的今天学与明天再学本质上的不同。小时候一小时学习所带来的回报和老大后一小时学习带来的回报的数量上的巨大的差异,就像今天能获得的收益即使在数值上和明天获得的数量相同,它能带来的生命曲线上的改变也在理论上是不同的,所以你还在等什么呢?

对慢慢长路的生命曲线而言,无论你是否对之前的节点交出来让自己满意的答卷,我们唯一可以确定相同的一点是我们之后所有的还未经历的人生轨迹和曲线的起点,以及之后所有可能存在的节点的第一个,就是当下的此时此刻。

参考:牛市注定输钱,社会注定分配不公:凯莉准则与人生的非遍历性