Hero Image
- Mark

[系列 2] 從兩人到 n 人:藏在納許均衡背後的數學世界 — n 人博弈與非合作賽局

n 人賽局空間:每個發光節點都是一個潛在的均衡點

📚 本系列文章

  • 系列 1 — 納什的故事與納許均衡的直覺 → 上一篇:約翰·納什與他的賽局理論
  • 系列 2(本文) — n 人博弈中的均衡點 + 非合作博弈
  • 系列 3(規劃中)— 合作博弈、Shapley 值與機制設計

引子:那 28 頁裡到底寫了什麼

系列 1 我們聊了納什的故事、納許均衡的「直覺」、還有它在 AI 時代的應用。

但很多讀者反應一個問題:

「納許均衡到底是怎麼『找出來』的?」 「為什麼我玩剪刀石頭布明明沒有『純策略均衡』,但每次都還是會停在某個 pattern?」 「非合作跟合作到底差別在哪?」

這些問題的答案,其實都藏在納什 1950 年那 28 頁博士論文裡。

這一篇,我們來拆開來看:n 人非合作賽局(n-player non-cooperative game) 到底是一個怎樣的數學世界。

為了照顧不同背景的讀者,我會用三種層次來講:

  1. 白話層 — 故事跟直覺
  2. 數學層 — 形式化定義
  3. 現代應用層 — AI、市場、區塊鏈

你可以挑自己舒服的層次看,但建議三層都讀一次,因為它們互相支撐。


第一章:為什麼「兩人遊戲」不夠?

囚徒困境的極限

系列 1 我們詳細講了囚徒困境(Prisoner's Dilemma):

兩個人,每個人兩個策略,總共 4 種結局。畫個 2×2 的策略矩陣(payoff matrix),均衡點一目了然。

但現實世界不是 2 個人、不是 2 個策略。

當你把場景換一下:

  • 晶圓代工市場:台積電、三星、英特爾,每家可以選「漲價」「降價」「維持」,3 家公司、3 個策略,組合數已經是 $3^3 = 27$ 種
  • 電商市場:淘寶、蝦皮、亞馬遜、PChome 4 家搶市,每家可以選「補貼」「不補貼」「燒錢換市佔」,策略組合變 $3^4 = 81$ 種
  • AI 多代理人系統:10 個 AI agent,每個 agent 有 5 個策略,組合數是 $5^{10} = 9,765,625$ 種

策略矩陣根本畫不下。囚徒困境那種「畫張表就能找出均衡點」的方法,瞬間失效。

這時候,納什 1950 年那 28 頁就派上用場了。


第二章:非合作賽局的形式化定義

2.1 什麼是「非合作」?

在動手定義前,先把一個容易搞混的詞釐清:非合作(non-cooperative)

聽起來很負面,好像「大家都不合作」的意思。但其實不是

在賽局理論裡,「合作」vs「非合作」是技術術語,不是道德判斷。

  • 合作賽局(cooperative game):玩家之間可以事先簽訂具法律約束力的合約,把收益綁在一起分配。焦點是「事後如何分餅」。
  • 非合作賽局(non-cooperative game):玩家無法簽合約,每個人都獨立決策。焦點是「事前如何行動」。

囚徒困境是經典的非合作賽局——兩個嫌犯沒辦法事先談好「我們都沉默」然後簽合約(也沒辦法執行)。

但你會驚訝地發現:

現實世界 90% 的商業、政治、社會互動,都是非合作賽局。

因為:

  • 兩家公司即使談好價格,也很難用合約強制對方「不能降價搶客戶」
  • 兩個國家即使簽了條約,也無法阻止對方偷偷發展軍備
  • 你跟同事即使口頭約好「互相 cover」,也沒有真正的強制力

納什聚焦在「非合作」是因為它更基本、更難、也更能描述真實世界

2.2 形式化定義(n 人非合作賽局)

一個 n 人非合作賽局可以用三個東西完全描述:

$$ G = (N, S, u) $$

符號 意義 白話解釋
$N = {1, 2, \ldots, n}$ 玩家集合 誰在玩這個遊戲
$S = S_1 \times S_2 \times \cdots \times S_n$ 策略空間 每個玩家各自能選什麼
$u = (u_1, u_2, \ldots, u_n)$ 效用函數 每個玩家「最想要什麼」

純策略(pure strategy):玩家從自己可選的策略中挑一個。

混合策略(mixed strategy):玩家從自己可選的策略中隨機抽一個,每個策略對應一個機率。

舉個具體例子:

剪刀石頭布 是一個 2 人非合作賽局:

  • $N = {你, 對手}$
  • $S_1 = S_2 = {剪刀, 石頭, 布}$
  • $u_1, u_2$ 是輸贏對應的 payoff(贏 +1,平 0,輸 -1)

注意:剪刀石頭布沒有純策略納許均衡(不管你出什麼,對方都可以出一個贏你的)。但它有混合策略均衡——兩個人都以 1/3 的機率出剪刀、1/3 石頭、1/3 布。

這個混合策略均衡的存在,正正是納什 1950 年證明的。

2.3 純策略納許均衡:定義

承系列 1,n 人版的定義其實就是 2 人版的直接推廣:

策略組 $s^ = (s_1^, s_2^, \ldots, s_n^)$ 是純策略納許均衡,若且唯若對每個玩家 $i$: $$u_i(si^*, s{-i}^) \geq u_i(si, s{-i}^) \quad \text{對所有可能的 } s_i \in S_i$$

也就是:在其他人都守在 $s_{-i}^*$ 的前提下,玩家 $i$ 已經選了他能選的「最好」。

這定義在 n 個人時完全一樣,只是要把「另一個人」換成「其他 n-1 個人」。

2.4 混合策略納許均衡:定義

當純策略不存在時,納許的數學天分就展現出來了。

把策略空間從「具體的行動」推廣到「行動上的機率分佈」:

策略組 $\sigma^ = (\sigma_1^, \sigma_2^, \ldots, \sigma_n^)$ 是混合策略納許均衡,若且唯若對每個玩家 $i$: $$E[u_i(\sigmai^*, \sigma{-i}^)] \geq E[u_i(\sigmai, \sigma{-i}^)] \quad \text{對所有可能的 } \sigma_i \in \Delta(S_i)$$

這裡 $\sigma_i$ 是玩家 $i$ 選每個純策略的機率,$\Delta(S_i)$ 是所有機率分佈構成的單形(simplex)。

簡單講:當其他人都用某個機率分佈玩時,你最好也用同樣的機率分佈玩


第三章:納許的存在性定理 — 每場有限遊戲都有均衡

3.1 定理敘述

納許定理(1950)每一場有 n 個玩家、每個玩家策略集合都有限的非合作賽局,至少存在一個(純策略或混合策略)納許均衡。

這是個極其暴力的結論。

它的意思是:不管遊戲多複雜(幾個玩家都行、每個人策略數再多也行),只要策略集合是有限的——也就是說可以列舉出來——就一定找得到一個「大家都不想單獨改變」的點

數學上,納什用了兩個固定點定理來證:

工具 用途
Kakutani 不動點定理(1950 論文) 處理一般賽局
Brouwer 不動點定理(1951 簡化版) 處理更特定形式

不動點定理的核心想法是:

把每個玩家的「最佳回應(best response)」看成一個從策略空間到策略空間的映射,整個映射的不動點就是均衡

就像你拿一張地圖,往地圖上每個點都畫個箭頭指向「最好去的地方」。納許證明這些箭頭一定有某個回到原點的點——那個點就是均衡。

3.2 直覺類比

想像你走進一個大迷宮。每個房間都有個螢幕顯示「往哪走最好」。你跟著螢幕走。

納許定理說:不管迷宮多複雜,一定存在某個房間,螢幕上寫的「往這裡走」剛好就是這個房間本身

這個房間就是均衡點。

3.3 一個 n=3 的簡單例子:三候選人選戰

3 個候選人 A、B、C 競爭一個選舉。每個候選人選「主打議題」三選一:經濟、環保、社會福利。

  • 假設選民分布是 50% 經濟、30% 環保、20% 社會福利
  • 3 人都主打經濟 → 票數被瓜分,全部都輸得很慘
  • 1 人經濟、1 人環保、1 人社會福利 → 得票最高的反而是環保那個(30%)

納許均衡是什麼? A 主打經濟、B 主打環保、C 主打社會福利,剛好瓜分全部票數。沒有人能單獨改主打議題而多贏

這就是經典的「差異化」策略均衡。

3.4 一個 n=10 的例子:公共財悲劇(Tragedy of the Commons)

10 個漁民共用一個湖泊,每人每天可以選「釣 5 條」或「釣 10 條」。

  • 湖能養 80 條魚,超過就隔年減產
  • 大家都釣 5 條 → 每天 50 條,永續 5 個人以上有魚釣
  • 大家都釣 10 條 → 每天 100 條,隔年崩潰,10 個人都沒魚

混合策略納許均衡是什麼? 每個漁民以某個機率 $p$ 選「釣 5 條」。

具體的 $p$ 數值可以由「期望效用 = 0 變化」的條件解出來。

結果是:均衡的 $p$ 比「對社會最好的 $p$」低很多。即使每個漁民都理性,湖泊還是會被過度捕撈。

這就是為什麼「氣候變遷」這種全球公共財問題這麼難解——每個國家都是漁民,納許均衡不是帕累托最優


第四章:Cournot 寡占 — 連續策略的經典

Cournot 寡占模型:3 個工廠的最佳產量互相牽動

4.1 設定

到目前為止我們都在講「策略是離散的」(認罪/沉默、5 條/10 條)。但現實中很多策略是連續的——價格、產量、投資額度。

Cournot 模型(1838 年,比納什早了 100 多年,但納許把它推廣到 n 家公司)描述的就是這種情境:

  • 市場上 $n$ 家公司生產同質商品
  • 每家公司同時選產量 $q_i$(連續變數)
  • 市場價格 $P(Q) = a - bQ$,其中 $Q = \sum q_i$
  • 公司 $i$ 的利潤 $\pi_i = q_i \cdot (a - bQ) - c \cdot q_i$

4.2 兩家公司的均衡

最簡單的 $n=2$ 版本:

  • 公司 1 選 $q_1$,公司 2 選 $q_2$
  • 公司 1 給定 $q_2$ 時的最佳反應:$q_1^* = \frac{a - c - bq_2}{2b}$
  • 公司 2 給定 $q_1$ 時的最佳反應:$q_2^* = \frac{a - c - bq_1}{2b}$

把兩個反應函數聯立求解:

$$q_1^ = q_2^ = \frac{a-c}{3b}$$

這就是 Cournot 均衡——每家公司產量 $\frac{a-c}{3b}$,沒有人能單獨改產量而賺更多。

注意:*總產量 $Q^ = \frac{2(a-c)}{3b}$ 比獨占($\frac{a-c}{2b}$)大,比完全競爭($\frac{a-c}{b}$)小**。

4.3 n 家公司的推廣

把 $n$ 家公司放進來,納許均衡變成:

$$q_i^* = \frac{a-c}{(n+1)b} \quad \text{(對所有 $i$)}$$

關鍵觀察

情境 $n$ $Q^*$ 市場價格
完全獨占 1 $\frac{a-c}{2b}$
兩家寡占 2 $\frac{2(a-c)}{3b}$
10 家寡占 10 $\frac{10(a-c)}{11b}$ 較低
完全競爭 $\infty$ $\frac{a-c}{b}$ 接近邊際成本

廠商越多,市場越接近完全競爭,價格越低。

這個結論跟直覺一致,也被現實無數次驗證:

  • 台北的早餐店密度 → 蛋餅便宜
  • 半導體的少量寡占(3-4 家)→ 價格高、利潤好
  • 農產品市場(無數農民)→ 接近競爭,農民利潤薄

4.4 Bertrand 的反撲

順帶提一個重要的反例:如果廠商選的不是「產量」而是「價格」(Bertrand 模型),均衡的 $n=2$ 已經會直接打到邊際成本——兩家雙占就足以達到完全競爭的結果。

這是為什麼「價格戰」這麼可怕:在價格賽局裡,兩個玩家就夠了,不需要無限多家。

4.5 Stackelberg 與時間賽局

另一個延伸:如果一家公司先動,另一家看著辦(leader-follower),均衡就變成 Stackelberg 均衡——leader 比 Cournot 賺更多,follower 比 Cournot 賺更少。

這給現實的啟示:先動優勢(first-mover advantage) 在很多市場真的存在。


第五章:多均衡的困境 — 怎麼選?

5.1 均衡可能不只一個

納許定理只保證「至少一個」均衡存在。

但很多遊戲裡,均衡有好幾個

經典案例:協調賽局(coordination game)

  • 兩個人,兩個策略:「用 HTC 標準」或「用 iOS 標準」
  • 兩個均衡:都選 HTC、還是都選 iOS
  • 都選錯(一人 HTC 一人 iOS)→ 大家都慘

5.2 焦點定理與 Schelling Point

經濟學家 Thomas Schelling 1960 年提出一個非正式但實用的概念:

焦點(focal point / Schelling point):在多個均衡中,那個「大家會自然傾向選」的點。

例子:

  • 在紐約,兩個人要在中午 12 點見面,大中央車站的時鐘是焦點(不是時代廣場)
  • 兩家新創公司選技術棧,「大家都選 React」就是焦點
  • 冷戰時蘇美避免核戰,「雙方都不要先按按鈕」是焦點

焦點不是數學解出來的,而是文化、慣例、可見度累積出來的。

5.3 路徑依賴與 QWERTY 故事

鍵盤上的 QWERTY 排列其實不是最有效率的(Dvorak 排列打字更快)。但因為大家都學 QWERTY、學校教 QWERTY、廠商做 QWERTY 鍵盤——這個「不好的均衡」就自我強化了

這就是路徑依賴(path dependence)——一旦某個均衡被選中,要轉換到另一個均衡的成本會越來越高。

現實中還有:

  • VHS vs Betamax(VHS 贏了,Betamax 技術更好但被淘汰)
  • Windows vs Mac OS(Windows 因為「大家都用」而成為 PC 預設)
  • Twitter 的 140 字限制(後來解除,但「短文社群」這個定位已經定型)

5.4 風險主導 vs 利潤主導

另一種選均衡的方式是風險態度

  • 風險愛好者 → 選「期望值高」但「可能慘」的均衡
  • 風險規避者 → 選「期望值低」但「保證不差」的均衡

在博弈設計(mechanism design)裡,這是「個體理性約束」的一部分——你不能強迫玩家接受「期望值高但有破產風險」的選項。


第六章:精練均衡 — 把「不可信」的那種砍掉

6.1 不可信威脅問題

回到納許均衡的定義,它允許一種奇怪的解:

不可信威脅(non-credible threat)

經典例子:

兩家公司在爭一個市場。公司 A 威脅:「如果你進來,我會不惜成本跟你打價格戰,讓你虧到脫褲子。」

理性來看,公司 A 其實不會真的這麼做(打價格戰自己也會虧),但納許均衡的純定義允許這個「威脅」維持均衡。

1965 年,Reinhard Selten 提出 子賽局完美均衡(subgame perfect equilibrium, SPE)

剔除那些「在後續子賽局中不會被執行」的威脅。

換句話說:威脅必須是你在每個分岔點都會真的做的事,才算均衡。

6.2 完美貝氏均衡

當玩家之間資訊不對稱(你不知道對手是強是弱、是男是女、是新創還是老牌),Harsanyi 1967 年提出 完美貝氏均衡(perfect Bayesian equilibrium)

每個玩家根據「信念(belief)」做決定,而信念要根據貝氏定理(Bayes' theorem)隨觀察到的訊息更新。

這是現代經濟學最常用的均衡概念之一,也是 AI agent 在不完美資訊下做決策的理論基礎。

6.3 顫抖手均衡

Selten 後來還提出 顫抖手均衡(trembling hand perfect equilibrium)

允許玩家「偶爾手滑」點錯按鈕,在這種情況下還是均衡的策略組合才算穩定。

這個概念在電競、賽車、機器人競賽裡超級實用——現實中沒有「100% 不犯錯」的人或 AI。


第七章:AI 時代的 n 人非合作賽局

7.1 多代理人強化學習(MARL)就是 n 人賽局

回到系列 1 提到的多代理人強化學習(Multi-Agent Reinforcement Learning, MARL):

每個 AI agent 是「玩家」,每個 agent 的策略網路是它的「策略空間」,每個 agent 收到的 reward 是它的「效用函數」。

整個 MARL 系統就是一個 n 人非合作賽局

而 MARL 訓練的目標就是——找到這個遊戲的納許均衡

問題是:當 $n$ 很大(10 個以上 agent)、策略空間是連續的、神經網路有上千萬個參數時,找到純粹的納許均衡極難

所以實務上 MARL 用的是:

  • 近似納許均衡(approximate NE):允許「小偏差」
  • 相關均衡(correlated equilibrium):放寬「獨立選擇」假設,由一個共同訊號(如第三方)協調
  • 平均場均衡(mean-field equilibrium):當 $n \to \infty$ 時,把「其他所有人的平均行為」當成一個外部場

7.2 LLM agent 的合作與背叛

2024-2025 年起,矽谷開始流行讓多個 LLM agent 互動(例如 AutoGPT 衍生的各種多 agent 框架)。

實驗發現:

  • 純粹非合作(每個 agent 只為自己 reward)→ 容易陷入囚徒困境
  • 加入「共同目標」(cooperative game)→ 表現大幅提升
  • 加上「社會規範」(prompt engineering 強調「不要欺騙同伴」)→ 進一步提升

這正是賽局理論在工程實務中的應用:當預設的 n 人非合作賽局跑不出好結果時,就改變遊戲規則——加共同獎勵、加規範、引入裁判。

7.3 區塊鏈共識:千萬人級的 n 人賽局

比特幣的礦工超過 1000 萬人,以太坊的驗證者超過 100 萬人。

這是人類歷史上規模最大的 n 人非合作賽局之一。

  • 礦工都想最大化自己的挖礦收益
  • 礦工可以選擇「誠實挖礦」或「作弊」(double-spending attack)
  • 網路要設計規則讓「誠實是均衡

中本聰的天才之處在於:他設計了一個賽局,作弊的期望成本遠高於期望收益

  • 算力作弊成本 = 51% 攻擊的硬體 + 電費
  • 收益 = 短期內可能偷到的幣
  • 但作弊成功的話幣價崩盤 = 整個礦工投資打水漂

這就是經典的「機制設計」——用經濟激勵把「非合作均衡」引導到「對社會好的方向」


第八章:為什麼這 28 頁改變了世界?

回頭看,納什 1950 年那 28 頁博士論文,真正厲害的不是「找出 2 人的均衡」——那個概念 Cournot 1838 年就有了。

真正厲害的是三件事

  1. 從 2 人推到 n 人:用 Kakutani 不動點定理證明任意有限非合作賽局都有均衡
  2. 純策略推廣到混合策略:允許「隨機化」解決了剪刀石頭布這類無純均衡的問題
  3. 把「非合作」當基本模型:把「合作」當成需要額外解釋的特殊情形

這三件事一起,給了經濟學家、政治學家、生物學家、AI 研究員一個通用的數學骨架

任何涉及「多個獨立決策者」的情境——市場、選舉、演化、AI、區塊鏈——都可以套用納許的框架去分析。


結語:你怎麼找到你的均衡?

這一篇我們從 2 人推到 n 人、從純策略推到混合策略、從單一均衡推到多均衡與精練。

但我故意留了一個問題沒回答:

如果現實常常有多個均衡,你怎麼知道「該選哪個」?

這個問題的答案不在納許 1950 年——在後來的經濟學家:Schelling(焦點)、Selten(精練)、Harsanyi(不完美資訊)、Myerson(機制設計)。

但最關鍵的是 Shapley。

Shapley 在 1953 年(納許的同事)提出了「合作賽局」的解概念——Shapley 值。它回答了:

「如果一群人可以事先組隊、合約、一起決策,事後的利益該怎麼分才公平?」

這正是系列 3 要講的:合作博弈、Shapley 值、機制設計

敬請期待。


系列文導讀

這是「納許與賽局理論」系列的第二篇。我們這次走進了納許 1950 年博士論文的數學世界,從 2 人推到 n 人、從純策略推到混合策略。我們用 Cournot 寡占看連續策略、用協調賽局看多均衡的困境、用子賽局完美均衡剔除不可信威脅,最後連到 AI 多代理人和區塊鏈共識。

但故事還沒完。納許自己 1953 年那篇《Two-Person Cooperative Games》其實已經埋下了「合作賽局」的種子,只是被他的「非合作」光環蓋過去了。後來的經濟學家——Shapley、Myerson、Maskin——把這條線接下去,發展出整套「機制設計」理論,影響了拍賣設計、AI 倫理、碳交易市場、甚至選舉制度。

系列 3 預告:合作博弈、Shapley 值與機制設計 — 當一群人可以合約時,世界會變成什麼樣?


參考資料

  • Nash, J. F. (1950). Equilibrium points in n-person games. Proceedings of the National Academy of Sciences.
  • Nash, J. F. (1951). Non-Cooperative Games. Annals of Mathematics.
  • Cournot, A. (1838). Recherches sur les principes mathématiques de la théorie des richesses.
  • Schelling, T. (1960). The Strategy of Conflict.
  • Selten, R. (1965). Spieltheoretische Behandlung eines Oligopolmodells mit Nachfrageträgheit.
  • Harsanyi, J. C. (1967). Games with Incomplete Information Played by "Bayesian" Players.
  • Myerson, R. B. (1991). Game Theory: Analysis of Conflict.
  • Wikipedia: Cournot competition, Bertrand competition, Stackelberg competition, Tragedy of the commons, Schelling focal point, Subgame perfect equilibrium, Correlated equilibrium, Mean-field game theory

Other Related Posts: