[系列 2] 從兩人到 n 人：n 人博弈中的均衡點 + 非合作賽局

📚 本系列文章

系列 1 — 納什的故事與納許均衡的直覺 → 上一篇：約翰·納什與他的賽局理論

系列 2（本文） — n 人博弈中的均衡點 + 非合作博弈

系列 3（規劃中）— 合作博弈、Shapley 值與機制設計

引子：那 28 頁裡到底寫了什麼
第一章：為什麼「兩人遊戲」不夠？
- 囚徒困境的極限
第二章：非合作賽局的形式化定義
第三章：納許的存在性定理 — 每場有限遊戲都有均衡
第四章：Cournot 寡占 — 連續策略的經典
第五章：多均衡的困境 — 怎麼選？
第六章：精練均衡 — 把「不可信」的那種砍掉
第七章：AI 時代的 n 人非合作賽局
第八章：為什麼這 28 頁改變了世界？
結語：你怎麼找到你的均衡？

引子：那 28 頁裡到底寫了什麼

系列 1 我們聊了納什的故事、納許均衡的「直覺」、還有它在 AI 時代的應用。

但很多讀者反應一個問題：

「納許均衡到底是怎麼『找出來』的？」「為什麼我玩剪刀石頭布明明沒有『純策略均衡』，但每次都還是會停在某個 pattern？」「非合作跟合作到底差別在哪？」

這些問題的答案，其實都藏在納什 1950 年那 28 頁博士論文裡。

這一篇，我們來拆開來看：n 人非合作賽局（n-player non-cooperative game） 到底是一個怎樣的數學世界。

為了照顧不同背景的讀者，我會用三種層次來講：

白話層 — 故事跟直覺
數學層 — 形式化定義
現代應用層 — AI、市場、區塊鏈

你可以挑自己舒服的層次看，但建議三層都讀一次，因為它們互相支撐。

第一章：為什麼「兩人遊戲」不夠？

囚徒困境的極限

系列 1 我們詳細講了囚徒困境（Prisoner's Dilemma）：

兩個人，每個人兩個策略，總共 4 種結局。畫個 2×2 的策略矩陣（payoff matrix），均衡點一目了然。

但現實世界不是 2 個人、不是 2 個策略。

當你把場景換一下：

晶圓代工市場：台積電、三星、英特爾，每家可以選「漲價」「降價」「維持」，3 家公司、3 個策略，組合數已經是 $3^3 = 27$ 種
電商市場：淘寶、蝦皮、亞馬遜、PChome 4 家搶市，每家可以選「補貼」「不補貼」「燒錢換市佔」，策略組合變 $3^4 = 81$ 種
AI 多代理人系統：10 個 AI agent，每個 agent 有 5 個策略，組合數是 $5^{10} = 9,765,625$ 種

策略矩陣根本畫不下。囚徒困境那種「畫張表就能找出均衡點」的方法，瞬間失效。

這時候，納什 1950 年那 28 頁就派上用場了。

第二章：非合作賽局的形式化定義

2.1 什麼是「非合作」？

在動手定義前，先把一個容易搞混的詞釐清：非合作（non-cooperative）。

聽起來很負面，好像「大家都不合作」的意思。但其實不是

在賽局理論裡，「合作」vs「非合作」是技術術語，不是道德判斷。

合作賽局（cooperative game）：玩家之間可以事先簽訂具法律約束力的合約，把收益綁在一起分配。焦點是「事後如何分餅」。

非合作賽局（non-cooperative game）：玩家無法簽合約，每個人都獨立決策。焦點是「事前如何行動」。

囚徒困境是經典的非合作賽局——兩個嫌犯沒辦法事先談好「我們都沉默」然後簽合約（也沒辦法執行）。

但你會驚訝地發現：

現實世界 90% 的商業、政治、社會互動，都是非合作賽局。

因為：

兩家公司即使談好價格，也很難用合約強制對方「不能降價搶客戶」
兩個國家即使簽了條約，也無法阻止對方偷偷發展軍備
你跟同事即使口頭約好「互相 cover」，也沒有真正的強制力

納什聚焦在「非合作」是因為它更基本、更難、也更能描述真實世界。

2.2 形式化定義（n 人非合作賽局）

一個 n 人非合作賽局可以用三個東西完全描述：

$$ G = (N, S, u) $$

符號	意義	白話解釋
$N = {1, 2, \ldots, n}$	玩家集合	誰在玩這個遊戲
$S = S_1 \times S_2 \times \cdots \times S_n$	策略空間	每個玩家各自能選什麼
$u = (u_1, u_2, \ldots, u_n)$	效用函數	每個玩家「最想要什麼」

純策略（pure strategy）：玩家從自己可選的策略中挑一個。

混合策略（mixed strategy）：玩家從自己可選的策略中隨機抽一個，每個策略對應一個機率。

舉個具體例子：

剪刀石頭布 是一個 2 人非合作賽局：

$N = {你, 對手}$
$S_1 = S_2 = {剪刀, 石頭, 布}$
$u_1, u_2$ 是輸贏對應的 payoff（贏 +1，平 0，輸 -1）

注意：剪刀石頭布沒有純策略納許均衡（不管你出什麼，對方都可以出一個贏你的）。但它有混合策略均衡——兩個人都以 1/3 的機率出剪刀、1/3 石頭、1/3 布。

這個混合策略均衡的存在，正正是納什 1950 年證明的。

2.3 純策略納許均衡：定義

承系列 1，n 人版的定義其實就是 2 人版的直接推廣：

策略組 $s^ = (s_1^, s_2^, \ldots, s_n^)$ 是純策略納許均衡，若且唯若對每個玩家 $i$： $$u_i(si^*, s{-i}^) \geq u_i(si, s{-i}^) \quad \text{對所有可能的 } s_i \in S_i$$

也就是：在其他人都守在 $s_{-i}^*$ 的前提下，玩家 $i$ 已經選了他能選的「最好」。

這定義在 n 個人時完全一樣，只是要把「另一個人」換成「其他 n-1 個人」。

2.4 混合策略納許均衡：定義

當純策略不存在時，納許的數學天分就展現出來了。

把策略空間從「具體的行動」推廣到「行動上的機率分佈」：

策略組 $\sigma^ = (\sigma_1^, \sigma_2^, \ldots, \sigma_n^)$ 是混合策略納許均衡，若且唯若對每個玩家 $i$： $$E[u_i(\sigmai^*, \sigma{-i}^)] \geq E[u_i(\sigmai, \sigma{-i}^)] \quad \text{對所有可能的 } \sigma_i \in \Delta(S_i)$$

這裡 $\sigma_i$ 是玩家 $i$ 選每個純策略的機率，$\Delta(S_i)$ 是所有機率分佈構成的單形（simplex）。

簡單講：當其他人都用某個機率分佈玩時，你最好也用同樣的機率分佈玩。

第三章：納許的存在性定理 — 每場有限遊戲都有均衡

3.1 定理敘述

納許定理（1950）： 每一場有 n 個玩家、每個玩家策略集合都有限的非合作賽局，至少存在一個（純策略或混合策略）納許均衡。

這是個極其暴力的結論。

它的意思是：不管遊戲多複雜（幾個玩家都行、每個人策略數再多也行），只要策略集合是有限的——也就是說可以列舉出來——就一定找得到一個「大家都不想單獨改變」的點。

數學上，納什用了兩個固定點定理來證：

工具	用途
Kakutani 不動點定理（1950 論文）	處理一般賽局
Brouwer 不動點定理（1951 簡化版）	處理更特定形式

不動點定理的核心想法是：

把每個玩家的「最佳回應（best response）」看成一個從策略空間到策略空間的映射，整個映射的不動點就是均衡。

就像你拿一張地圖，往地圖上每個點都畫個箭頭指向「最好去的地方」。納許證明這些箭頭一定有某個回到原點的點——那個點就是均衡。

3.2 直覺類比

想像你走進一個大迷宮。每個房間都有個螢幕顯示「往哪走最好」。你跟著螢幕走。

納許定理說：不管迷宮多複雜，一定存在某個房間，螢幕上寫的「往這裡走」剛好就是這個房間本身。

這個房間就是均衡點。

3.3 一個 n=3 的簡單例子：三候選人選戰

3 個候選人 A、B、C 競爭一個選舉。每個候選人選「主打議題」三選一：經濟、環保、社會福利。

假設選民分布是 50% 經濟、30% 環保、20% 社會福利
3 人都主打經濟 → 票數被瓜分，全部都輸得很慘
1 人經濟、1 人環保、1 人社會福利 → 得票最高的反而是環保那個（30%）

納許均衡是什麼？ A 主打經濟、B 主打環保、C 主打社會福利，剛好瓜分全部票數。沒有人能單獨改主打議題而多贏。

這就是經典的「差異化」策略均衡。

3.4 一個 n=10 的例子：公共財悲劇（Tragedy of the Commons）

10 個漁民共用一個湖泊，每人每天可以選「釣 5 條」或「釣 10 條」。

湖能養 80 條魚，超過就隔年減產
大家都釣 5 條 → 每天 50 條，永續 5 個人以上有魚釣
大家都釣 10 條 → 每天 100 條，隔年崩潰，10 個人都沒魚

混合策略納許均衡是什麼？ 每個漁民以某個機率 $p$ 選「釣 5 條」。

具體的 $p$ 數值可以由「期望效用 = 0 變化」的條件解出來。

結果是：均衡的 $p$ 比「對社會最好的 $p$」低很多。即使每個漁民都理性，湖泊還是會被過度捕撈。

這就是為什麼「氣候變遷」這種全球公共財問題這麼難解——每個國家都是漁民，納許均衡不是帕累托最優。

第四章：Cournot 寡占 — 連續策略的經典

Cournot 寡占模型：3 個工廠的最佳產量互相牽動

4.1 設定

到目前為止我們都在講「策略是離散的」（認罪/沉默、5 條/10 條）。但現實中很多策略是連續的——價格、產量、投資額度。

Cournot 模型（1838 年，比納什早了 100 多年，但納許把它推廣到 n 家公司）描述的就是這種情境：

市場上 $n$ 家公司生產同質商品
每家公司同時選產量 $q_i$（連續變數）
市場價格 $P(Q) = a - bQ$，其中 $Q = \sum q_i$
公司 $i$ 的利潤 $\pi_i = q_i \cdot (a - bQ) - c \cdot q_i$

4.2 兩家公司的均衡

最簡單的 $n=2$ 版本：

公司 1 選 $q_1$，公司 2 選 $q_2$
公司 1 給定 $q_2$ 時的最佳反應：$q_1^* = \frac{a - c - bq_2}{2b}$
公司 2 給定 $q_1$ 時的最佳反應：$q_2^* = \frac{a - c - bq_1}{2b}$

把兩個反應函數聯立求解：

$$q_1^ = q_2^ = \frac{a-c}{3b}$$

這就是 Cournot 均衡——每家公司產量 $\frac{a-c}{3b}$，沒有人能單獨改產量而賺更多。

注意：*總產量 $Q^ = \frac{2(a-c)}{3b}$ 比獨占（$\frac{a-c}{2b}$）大，比完全競爭（$\frac{a-c}{b}$）小**。

4.3 n 家公司的推廣

把 $n$ 家公司放進來，納許均衡變成：

$$q_i^* = \frac{a-c}{(n+1)b} \quad \text{（對所有 $i$）}$$

關鍵觀察：

情境	$n$	$Q^*$	市場價格
完全獨占	1	$\frac{a-c}{2b}$	高
兩家寡占	2	$\frac{2(a-c)}{3b}$	中
10 家寡占	10	$\frac{10(a-c)}{11b}$	較低
完全競爭	$\infty$	$\frac{a-c}{b}$	接近邊際成本

廠商越多，市場越接近完全競爭，價格越低。

這個結論跟直覺一致，也被現實無數次驗證：

台北的早餐店密度 → 蛋餅便宜
半導體的少量寡占（3-4 家）→ 價格高、利潤好
農產品市場（無數農民）→ 接近競爭，農民利潤薄

4.4 Bertrand 的反撲

順帶提一個重要的反例：如果廠商選的不是「產量」而是「價格」（Bertrand 模型），均衡的 $n=2$ 已經會直接打到邊際成本——兩家雙占就足以達到完全競爭的結果。

這是為什麼「價格戰」這麼可怕：在價格賽局裡，兩個玩家就夠了，不需要無限多家。

4.5 Stackelberg 與時間賽局

另一個延伸：如果一家公司先動，另一家看著辦（leader-follower），均衡就變成 Stackelberg 均衡——leader 比 Cournot 賺更多，follower 比 Cournot 賺更少。

這給現實的啟示：先動優勢（first-mover advantage） 在很多市場真的存在。

第五章：多均衡的困境 — 怎麼選？

5.1 均衡可能不只一個

納許定理只保證「至少一個」均衡存在。

但很多遊戲裡，均衡有好幾個。

經典案例：協調賽局（coordination game）

兩個人，兩個策略：「用 HTC 標準」或「用 iOS 標準」
兩個均衡：都選 HTC、還是都選 iOS
都選錯（一人 HTC 一人 iOS）→ 大家都慘

5.2 焦點定理與 Schelling Point

經濟學家 Thomas Schelling 1960 年提出一個非正式但實用的概念：

焦點（focal point / Schelling point）：在多個均衡中，那個「大家會自然傾向選」的點。

例子：

在紐約，兩個人要在中午 12 點見面，大中央車站的時鐘是焦點（不是時代廣場）
兩家新創公司選技術棧，「大家都選 React」就是焦點
冷戰時蘇美避免核戰，「雙方都不要先按按鈕」是焦點

焦點不是數學解出來的，而是文化、慣例、可見度累積出來的。

5.3 路徑依賴與 QWERTY 故事

鍵盤上的 QWERTY 排列其實不是最有效率的（Dvorak 排列打字更快）。但因為大家都學 QWERTY、學校教 QWERTY、廠商做 QWERTY 鍵盤——這個「不好的均衡」就自我強化了。

這就是路徑依賴（path dependence）——一旦某個均衡被選中，要轉換到另一個均衡的成本會越來越高。

現實中還有：

VHS vs Betamax（VHS 贏了，Betamax 技術更好但被淘汰）
Windows vs Mac OS（Windows 因為「大家都用」而成為 PC 預設）
Twitter 的 140 字限制（後來解除，但「短文社群」這個定位已經定型）

5.4 風險主導 vs 利潤主導

另一種選均衡的方式是風險態度：

風險愛好者 → 選「期望值高」但「可能慘」的均衡
風險規避者 → 選「期望值低」但「保證不差」的均衡

在博弈設計（mechanism design）裡，這是「個體理性約束」的一部分——你不能強迫玩家接受「期望值高但有破產風險」的選項。

第六章：精練均衡 — 把「不可信」的那種砍掉

6.1 不可信威脅問題

回到納許均衡的定義，它允許一種奇怪的解：

不可信威脅（non-credible threat）

經典例子：

兩家公司在爭一個市場。公司 A 威脅：「如果你進來，我會不惜成本跟你打價格戰，讓你虧到脫褲子。」

理性來看，公司 A 其實不會真的這麼做（打價格戰自己也會虧），但納許均衡的純定義允許這個「威脅」維持均衡。

1965 年，Reinhard Selten 提出 子賽局完美均衡（subgame perfect equilibrium, SPE）：

剔除那些「在後續子賽局中不會被執行」的威脅。

換句話說：威脅必須是你在每個分岔點都會真的做的事，才算均衡。

6.2 完美貝氏均衡

當玩家之間資訊不對稱（你不知道對手是強是弱、是男是女、是新創還是老牌），Harsanyi 1967 年提出 完美貝氏均衡（perfect Bayesian equilibrium）：

每個玩家根據「信念（belief）」做決定，而信念要根據貝氏定理（Bayes' theorem）隨觀察到的訊息更新。

這是現代經濟學最常用的均衡概念之一，也是 AI agent 在不完美資訊下做決策的理論基礎。

6.3 顫抖手均衡

Selten 後來還提出 顫抖手均衡（trembling hand perfect equilibrium）：

允許玩家「偶爾手滑」點錯按鈕，在這種情況下還是均衡的策略組合才算穩定。

這個概念在電競、賽車、機器人競賽裡超級實用——現實中沒有「100% 不犯錯」的人或 AI。

第七章：AI 時代的 n 人非合作賽局

7.1 多代理人強化學習（MARL）就是 n 人賽局

回到系列 1 提到的多代理人強化學習（Multi-Agent Reinforcement Learning, MARL）：

每個 AI agent 是「玩家」，每個 agent 的策略網路是它的「策略空間」，每個 agent 收到的 reward 是它的「效用函數」。

整個 MARL 系統就是一個 n 人非合作賽局。

而 MARL 訓練的目標就是——找到這個遊戲的納許均衡。

問題是：當 $n$ 很大（10 個以上 agent）、策略空間是連續的、神經網路有上千萬個參數時，找到純粹的納許均衡極難。

所以實務上 MARL 用的是：

近似納許均衡（approximate NE）：允許「小偏差」
相關均衡（correlated equilibrium）：放寬「獨立選擇」假設，由一個共同訊號（如第三方）協調
平均場均衡（mean-field equilibrium）：當 $n \to \infty$ 時，把「其他所有人的平均行為」當成一個外部場

7.2 LLM agent 的合作與背叛

2024-2025 年起，矽谷開始流行讓多個 LLM agent 互動（例如 AutoGPT 衍生的各種多 agent 框架）。

實驗發現：

純粹非合作（每個 agent 只為自己 reward）→ 容易陷入囚徒困境
加入「共同目標」（cooperative game）→ 表現大幅提升
加上「社會規範」（prompt engineering 強調「不要欺騙同伴」）→ 進一步提升

這正是賽局理論在工程實務中的應用：當預設的 n 人非合作賽局跑不出好結果時，就改變遊戲規則——加共同獎勵、加規範、引入裁判。

7.3 區塊鏈共識：千萬人級的 n 人賽局

比特幣的礦工超過 1000 萬人，以太坊的驗證者超過 100 萬人。

這是人類歷史上規模最大的 n 人非合作賽局之一。

礦工都想最大化自己的挖礦收益
礦工可以選擇「誠實挖礦」或「作弊」（double-spending attack）
網路要設計規則讓「誠實是均衡」

中本聰的天才之處在於：他設計了一個賽局，作弊的期望成本遠高於期望收益：

算力作弊成本 = 51% 攻擊的硬體 + 電費
收益 = 短期內可能偷到的幣
但作弊成功的話幣價崩盤 = 整個礦工投資打水漂

這就是經典的「機制設計」——用經濟激勵把「非合作均衡」引導到「對社會好的方向」。

第八章：為什麼這 28 頁改變了世界？

回頭看，納什 1950 年那 28 頁博士論文，真正厲害的不是「找出 2 人的均衡」——那個概念 Cournot 1838 年就有了。

真正厲害的是三件事：

從 2 人推到 n 人：用 Kakutani 不動點定理證明任意有限非合作賽局都有均衡
純策略推廣到混合策略：允許「隨機化」解決了剪刀石頭布這類無純均衡的問題
把「非合作」當基本模型：把「合作」當成需要額外解釋的特殊情形

這三件事一起，給了經濟學家、政治學家、生物學家、AI 研究員一個通用的數學骨架。

任何涉及「多個獨立決策者」的情境——市場、選舉、演化、AI、區塊鏈——都可以套用納許的框架去分析。

結語：你怎麼找到你的均衡？

這一篇我們從 2 人推到 n 人、從純策略推到混合策略、從單一均衡推到多均衡與精練。

但我故意留了一個問題沒回答：

如果現實常常有多個均衡，你怎麼知道「該選哪個」？

這個問題的答案不在納許 1950 年——在後來的經濟學家：Schelling（焦點）、Selten（精練）、Harsanyi（不完美資訊）、Myerson（機制設計）。

但最關鍵的是 Shapley。

Shapley 在 1953 年（納許的同事）提出了「合作賽局」的解概念——Shapley 值。它回答了：

「如果一群人可以事先組隊、合約、一起決策，事後的利益該怎麼分才公平？」

這正是系列 3 要講的：合作博弈、Shapley 值、機制設計。

敬請期待。

系列文導讀

這是「納許與賽局理論」系列的第二篇。我們這次走進了納許 1950 年博士論文的數學世界，從 2 人推到 n 人、從純策略推到混合策略。我們用 Cournot 寡占看連續策略、用協調賽局看多均衡的困境、用子賽局完美均衡剔除不可信威脅，最後連到 AI 多代理人和區塊鏈共識。

但故事還沒完。納許自己 1953 年那篇《Two-Person Cooperative Games》其實已經埋下了「合作賽局」的種子，只是被他的「非合作」光環蓋過去了。後來的經濟學家——Shapley、Myerson、Maskin——把這條線接下去，發展出整套「機制設計」理論，影響了拍賣設計、AI 倫理、碳交易市場、甚至選舉制度。

系列 3 預告：合作博弈、Shapley 值與機制設計 — 當一群人可以合約時，世界會變成什麼樣？

參考資料

Nash, J. F. (1950). Equilibrium points in n-person games. Proceedings of the National Academy of Sciences.
Nash, J. F. (1951). Non-Cooperative Games. Annals of Mathematics.
Cournot, A. (1838). Recherches sur les principes mathématiques de la théorie des richesses.
Schelling, T. (1960). The Strategy of Conflict.
Selten, R. (1965). Spieltheoretische Behandlung eines Oligopolmodells mit Nachfrageträgheit.
Harsanyi, J. C. (1967). Games with Incomplete Information Played by "Bayesian" Players.
Myerson, R. B. (1991). Game Theory: Analysis of Conflict.
Wikipedia: Cournot competition, Bertrand competition, Stackelberg competition, Tragedy of the commons, Schelling focal point, Subgame perfect equilibrium, Correlated equilibrium, Mean-field game theory

[系列 2] 從兩人到 n 人：藏在納許均衡背後的數學世界 — n 人博弈與非合作賽局

Table of Contents

引子：那 28 頁裡到底寫了什麼

第一章：為什麼「兩人遊戲」不夠？

囚徒困境的極限

第二章：非合作賽局的形式化定義

2.1 什麼是「非合作」？

2.2 形式化定義（n 人非合作賽局）

2.3 純策略納許均衡：定義

2.4 混合策略納許均衡：定義

第三章：納許的存在性定理 — 每場有限遊戲都有均衡

3.1 定理敘述

3.2 直覺類比

3.3 一個 n=3 的簡單例子：三候選人選戰

3.4 一個 n=10 的例子：公共財悲劇（Tragedy of the Commons）

第四章：Cournot 寡占 — 連續策略的經典

4.1 設定

4.2 兩家公司的均衡

4.3 n 家公司的推廣

4.4 Bertrand 的反撲

4.5 Stackelberg 與時間賽局

第五章：多均衡的困境 — 怎麼選？

5.1 均衡可能不只一個

5.2 焦點定理與 Schelling Point

5.3 路徑依賴與 QWERTY 故事

5.4 風險主導 vs 利潤主導

第六章：精練均衡 — 把「不可信」的那種砍掉

6.1 不可信威脅問題

6.2 完美貝氏均衡

6.3 顫抖手均衡

第七章：AI 時代的 n 人非合作賽局

7.1 多代理人強化學習（MARL）就是 n 人賽局

7.2 LLM agent 的合作與背叛

7.3 區塊鏈共識：千萬人級的 n 人賽局

第八章：為什麼這 28 頁改變了世界？

結語：你怎麼找到你的均衡？

Other Related Posts:

[系列 1] 天才、瘋狂、與一場無聲的對局：約翰·納什與他的賽局理論

Table of Contents

當 AI 助理的腦容量升到 100 萬：我們的未來會長成什麼形狀？

Table of Contents