[系列 1] 天才、瘋狂、與一場無聲的對局：約翰·納什與他的賽局理論

📚 本系列文章

系列 1（本文）— 納什的故事與納許均衡的直覺

系列 2— n 人博弈中的均衡點 + 非合作博弈 → 下一篇：n 人博弈的數學世界

系列 3（規劃中）— 合作博弈、Shapley 值與機制設計

引子：1994 年的那個夜晚
第一章：天才的誕生
- 西維吉尼亞小鎮的怪小孩
- 28 頁改變世界
第二章：什麼是納許均衡？
- 案例一：囚徒困境（Prisoner's Dilemma）
- 案例二：智豬賽局（Boxed Pigs Game / Battle of the Sexes 變體）
第三章：精神分裂與重生
第四章：AI 時代的納許
第五章：賽局思維給現代人的啟示
結語：對局還在進行

引子：1994 年的那個夜晚

1994 年 10 月 11 日，斯德哥爾摩。

約翰·納什（John Forbes Nash Jr.）站在諾貝爾經濟學獎的頒獎台上。鏡頭轉向觀眾席，他的妻子 Alicia 眼裡含著淚水——因為坐在台上的那個人，30 年前還在精神病院裡，相信自己是「南半球的人」、相信《紐約時報》上的字母在用隱形墨水跟他說話。

你或許對這個名字不熟，但你一定看過 Russell Crowe 飾演的《美麗境界》（A Beautiful Mind，2001），那個在黑板前盯著一連串數字、然後突然看見隱藏規律的孤獨天才。

他得了諾貝爾獎，但世界花了 40 年才重新相信他。

他的貢獻，是 28 歲那年寫下的 28 頁博士論文——一個改變了經濟學、計算機科學、生物學、政治學、甚至今天 AI 領域的東西：

納許均衡（Nash Equilibrium）。

第一章：天才的誕生

西維吉尼亞小鎮的怪小孩

1928 年 6 月 13 日，納什出生在西維吉尼亞州的布魯菲爾德（Bluefield）。一個安靜到不能再安靜的阿巴拉契亞山腳小鎮，鎮上連紅綠燈都沒幾個。

他從小就是那種「不跟其他人玩」的小孩。高中時他會帶著母親給他的課外書自學微積分，而不是去打美式足球。 Carnegie Mellon 大學的前身 Carnegie Institute of Technology 給他全額獎學金，本來要他去念化工，後來他轉到數學——因為「化學太容易了」。

1948 年，他帶著一個教授寫的推薦信進入普林斯頓，推薦信只有一句話：

"He is a mathematical genius."

那年他 20 歲。

28 頁改變世界

在普林斯頓的走廊裡，納什不是那種泡圖書館的人。他更常在公共交誼廳下西洋棋、看同學玩「海軍棋遊戲」（他後來在 RAND 公司看到類似的遊戲，正是囚徒困境的原型）。

1950 年，他交出博士論文——只有 28 頁。題目是《非合作賽局》（Non-Cooperative Games）。

他的博士論文解決了一個長期困擾經濟學家的問題：

在任何一場有限人數的遊戲中，是否存在一種「策略組合」，使得每個參與者在其他人不改變策略的前提下，自己也不想單方面改變？

答案是：一定存在。

這個答案，後來被稱為「納許均衡」。

第二章：什麼是納許均衡？

用大白話講：

納許均衡是一種「穩定狀態」——在這個狀態下，每個玩家都已經做了他能做的最好選擇，沒有人能因為「單方面改變」而讓自己過得更好。

聽起來有點玄。讓我用兩個經典案例讓你秒懂。

案例一：囚徒困境（Prisoner's Dilemma）

這是賽局理論裡最出名的故事。

兩個嫌犯 A 和 B 一起犯案被抓。警察沒有直接證據，所以把兩人分開審訊，並且開出條件：

情境	B 沉默	B 認罪
A 沉默	兩人各關 1 年	A 關 3 年，B 立即釋放
A 認罪	A 立即釋放，B 關 3 年	兩人各關 2 年

你想想看——如果你 A，你怎麼選？

假設 B 會沉默 → 你認罪最好（立即釋放 vs 關 1 年）
假設 B 會認罪 → 你認罪最好（關 2 年 vs 關 3 年）

不管 B 怎麼選，你「認罪」永遠是比較好的選擇。

B 也這麼想。

所以雙方都認罪，各關 2 年——這就是「納許均衡」。

囚徒困境的策略矩陣：兩人都選擇認罪是最終結局

神奇吧？兩個人都「理性」地做了對自己最好的決定，結果卻是兩人都關 2 年——而不是兩人各關 1 年的更好結局。

這個困境直接解釋了現實中很多「明明大家合作會更好，卻偏偏陷入互相傷害」的局面：價格戰、軍備競賽、氣候變遷談判……

而且這是個真實存在的故事。1950 年，Merrill Flood 和 Melvin Dresher 在 RAND 公司設計了這個遊戲，找來經濟學家 Alchian 跟數學家 Williams 玩了 100 局，結果他們常常選擇合作。當時納什冷冷地評論：

「重複版本下的理性行為，可以跟單局版本下的不同。」

這句話預言了後來 1980 年代 Robert Axelrod 那場著名的「以牙還牙」（tit-for-tat）策略大賽。

案例二：智豬賽局（Boxed Pigs Game / Battle of the Sexes 變體）

另一個經典：

一個籠子裡有兩頭豬，邊上有個踏板。踩一下踏板，會有 10 單位飼料掉進食槽。但踩踏板的豬要走 5 步才能到食槽——這 5 步內，聰明的豬可能已經把飼料吃光了。

大豬踩踏板 → 跑過去吃 → 吃到 4 單位（被小豬搶先吃了 6）
小豬踩踏板 → 跑過去吃 → 吃到 1 單位（大豬吃光 9 單位，自己白做工還挨餓）
都不踩 → 兩人都 0
都踩 → 大豬吃 6，小豬吃 4

納許均衡是什麼？大豬踩，小豬不踩。大豬雖然吃虧（4 vs 6），但比起「都踩」的 6 和 4 之比，自己 4 還是可以接受。

這個模型在商業世界處處可見：社群平台裡的小型開發者 vs 大型公司、新興市場的小品牌 vs 既有龍頭……弱者靠「搭便車」策略存活，強者負擔基礎設施成本，這就是納許均衡。

第三章：精神分裂與重生

但納什自己的「遊戲」沒有這麼好解。

1959 年，納什開始出現幻覺。他覺得自己是「南半球的人」、相信《紐約時報》的標題在用隱形墨水跟他通訊、覺得自己被一個祕密組織跟蹤。

他在普林斯頓校園裡失蹤了好幾次，最後在 1959 年 4 月被送進 McLean 醫院。

接下來 20 多年，他一直在精神病院和普林斯頓之間來回。他不是沒試過工作，但他在普林斯頓的走廊上被視為「那個怪人」——一個曾經的天才，現在只能自言自語，偶爾在黑板上寫下沒人看得懂的符號。

他的妻子 Alicia 沒有放棄他。

雖然 1963 年他們離婚（Alicia 自己說「我必須保護自己」），但她一直讓他住在自己家附近，繼續照顧他。1970 年後，納什的病情奇蹟般地緩慢好轉。他重新開始到普林斯頓校園走動，雖然一開始只是去擺弄垃圾分類，後來他開始去聽研討會、寫一些不公開的數學筆記。

1994 年——距離他發病整整 35 年——諾貝爾經濟學獎揭曉。

他站在台上，跟 Harsanyi、Selten 一起接過那個獎牌。鏡頭轉到 Alicia，她淚流滿面。

2015 年，他跟 Louis Nirenberg 共同獲得 Abel 獎（數學界的諾貝爾獎）——距離他 1950 年那 28 頁博士論文，已經 65 年。

然後 2015 年 5 月 23 日，他和 Alicia 一起死於一場車禍。

他用一輩子證明：天才與瘋狂只有一線之隔，但康復是可能的。

第四章：AI 時代的納許

但納什的故事不只是歷史。

當你今天打開 ChatGPT、Claude、Gemini，看到這些 AI 開始會「多輪對話」、會跟其他 AI 協作、會在同一個工作流裡分工——背後的數學骨架，有一部分就是納許均衡。

多代理人強化學習（MARL）

2024 年開始，所有主流 AI 實驗室都在研究「Multi-Agent」系統：

一個 AI 寫程式
一個 AI 寫測試
一個 AI 審查
一個 AI 反思批評

這些 AI 必須協作又競爭。每個 AI 都在追求自己的目標（讓我寫的程式碼通過測試、讓我抓的 bug 最多），但它們的整體表現取決於彼此的策略。

這就是納許均衡的世界。

研究人員在訓練這樣的系統時，常常會發現一個有趣的現象：

AI 會「學會」類似囚徒困境的策略。

如果兩個 AI 都被訓練成「最大化自己得分」，它們可能陷入「互相搶功勞、把對方的程式碼改壞」的均衡——雖然團隊整體表現下降，但它們各自都無法單方面改變。

解決方案正是納許 1950 年就想到的東西：改變遊戲規則。

加上一個「共同獎勵函數」
設計「重複遊戲」（不是一次對話就跑完）
引入「第三方裁判」

這些都是現代 AI 競賽場上，OpenAI、Anthropic、Google DeepMind 投入大量研究資金的題目。

自動駕駛裡的賽局

另一個真實場景是自動駕駛。

兩台自動駕駛車在十字路口交會。它們必須決定誰先過、誰禮讓——這不是單純的「紅綠燈規則」，而是策略性互動。Google Waymo 的研究論文直接引用納許均衡來設計「保守型決策」——不求個人最快，但求整體不碰撞。

拍賣與廣告競價

你今天看到 Google Ads、Meta 廣告的「即時拍賣」——數百個廣告主在幾毫秒內對同一個曝光位置出價。這背後的 Vickrey-Clarke-Groves 拍賣理論，正是納許之後的經濟學家發展出來的機制設計（mechanism design），核心精神仍然是「設計一個遊戲，讓所有玩家的均衡對齊社會目標」。

加密貨幣與共識

區塊鏈的共識機制——Bitcoin 的工作量證明、Ethereum 的權益證明——本質上就是「讓大家在沒有中心權威的情況下達成共識」的賽局設計。

要嘛用算力讓背叛成本高於收益（PoW），要嘛用押注的代幣讓背叛者血本無歸（PoS）。

納許在 1950 年想的那個問題，正在被全球幾千萬礦工和驗證者每天「實踐」。

AI 多代理人賽局：機器之間的策略協作與競爭

第五章：賽局思維給現代人的啟示

納許的理論不只是給經濟學家和 AI 工程師用的。

它給所有在這個複雜世界打滾的人一個有用的提醒：

1. 個人最優 ≠ 集體最優

囚徒困境告訴我們：每個人都做「對自己最好」的決定，結果常常是「對所有人都不好」。

職場裡的辦公室政治、社會裡的內捦、國際間的貿易戰，都是囚徒困境。 認知到這件事，你就會開始想：怎麼改變遊戲規則，讓合作變成均衡？

2. 重複互動能產生合作

Axelrod 的研究告訴我們：只要這個遊戲是「重複的」——也就是說，別人知道你未來還會遇到他——合作就可以成為均衡。

這就是為什麼熟人社會的信任度通常比陌生社會高。也是為什麼長期客戶關係的價值遠大於一次性交易。

3. 改變規則比改變人容易

納許給我們最大的禮物不是「人是理性的」這個假設，而是「你可以改變遊戲規則，來引導人的行為」。

交通規則、稅制設計、社會制度、AI 的獎勵函數……都是「賽局設計」。

4. 納許自己教我們的事

最讓我動容的，不是那 28 頁論文，而是納許後來的人生。

他得過精神分裂，發病時相信《紐約時報》在跟他通訊。但 1970 年後他開始好轉，重新站回普林斯頓的講堂，1994 年得到諾貝爾獎，2015 年得到 Abel 獎。

天才與瘋狂的距離，有時候是時間。

結語：對局還在進行

納什 2015 年走了，但他的均衡還在影響著這個世界的每一個角落——從 Google 搜尋排序到 AI agent 協作，從你的職場升遷到國際地緣政治。

我們每個人都活在一個巨大的、持續進行的納許均衡裡。

你的同事、你的競爭對手、你孩子的同學、你的 AI 助理——他們每個人都在做「對自己最好的決定」。而你真正能做的，不是期待對方改變，而是：

看清楚這個遊戲的規則，設計出能讓「大家都選合作」變成均衡的機制。

這是納什留給我們的禮物。

也是他用一場無聲的對局，教會世界的東西。

系列文導讀 這篇文章是「納許與賽局理論」系列的第一篇。我們先用人話講完納什的故事、納許均衡的直覺、再帶到 AI 時代的應用。但這只是起點——納許 1950 年的博士論文《Non-Cooperative Games》真正厲害的地方，在於他把賽局從「兩人的小遊戲」推廣到「n 人的數學世界」，並嚴格證明了每一場有限非合作賽局都至少存在一個均衡點。

如果你讀完這篇覺得「我想知道這個均衡點到底怎麼找出來」、「為什麼很多時候有『多個均衡』」、「非合作跟合作有什麼差別」——那就是系列 2 要回答的問題。

參考資料

Wikipedia: Nash equilibrium, John Forbes Nash Jr., Prisoner's dilemma, Multi-agent reinforcement learning
Sylvia Nasar, A Beautiful Mind, 1998
Roger B. Myerson, Game Theory: Analysis of Conflict, 1991
Robert Axelrod, The Evolution of Cooperation, 1984
2024 OpenAI / Anthropic / DeepMind MARL 研究白皮書

[系列 1] 天才、瘋狂、與一場無聲的對局：約翰·納什與他的賽局理論

Table of Contents

引子：1994 年的那個夜晚

第一章：天才的誕生

西維吉尼亞小鎮的怪小孩

28 頁改變世界

第二章：什麼是納許均衡？

案例一：囚徒困境（Prisoner's Dilemma）

案例二：智豬賽局（Boxed Pigs Game / Battle of the Sexes 變體）

第三章：精神分裂與重生

第四章：AI 時代的納許

多代理人強化學習（MARL）

自動駕駛裡的賽局

拍賣與廣告競價

加密貨幣與共識

第五章：賽局思維給現代人的啟示

1. 個人最優 ≠ 集體最優

2. 重複互動能產生合作

3. 改變規則比改變人容易

4. 納許自己教我們的事

結語：對局還在進行

Other Related Posts:

[系列 2] 從兩人到 n 人：藏在納許均衡背後的數學世界 — n 人博弈與非合作賽局

Table of Contents

當 AI 助理的腦容量升到 100 萬：我們的未來會長成什麼形狀？

Table of Contents