
📚 本系列文章
- 系列 1(本文)— 納什的故事與納許均衡的直覺
- 系列 2— n 人博弈中的均衡點 + 非合作博弈 → 下一篇:n 人博弈的數學世界
- 系列 3(規劃中)— 合作博弈、Shapley 值與機制設計
Table of Contents
引子:1994 年的那個夜晚
1994 年 10 月 11 日,斯德哥爾摩。
約翰·納什(John Forbes Nash Jr.)站在諾貝爾經濟學獎的頒獎台上。鏡頭轉向觀眾席,他的妻子 Alicia 眼裡含著淚水——因為坐在台上的那個人,30 年前還在精神病院裡,相信自己是「南半球的人」、相信《紐約時報》上的字母在用隱形墨水跟他說話。
你或許對這個名字不熟,但你一定看過 Russell Crowe 飾演的《美麗境界》(A Beautiful Mind,2001),那個在黑板前盯著一連串數字、然後突然看見隱藏規律的孤獨天才。
他得了諾貝爾獎,但世界花了 40 年才重新相信他。
他的貢獻,是 28 歲那年寫下的 28 頁博士論文——一個改變了經濟學、計算機科學、生物學、政治學、甚至今天 AI 領域的東西:
納許均衡(Nash Equilibrium)。
第一章:天才的誕生
西維吉尼亞小鎮的怪小孩
1928 年 6 月 13 日,納什出生在西維吉尼亞州的布魯菲爾德(Bluefield)。一個安靜到不能再安靜的阿巴拉契亞山腳小鎮,鎮上連紅綠燈都沒幾個。
他從小就是那種「不跟其他人玩」的小孩。高中時他會帶著母親給他的課外書自學微積分,而不是去打美式足球。 Carnegie Mellon 大學的前身 Carnegie Institute of Technology 給他全額獎學金,本來要他去念化工,後來他轉到數學——因為「化學太容易了」。
1948 年,他帶著一個教授寫的推薦信進入普林斯頓,推薦信只有一句話:
"He is a mathematical genius."
那年他 20 歲。
28 頁改變世界
在普林斯頓的走廊裡,納什不是那種泡圖書館的人。他更常在公共交誼廳下西洋棋、看同學玩「海軍棋遊戲」(他後來在 RAND 公司看到類似的遊戲,正是囚徒困境的原型)。
1950 年,他交出博士論文——只有 28 頁。題目是《非合作賽局》(Non-Cooperative Games)。
他的博士論文解決了一個長期困擾經濟學家的問題:
在任何一場有限人數的遊戲中,是否存在一種「策略組合」,使得每個參與者在其他人不改變策略的前提下,自己也不想單方面改變?
答案是:一定存在。
這個答案,後來被稱為「納許均衡」。
第二章:什麼是納許均衡?
用大白話講:
納許均衡是一種「穩定狀態」——在這個狀態下,每個玩家都已經做了他能做的最好選擇,沒有人能因為「單方面改變」而讓自己過得更好。
聽起來有點玄。讓我用兩個經典案例讓你秒懂。
案例一:囚徒困境(Prisoner's Dilemma)
這是賽局理論裡最出名的故事。
兩個嫌犯 A 和 B 一起犯案被抓。警察沒有直接證據,所以把兩人分開審訊,並且開出條件:
| 情境 | B 沉默 | B 認罪 |
|---|---|---|
| A 沉默 | 兩人各關 1 年 | A 關 3 年,B 立即釋放 |
| A 認罪 | A 立即釋放,B 關 3 年 | 兩人各關 2 年 |
你想想看——如果你 A,你怎麼選?
- 假設 B 會沉默 → 你認罪最好(立即釋放 vs 關 1 年)
- 假設 B 會認罪 → 你認罪最好(關 2 年 vs 關 3 年)
不管 B 怎麼選,你「認罪」永遠是比較好的選擇。
B 也這麼想。
所以雙方都認罪,各關 2 年——這就是「納許均衡」。

神奇吧?兩個人都「理性」地做了對自己最好的決定,結果卻是兩人都關 2 年——而不是兩人各關 1 年的更好結局。
這個困境直接解釋了現實中很多「明明大家合作會更好,卻偏偏陷入互相傷害」的局面:價格戰、軍備競賽、氣候變遷談判……
而且這是個真實存在的故事。1950 年,Merrill Flood 和 Melvin Dresher 在 RAND 公司設計了這個遊戲,找來經濟學家 Alchian 跟數學家 Williams 玩了 100 局,結果他們常常選擇合作。當時納什冷冷地評論:
「重複版本下的理性行為,可以跟單局版本下的不同。」
這句話預言了後來 1980 年代 Robert Axelrod 那場著名的「以牙還牙」(tit-for-tat)策略大賽。
案例二:智豬賽局(Boxed Pigs Game / Battle of the Sexes 變體)
另一個經典:
一個籠子裡有兩頭豬,邊上有個踏板。踩一下踏板,會有 10 單位飼料掉進食槽。但踩踏板的豬要走 5 步才能到食槽——這 5 步內,聰明的豬可能已經把飼料吃光了。
- 大豬踩踏板 → 跑過去吃 → 吃到 4 單位(被小豬搶先吃了 6)
- 小豬踩踏板 → 跑過去吃 → 吃到 1 單位(大豬吃光 9 單位,自己白做工還挨餓)
- 都不踩 → 兩人都 0
- 都踩 → 大豬吃 6,小豬吃 4
納許均衡是什麼?大豬踩,小豬不踩。大豬雖然吃虧(4 vs 6),但比起「都踩」的 6 和 4 之比,自己 4 還是可以接受。
這個模型在商業世界處處可見:社群平台裡的小型開發者 vs 大型公司、新興市場的小品牌 vs 既有龍頭……弱者靠「搭便車」策略存活,強者負擔基礎設施成本,這就是納許均衡。
第三章:精神分裂與重生
但納什自己的「遊戲」沒有這麼好解。
1959 年,納什開始出現幻覺。他覺得自己是「南半球的人」、相信《紐約時報》的標題在用隱形墨水跟他通訊、覺得自己被一個祕密組織跟蹤。
他在普林斯頓校園裡失蹤了好幾次,最後在 1959 年 4 月被送進 McLean 醫院。
接下來 20 多年,他一直在精神病院和普林斯頓之間來回。他不是沒試過工作,但他在普林斯頓的走廊上被視為「那個怪人」——一個曾經的天才,現在只能自言自語,偶爾在黑板上寫下沒人看得懂的符號。
他的妻子 Alicia 沒有放棄他。
雖然 1963 年他們離婚(Alicia 自己說「我必須保護自己」),但她一直讓他住在自己家附近,繼續照顧他。1970 年後,納什的病情奇蹟般地緩慢好轉。他重新開始到普林斯頓校園走動,雖然一開始只是去擺弄垃圾分類,後來他開始去聽研討會、寫一些不公開的數學筆記。
1994 年——距離他發病整整 35 年——諾貝爾經濟學獎揭曉。
他站在台上,跟 Harsanyi、Selten 一起接過那個獎牌。鏡頭轉到 Alicia,她淚流滿面。
2015 年,他跟 Louis Nirenberg 共同獲得 Abel 獎(數學界的諾貝爾獎)——距離他 1950 年那 28 頁博士論文,已經 65 年。
然後 2015 年 5 月 23 日,他和 Alicia 一起死於一場車禍。
他用一輩子證明:天才與瘋狂只有一線之隔,但康復是可能的。
第四章:AI 時代的納許
但納什的故事不只是歷史。
當你今天打開 ChatGPT、Claude、Gemini,看到這些 AI 開始會「多輪對話」、會跟其他 AI 協作、會在同一個工作流裡分工——背後的數學骨架,有一部分就是納許均衡。
多代理人強化學習(MARL)
2024 年開始,所有主流 AI 實驗室都在研究「Multi-Agent」系統:
- 一個 AI 寫程式
- 一個 AI 寫測試
- 一個 AI 審查
- 一個 AI 反思批評
這些 AI 必須協作又競爭。每個 AI 都在追求自己的目標(讓我寫的程式碼通過測試、讓我抓的 bug 最多),但它們的整體表現取決於彼此的策略。
這就是納許均衡的世界。
研究人員在訓練這樣的系統時,常常會發現一個有趣的現象:
AI 會「學會」類似囚徒困境的策略。
如果兩個 AI 都被訓練成「最大化自己得分」,它們可能陷入「互相搶功勞、把對方的程式碼改壞」的均衡——雖然團隊整體表現下降,但它們各自都無法單方面改變。
解決方案正是納許 1950 年就想到的東西:改變遊戲規則。
- 加上一個「共同獎勵函數」
- 設計「重複遊戲」(不是一次對話就跑完)
- 引入「第三方裁判」
這些都是現代 AI 競賽場上,OpenAI、Anthropic、Google DeepMind 投入大量研究資金的題目。
自動駕駛裡的賽局
另一個真實場景是自動駕駛。
兩台自動駕駛車在十字路口交會。它們必須決定誰先過、誰禮讓——這不是單純的「紅綠燈規則」,而是策略性互動。Google Waymo 的研究論文直接引用納許均衡來設計「保守型決策」——不求個人最快,但求整體不碰撞。
拍賣與廣告競價
你今天看到 Google Ads、Meta 廣告的「即時拍賣」——數百個廣告主在幾毫秒內對同一個曝光位置出價。這背後的 Vickrey-Clarke-Groves 拍賣理論,正是納許之後的經濟學家發展出來的機制設計(mechanism design),核心精神仍然是「設計一個遊戲,讓所有玩家的均衡對齊社會目標」。
加密貨幣與共識
區塊鏈的共識機制——Bitcoin 的工作量證明、Ethereum 的權益證明——本質上就是「讓大家在沒有中心權威的情況下達成共識」的賽局設計。
要嘛用算力讓背叛成本高於收益(PoW),要嘛用押注的代幣讓背叛者血本無歸(PoS)。
納許在 1950 年想的那個問題,正在被全球幾千萬礦工和驗證者每天「實踐」。

第五章:賽局思維給現代人的啟示
納許的理論不只是給經濟學家和 AI 工程師用的。
它給所有在這個複雜世界打滾的人一個有用的提醒:
1. 個人最優 ≠ 集體最優
囚徒困境告訴我們:每個人都做「對自己最好」的決定,結果常常是「對所有人都不好」。
職場裡的辦公室政治、社會裡的內捦、國際間的貿易戰,都是囚徒困境。 認知到這件事,你就會開始想:怎麼改變遊戲規則,讓合作變成均衡?
2. 重複互動能產生合作
Axelrod 的研究告訴我們:只要這個遊戲是「重複的」——也就是說,別人知道你未來還會遇到他——合作就可以成為均衡。
這就是為什麼熟人社會的信任度通常比陌生社會高。也是為什麼長期客戶關係的價值遠大於一次性交易。
3. 改變規則比改變人容易
納許給我們最大的禮物不是「人是理性的」這個假設,而是「你可以改變遊戲規則,來引導人的行為」。
交通規則、稅制設計、社會制度、AI 的獎勵函數……都是「賽局設計」。
4. 納許自己教我們的事
最讓我動容的,不是那 28 頁論文,而是納許後來的人生。
他得過精神分裂,發病時相信《紐約時報》在跟他通訊。但 1970 年後他開始好轉,重新站回普林斯頓的講堂,1994 年得到諾貝爾獎,2015 年得到 Abel 獎。
天才與瘋狂的距離,有時候是時間。
結語:對局還在進行
納什 2015 年走了,但他的均衡還在影響著這個世界的每一個角落——從 Google 搜尋排序到 AI agent 協作,從你的職場升遷到國際地緣政治。
我們每個人都活在一個巨大的、持續進行的納許均衡裡。
你的同事、你的競爭對手、你孩子的同學、你的 AI 助理——他們每個人都在做「對自己最好的決定」。而你真正能做的,不是期待對方改變,而是:
看清楚這個遊戲的規則,設計出能讓「大家都選合作」變成均衡的機制。
這是納什留給我們的禮物。
也是他用一場無聲的對局,教會世界的東西。
系列文導讀 這篇文章是「納許與賽局理論」系列的第一篇。我們先用人話講完納什的故事、納許均衡的直覺、再帶到 AI 時代的應用。但這只是起點——納許 1950 年的博士論文《Non-Cooperative Games》真正厲害的地方,在於他把賽局從「兩人的小遊戲」推廣到「n 人的數學世界」,並嚴格證明了每一場有限非合作賽局都至少存在一個均衡點。
如果你讀完這篇覺得「我想知道這個均衡點到底怎麼找出來」、「為什麼很多時候有『多個均衡』」、「非合作跟合作有什麼差別」——那就是系列 2 要回答的問題。
參考資料
- Wikipedia: Nash equilibrium, John Forbes Nash Jr., Prisoner's dilemma, Multi-agent reinforcement learning
- Sylvia Nasar, A Beautiful Mind, 1998
- Roger B. Myerson, Game Theory: Analysis of Conflict, 1991
- Robert Axelrod, The Evolution of Cooperation, 1984
- 2024 OpenAI / Anthropic / DeepMind MARL 研究白皮書