Hero Image
- Mark

[系列 1] 天才、瘋狂、與一場無聲的對局:約翰·納什與他的賽局理論

約翰·納什在普林斯頓的黑板前思考賽局理論

📚 本系列文章

  • 系列 1(本文)— 納什的故事與納許均衡的直覺
  • 系列 2— n 人博弈中的均衡點 + 非合作博弈 → 下一篇:n 人博弈的數學世界
  • 系列 3(規劃中)— 合作博弈、Shapley 值與機制設計

引子:1994 年的那個夜晚

1994 年 10 月 11 日,斯德哥爾摩。

約翰·納什(John Forbes Nash Jr.)站在諾貝爾經濟學獎的頒獎台上。鏡頭轉向觀眾席,他的妻子 Alicia 眼裡含著淚水——因為坐在台上的那個人,30 年前還在精神病院裡,相信自己是「南半球的人」、相信《紐約時報》上的字母在用隱形墨水跟他說話。

你或許對這個名字不熟,但你一定看過 Russell Crowe 飾演的《美麗境界》(A Beautiful Mind,2001),那個在黑板前盯著一連串數字、然後突然看見隱藏規律的孤獨天才。

他得了諾貝爾獎,但世界花了 40 年才重新相信他。

他的貢獻,是 28 歲那年寫下的 28 頁博士論文——一個改變了經濟學、計算機科學、生物學、政治學、甚至今天 AI 領域的東西:

納許均衡(Nash Equilibrium)


第一章:天才的誕生

西維吉尼亞小鎮的怪小孩

1928 年 6 月 13 日,納什出生在西維吉尼亞州的布魯菲爾德(Bluefield)。一個安靜到不能再安靜的阿巴拉契亞山腳小鎮,鎮上連紅綠燈都沒幾個。

他從小就是那種「不跟其他人玩」的小孩。高中時他會帶著母親給他的課外書自學微積分,而不是去打美式足球。 Carnegie Mellon 大學的前身 Carnegie Institute of Technology 給他全額獎學金,本來要他去念化工,後來他轉到數學——因為「化學太容易了」。

1948 年,他帶著一個教授寫的推薦信進入普林斯頓,推薦信只有一句話:

"He is a mathematical genius."

那年他 20 歲。

28 頁改變世界

在普林斯頓的走廊裡,納什不是那種泡圖書館的人。他更常在公共交誼廳下西洋棋、看同學玩「海軍棋遊戲」(他後來在 RAND 公司看到類似的遊戲,正是囚徒困境的原型)。

1950 年,他交出博士論文——只有 28 頁。題目是《非合作賽局》(Non-Cooperative Games)。

他的博士論文解決了一個長期困擾經濟學家的問題:

在任何一場有限人數的遊戲中,是否存在一種「策略組合」,使得每個參與者在其他人不改變策略的前提下,自己也不想單方面改變?

答案是:一定存在

這個答案,後來被稱為「納許均衡」。


第二章:什麼是納許均衡?

用大白話講:

納許均衡是一種「穩定狀態」——在這個狀態下,每個玩家都已經做了他能做的最好選擇,沒有人能因為「單方面改變」而讓自己過得更好。

聽起來有點玄。讓我用兩個經典案例讓你秒懂。

案例一:囚徒困境(Prisoner's Dilemma)

這是賽局理論裡最出名的故事。

兩個嫌犯 A 和 B 一起犯案被抓。警察沒有直接證據,所以把兩人分開審訊,並且開出條件:

情境 B 沉默 B 認罪
A 沉默 兩人各關 1 年 A 關 3 年,B 立即釋放
A 認罪 A 立即釋放,B 關 3 年 兩人各關 2 年

你想想看——如果你 A,你怎麼選?

  • 假設 B 會沉默 → 你認罪最好(立即釋放 vs 關 1 年)
  • 假設 B 會認罪 → 你認罪最好(關 2 年 vs 關 3 年)

不管 B 怎麼選,你「認罪」永遠是比較好的選擇。

B 也這麼想。

所以雙方都認罪,各關 2 年——這就是「納許均衡」。

囚徒困境的策略矩陣:兩人都選擇認罪是最終結局

神奇吧?兩個人都「理性」地做了對自己最好的決定,結果卻是兩人都關 2 年——而不是兩人各關 1 年的更好結局。

這個困境直接解釋了現實中很多「明明大家合作會更好,卻偏偏陷入互相傷害」的局面:價格戰、軍備競賽、氣候變遷談判……

而且這是個真實存在的故事。1950 年,Merrill Flood 和 Melvin Dresher 在 RAND 公司設計了這個遊戲,找來經濟學家 Alchian 跟數學家 Williams 玩了 100 局,結果他們常常選擇合作。當時納什冷冷地評論:

「重複版本下的理性行為,可以跟單局版本下的不同。」

這句話預言了後來 1980 年代 Robert Axelrod 那場著名的「以牙還牙」(tit-for-tat)策略大賽。

案例二:智豬賽局(Boxed Pigs Game / Battle of the Sexes 變體)

另一個經典:

一個籠子裡有兩頭豬,邊上有個踏板。踩一下踏板,會有 10 單位飼料掉進食槽。但踩踏板的豬要走 5 步才能到食槽——這 5 步內,聰明的豬可能已經把飼料吃光了。

  • 大豬踩踏板 → 跑過去吃 → 吃到 4 單位(被小豬搶先吃了 6)
  • 小豬踩踏板 → 跑過去吃 → 吃到 1 單位(大豬吃光 9 單位,自己白做工還挨餓)
  • 都不踩 → 兩人都 0
  • 都踩 → 大豬吃 6,小豬吃 4

納許均衡是什麼?大豬踩,小豬不踩。大豬雖然吃虧(4 vs 6),但比起「都踩」的 6 和 4 之比,自己 4 還是可以接受。

這個模型在商業世界處處可見:社群平台裡的小型開發者 vs 大型公司、新興市場的小品牌 vs 既有龍頭……弱者靠「搭便車」策略存活,強者負擔基礎設施成本,這就是納許均衡。


第三章:精神分裂與重生

但納什自己的「遊戲」沒有這麼好解。

1959 年,納什開始出現幻覺。他覺得自己是「南半球的人」、相信《紐約時報》的標題在用隱形墨水跟他通訊、覺得自己被一個祕密組織跟蹤。

他在普林斯頓校園裡失蹤了好幾次,最後在 1959 年 4 月被送進 McLean 醫院。

接下來 20 多年,他一直在精神病院和普林斯頓之間來回。他不是沒試過工作,但他在普林斯頓的走廊上被視為「那個怪人」——一個曾經的天才,現在只能自言自語,偶爾在黑板上寫下沒人看得懂的符號。

他的妻子 Alicia 沒有放棄他。

雖然 1963 年他們離婚(Alicia 自己說「我必須保護自己」),但她一直讓他住在自己家附近,繼續照顧他。1970 年後,納什的病情奇蹟般地緩慢好轉。他重新開始到普林斯頓校園走動,雖然一開始只是去擺弄垃圾分類,後來他開始去聽研討會、寫一些不公開的數學筆記。

1994 年——距離他發病整整 35 年——諾貝爾經濟學獎揭曉。

他站在台上,跟 Harsanyi、Selten 一起接過那個獎牌。鏡頭轉到 Alicia,她淚流滿面。

2015 年,他跟 Louis Nirenberg 共同獲得 Abel 獎(數學界的諾貝爾獎)——距離他 1950 年那 28 頁博士論文,已經 65 年。

然後 2015 年 5 月 23 日,他和 Alicia 一起死於一場車禍。

他用一輩子證明:天才與瘋狂只有一線之隔,但康復是可能的。


第四章:AI 時代的納許

但納什的故事不只是歷史。

當你今天打開 ChatGPT、Claude、Gemini,看到這些 AI 開始會「多輪對話」、會跟其他 AI 協作、會在同一個工作流裡分工——背後的數學骨架,有一部分就是納許均衡

多代理人強化學習(MARL)

2024 年開始,所有主流 AI 實驗室都在研究「Multi-Agent」系統:

  • 一個 AI 寫程式
  • 一個 AI 寫測試
  • 一個 AI 審查
  • 一個 AI 反思批評

這些 AI 必須協作又競爭。每個 AI 都在追求自己的目標(讓我寫的程式碼通過測試、讓我抓的 bug 最多),但它們的整體表現取決於彼此的策略。

這就是納許均衡的世界。

研究人員在訓練這樣的系統時,常常會發現一個有趣的現象:

AI 會「學會」類似囚徒困境的策略。

如果兩個 AI 都被訓練成「最大化自己得分」,它們可能陷入「互相搶功勞、把對方的程式碼改壞」的均衡——雖然團隊整體表現下降,但它們各自都無法單方面改變。

解決方案正是納許 1950 年就想到的東西:改變遊戲規則。

  • 加上一個「共同獎勵函數」
  • 設計「重複遊戲」(不是一次對話就跑完)
  • 引入「第三方裁判」

這些都是現代 AI 競賽場上,OpenAI、Anthropic、Google DeepMind 投入大量研究資金的題目。

自動駕駛裡的賽局

另一個真實場景是自動駕駛。

兩台自動駕駛車在十字路口交會。它們必須決定誰先過、誰禮讓——這不是單純的「紅綠燈規則」,而是策略性互動。Google Waymo 的研究論文直接引用納許均衡來設計「保守型決策」——不求個人最快,但求整體不碰撞。

拍賣與廣告競價

你今天看到 Google Ads、Meta 廣告的「即時拍賣」——數百個廣告主在幾毫秒內對同一個曝光位置出價。這背後的 Vickrey-Clarke-Groves 拍賣理論,正是納許之後的經濟學家發展出來的機制設計(mechanism design),核心精神仍然是「設計一個遊戲,讓所有玩家的均衡對齊社會目標」。

加密貨幣與共識

區塊鏈的共識機制——Bitcoin 的工作量證明、Ethereum 的權益證明——本質上就是「讓大家在沒有中心權威的情況下達成共識」的賽局設計

要嘛用算力讓背叛成本高於收益(PoW),要嘛用押注的代幣讓背叛者血本無歸(PoS)。

納許在 1950 年想的那個問題,正在被全球幾千萬礦工和驗證者每天「實踐」。

AI 多代理人賽局:機器之間的策略協作與競爭


第五章:賽局思維給現代人的啟示

納許的理論不只是給經濟學家和 AI 工程師用的。

它給所有在這個複雜世界打滾的人一個有用的提醒:

1. 個人最優 ≠ 集體最優

囚徒困境告訴我們:每個人都做「對自己最好」的決定,結果常常是「對所有人都不好」。

職場裡的辦公室政治、社會裡的內捦、國際間的貿易戰,都是囚徒困境。 認知到這件事,你就會開始想:怎麼改變遊戲規則,讓合作變成均衡?

2. 重複互動能產生合作

Axelrod 的研究告訴我們:只要這個遊戲是「重複的」——也就是說,別人知道你未來還會遇到他——合作就可以成為均衡。

這就是為什麼熟人社會的信任度通常比陌生社會高。也是為什麼長期客戶關係的價值遠大於一次性交易。

3. 改變規則比改變人容易

納許給我們最大的禮物不是「人是理性的」這個假設,而是「你可以改變遊戲規則,來引導人的行為」

交通規則、稅制設計、社會制度、AI 的獎勵函數……都是「賽局設計」。

4. 納許自己教我們的事

最讓我動容的,不是那 28 頁論文,而是納許後來的人生。

他得過精神分裂,發病時相信《紐約時報》在跟他通訊。但 1970 年後他開始好轉,重新站回普林斯頓的講堂,1994 年得到諾貝爾獎,2015 年得到 Abel 獎。

天才與瘋狂的距離,有時候是時間。


結語:對局還在進行

納什 2015 年走了,但他的均衡還在影響著這個世界的每一個角落——從 Google 搜尋排序到 AI agent 協作,從你的職場升遷到國際地緣政治。

我們每個人都活在一個巨大的、持續進行的納許均衡裡。

你的同事、你的競爭對手、你孩子的同學、你的 AI 助理——他們每個人都在做「對自己最好的決定」。而你真正能做的,不是期待對方改變,而是:

看清楚這個遊戲的規則,設計出能讓「大家都選合作」變成均衡的機制。

這是納什留給我們的禮物。

也是他用一場無聲的對局,教會世界的東西。


系列文導讀 這篇文章是「納許與賽局理論」系列的第一篇。我們先用人話講完納什的故事、納許均衡的直覺、再帶到 AI 時代的應用。但這只是起點——納許 1950 年的博士論文《Non-Cooperative Games》真正厲害的地方,在於他把賽局從「兩人的小遊戲」推廣到「n 人的數學世界」,並嚴格證明了每一場有限非合作賽局都至少存在一個均衡點

如果你讀完這篇覺得「我想知道這個均衡點到底怎麼找出來」、「為什麼很多時候有『多個均衡』」、「非合作跟合作有什麼差別」——那就是系列 2 要回答的問題。


參考資料

  • Wikipedia: Nash equilibrium, John Forbes Nash Jr., Prisoner's dilemma, Multi-agent reinforcement learning
  • Sylvia Nasar, A Beautiful Mind, 1998
  • Roger B. Myerson, Game Theory: Analysis of Conflict, 1991
  • Robert Axelrod, The Evolution of Cooperation, 1984
  • 2024 OpenAI / Anthropic / DeepMind MARL 研究白皮書

Other Related Posts: