當AI代理人能寫程式、能讀你的Gmail、能把策略文件直接推到Notion,你打開電腦看到的第一個畫面,會不會就是它?

「Codex 3個月、6個月前還是垃圾。如果OpenAI的人在這通電話上聽到,我100%還是這句話。」商業寫作平台Every創辦人兼CEO丹.希普(Dan Shipper)在5月6日的Codex Camp直播裡,當著兩百多位訂戶這樣說。

但他的下一句話卻180度反轉:「但我現在每天打開電腦,第一個開的應用程式就是Codex。」

這段內部翻轉,發生的時間點剛好卡在OpenAI 4月23日發表GPT-5.5、5月5日推出GPT-5.5 Instant的當口。希普與Every成長主管Austin用一場60分鐘的對談,把這場「從Anthropic改投OpenAI」的個人決定講清楚,但訊號其實不在「Codex比Claude Code強」這層比較,而在他丟出的另一句判斷上:

「現在浮現的是一種新作業系統,一個專門用來管理代理人的工作介面(agent management interface),這場競賽會決定你未來在哪裡完成工作。」

換言之,希普看到的不是工具切換,是一張全新桌面正在被4家模型公司同時搶下。Anthropic押Claude Code、Claude for Work,OpenAI押Codex桌面App,xAI在4月底與Cursor簽下100億美元戰略合作、附帶最高600億美元的收購選擇權(彭博社、CNBC報導,目前仍未正式完成收購),Google則推出代理人優先的IDE「Antigravity」搶位。

誰拿下這層surface,誰就拿下知識工作者打開電腦看到的第一個畫面。

代理人桌面爭霸戰:4家模型公司的押注

公司 押注產品 戰略亮點
Anthropic Claude Code、Claude for Work 最早證明能寫程式的代理人,能做任何形式的知識工作。
OpenAI Codex桌面App 3個月硬轉向,從工程師工具改寫成寫作、招募、營運全職能App。
xAI 與Cursor戰略合作 100億美元戰略合作+最高600億美元收購選擇權(仍未完成)。
Google Antigravity IDE 推出代理人優先的IDE搶占桌面surface。

資料整理時間:2026年5月

從「資深工程師的私房工具」變成知識工作者的日常駕駛車

要懂Codex為何能在3個月內被希普捧成「日常駕駛車」,得先把時間軸倒回去。

GPT-5時代,OpenAI的內部分工很清楚,一般人在ChatGPT寫vibe coding(口語下指令、AI自動寫程式的編碼風格),資深工程師才開Codex做pair programming。希普回憶當時的Codex「沒有情商,會跟你吵架,讓你覺得自己很笨」,被刻意限制在沙盒裡。

真正翻轉這個分工的是Anthropic。

希普的觀察是,Anthropic證明了一件事,一個夠快、夠聰明、又有情商、能存取你電腦的模型,對程式設計師是極佳體驗;而既然它能自己寫軟體,就能做任何形式的知識工作。Claude Code因此從工程師工具長成跨職能代理人,Claude for Work把同一套邏輯擴張到行銷、業務、營運。

OpenAI過去3個月對Codex做了希普口中的「硬轉向」,從只給工程師、變成寫作、招募、跑營運都能用的桌面App。「我用它做深度工程、寫文章、找人才。」希普說。

為什麼是Codex桌面App,而不是Claude?

Every成長主管Austin的故事,是更具體的對照樣本。

2025年底到今年1月,Austin在CLI(命令列介面)裡把Claude Code接到所有工具,週末連續12小時不出門,就為了把Codex之前不能解的工作流跑通。他形容那是自己的「agentpill moment」,第一次相信代理人能接管知識工作。

到了2月,希普推他試Codex。Austin第一次使用就被勸退,「它問我3個技術選項要選哪一個,我完全聽不懂,回問為什麼,Codex回我『為什麼你不直接照我推的做』。」那次他得到的結論是,「沒有什麼比2個月前的Codex更能讓我覺得自己很笨。」

真正的轉折是GPT-5.5。Every一個月前拿到提前試用,Austin發現除了設計工作他仍然信任Claude Opus之外,模型本身已經和Anthropic至少打平

但讓他「全面搬家」的不是模型,是App本體。「我從來沒成功讓Claude for Work在我這邊跑起來。」Austin說,Codex桌面App的速度、子代理(sub agent,把任務拆給多個代理人並行的功能)品質、自動化推送的順暢度,是Anthropic桌面App目前還沒追上的細節。

「我現在80%的工作時間都在Codex裡。它幫我從Gmail、Slack、Notion、Stripe拉資料,今天早上我說『幫我做這場Camp的流程表』,它知道去哪找、推到Notion、丟到Slack,完美。」Austin這樣說。

希普補了一個工程師會懂的觀察,2家公司其實看到同一個終局,未來1、2年會像賽馬一樣,每隔幾週輪流領先;現在切換成本還不算高,但等生態真的長出來,你選定的代理人桌面App,會像10年前選iOS還是Android那樣,把你綁進整個工作生態。

Every是怎麼用代理人的?2條最反直覺的工作流

希普與Austin在直播裡demo了6種真實工作流。其中2條最值得讀者抄走,一條翻轉人跟工具講話的方向,另一條揭示代理人決策鏈的隱藏風險。

讓代理人告訴你工具該怎麼用

Austin開新對話時,第一句常常不是下指令,而是反問Codex「請看看我最常用Notion、Slack、Gmail做什麼,建議幾個自動化。」Codex會回提「跟進雷達」「事件指揮中心」「招募流程追蹤」等選項,由Austin選一個再執行。

希普對此下了一個值得記下來的結論,「讓一個前沿模型告訴你『這個工具該怎麼用』,會比自己想破頭快太多。」這個微小的開場句切換,其實顛覆了過去10年的SaaS邏輯。

以前是「我有目的、工具幫我達成」,現在是「我有原料、模型告訴我能做什麼」。對任何還在用「打開10個分頁」工作的人,這就是思維升級的入口。

KPI儀表板:3%誤差會讓下游全歪

Austin想做一份所有代理人都能讀的Notion即時KPI表,要求Codex一次到位,誤差落在5~10%。他立刻退回手動驗證,原則只有一條「只要源頭資料有3%誤差,整個代理人鏈下游的決策都會歪掉。」

要理解這個數據誤差所導致的問題,你可以想像你開一間飲料店,並請一整串「代理人」幫你做決策:

  • 第一個代理人每天看POS數據,以觀察哪一款飲料賣最好,順便算飲料的「平均甜度」。
  • 第二個代理人看這個「平均甜度」,自動設計新品、排下季菜單。
  • 第三個代理人拿新品菜單去算進貨量,決定要叫多少糖漿和茶葉。

結果,因為一開始POS設定就錯了3%誤差,所以本來點「微糖」的客人,有3%被記成「半糖」。

這3%看起來很小,但往下會變這樣:

  • 第一層:報表顯示「客人其實喜歡再甜一點」,平均甜度被拉高。
  • 第二層:設計新品的代理人以為「市場愛重甜」,新品全都比現在再甜一級。
  • 第三層:進貨的代理人看到「未來菜單都偏甜」,就多叫一堆糖漿、少叫茶葉。

最後的結果是,新品一堆都偏甜、庫存裡糖漿爆多、茶葉常缺貨。

每個代理人看起來都只是「照數據做出合理調整」,但因為一開始那3%就是錯的,大家都在很認真地順著錯的方向前進,整條決策鏈就一起被帶歪了。

這條警示對任何想把代理人接到報表系統的公司都重要,當代理人開始為其他代理人提供資料,誤差會在鏈條中複合放大,不是線性增加。值得貼在每個編輯部、行銷部、營運團隊的牆上。

其餘4條工作流,把整套工作環境變成資料夾、代理人寫草稿人類完稿、GTM計畫5分鐘出底稿、招募變成大海撈針。

Every 6種代理人工作流

工作流 一句話精華
整套工作環境變成資料夾 API金鑰、公司專案說明、審稿代理人全放進「every growth OS」單一資料夾,所有工作從這裡長出來。
先讓代理人腦力激盪 不直接下命令,先讓Codex從Notion、Slack、Gmail看你怎麼工作,由它提自動化建議再選。
代理人寫草稿、人類完稿 Codex先在Slack draft、Gmail留草稿,使用者切換到原生介面才點送出,保留人對人的判斷瞬間。
GTM計畫5分鐘出底稿 會議逐字稿、Slack討論、過去模板全餵Codex,跑「複合工程」3段流程,輸出80~90%就位的proof doc。
招募變成「大海撈針」 用具體假設(如「2010年代General Assembly校友後轉AI」)讓代理人撈出名單,過去要靠獵頭跑2週。
KPI儀表板逐欄手動驗證 代理人做KPI表初版誤差5~10%,必須退回手動驗證,源頭3%誤差會讓下游決策歪掉。

資料來源:Every共同創辦人Dan Shipper Codex Camp直播分享。

「不是寫給人看,是寫給人透過代理人讀」

這場直播裡最值得記下來的,是希普對工作本質的重新定義:

「你大部分上班時間,其實是把你已經想過的東西,轉成別人能讀的格式。重要的是先把思考做完。」

過去寫一份策略文件是花一整天打字,現在用語音App Monologue口述、丟給Codex整理,自己只負責確認每個bullet point是否站得住。希普對團隊立了一條規矩,你交出的代理人寫的文件,會議上有人問細節,不能說「啊我不知道有寫這個」,被抓包就完了。

為了避免這種翻車,Every在Codex的專案檔裡放了規則「不要自己加沒在別處出現過的內容」「想到新建議丟到chat就好,不要塞進文件」。這條設計把AI從「會幻想的助理」拉回「會整理的祕書」。

更進一步,希普指出一個被多數公司忽略的轉變,文件的讀者已經從「人」變成「人透過代理人」。

Every的COO Brandon拿到Austin的GTM計畫,第一個動作不是讀,而是叫自己的代理人「幫我摘要、抽商業案、列我要負責的章節」。文件的可被代理人解析能力(agent-readability),開始比文字優美度更重要。Every為此推出自家產品Proof,一個用markdown在團隊之間傳遞、讓代理人直接讀的介面。

這場「桌面App戰爭」意味著什麼?

希普與Austin的觀察不是中立評論,他們是OpenAI的深度使用者與生態共建者,講話有立場。但把立場剝掉,這場對談指向3個值得台灣讀者放在心上的趨勢。

1.代理人正在重定義「打開電腦做什麼」這件事

過去10年知識工作的入口是瀏覽器與SaaS儀表板,未來10年的入口很可能是一個能看到、能點、能跨App操作的代理人桌面。誰先把這個surface設計成最順手的版本,就拿下未來通用作業系統級別的話語權。

2.工具切換速度會持續以「季」為單位

Austin從Claude Code全面搬到Codex用了3個月,希普則建議「每隔幾週測試一次競品」。對一般企業而言,這意味著「選定一家供應商一路走到底」的策略風險變高,編輯部、行銷部、營運團隊都該保留每季至少一天的「玩工具時間」。Every自己每年辦2次「Think Week」,整週停掉日常工作只為了學新東西。

3.文件設計要開始為代理人讀者服務

過去寫策略文件想著CEO怎麼看、怎麼讓他2分鐘抓重點;以後要多想一層,CEO的代理人怎麼解析這份文件。markdown、清晰章節、明確bulletpoint、可被機器引用的段落結構,會從「工程師的偏好」變成「跨部門通用標準」。

希普在直播尾聲說了一句話,值得貼在每個編輯部的牆上:「工具與工作流變得太快,光跟著現在的工作方式跑,會被用新工具新範式的人靠預設值打敗。」

*本文出自《數位時代》,原文標題:Codex是新一代作業系統?新創CEO實測6種AI工作流,他為何甘願從Claude Code投奔Codex?

延伸閱讀:
自己的AI助理自己養!OpenAI工程師曝5大Codex進階用法,打造「專屬AI貼身特助」
執行長都這樣用AI!12位CEO親揭工作術:讓AI當幕僚長、情報蒐集、沙盤推演難關⋯

責任編輯:陳芊吟
核稿編輯:倪旻勤