新創CEO實測6種AI代理工作流，他為何從Claude Code投奔Codex？

2026/05/27

2,945

新創CEO實測6種AI代理工作流，他為何從Claude Code投奔Codex？ — Codex是新一代作業系統？新創CEO實測6種AI工作流。(來源：數位時代)

摘要

AI代理人正從「寫程式工具」變成新的工作入口，OpenAI、Anthropic、Google與xAI都在搶占未來知識工作者的桌面介面。
Every團隊發現，AI最有價值的不是直接取代人，而是幫忙整理資訊、生成草稿、串接Notion與Slack等工作流程，大幅降低溝通與執行成本。
隨著AI代理人開始參與決策，企業未來不只要學會使用AI，也要重新設計文件、數據與工作流程，避免錯誤資訊在代理人鏈中被持續放大。

當AI代理人能寫程式、能讀你的Gmail、能把策略文件直接推到Notion，你打開電腦看到的第一個畫面，會不會就是它？

「Codex 3個月、6個月前還是垃圾。如果OpenAI的人在這通電話上聽到，我100%還是這句話。」商業寫作平台Every創辦人兼CEO丹．希普（Dan Shipper）在5月6日的Codex Camp直播裡，當著兩百多位訂戶這樣說。

但他的下一句話卻180度反轉：「但我現在每天打開電腦，第一個開的應用程式就是Codex。」

這段內部翻轉，發生的時間點剛好卡在OpenAI 4月23日發表GPT-5.5、5月5日推出GPT-5.5 Instant的當口。希普與Every成長主管Austin用一場60分鐘的對談，把這場「從Anthropic改投OpenAI」的個人決定講清楚，但訊號其實不在「Codex比Claude Code強」這層比較，而在他丟出的另一句判斷上：

「現在浮現的是一種新作業系統，一個專門用來管理代理人的工作介面（agent management interface），這場競賽會決定你未來在哪裡完成工作。」

換言之，希普看到的不是工具切換，是一張全新桌面正在被4家模型公司同時搶下。Anthropic押Claude Code、Claude for Work，OpenAI押Codex桌面App，xAI在4月底與Cursor簽下100億美元戰略合作、附帶最高600億美元的收購選擇權（彭博社、CNBC報導，目前仍未正式完成收購），Google則推出代理人優先的IDE「Antigravity」搶位。

誰拿下這層surface，誰就拿下知識工作者打開電腦看到的第一個畫面。

代理人桌面爭霸戰：4家模型公司的押注

公司	押注產品	戰略亮點
Anthropic	Claude Code、Claude for Work	最早證明能寫程式的代理人，能做任何形式的知識工作。
OpenAI	Codex桌面App	3個月硬轉向，從工程師工具改寫成寫作、招募、營運全職能App。
xAI	與Cursor戰略合作	100億美元戰略合作＋最高600億美元收購選擇權（仍未完成）。
Google	Antigravity IDE	推出代理人優先的IDE搶占桌面surface。

資料整理時間：2026年5月

從「資深工程師的私房工具」變成知識工作者的日常駕駛車

要懂Codex為何能在3個月內被希普捧成「日常駕駛車」，得先把時間軸倒回去。

GPT-5時代，OpenAI的內部分工很清楚，一般人在ChatGPT寫vibe coding（口語下指令、AI自動寫程式的編碼風格），資深工程師才開Codex做pair programming。希普回憶當時的Codex「沒有情商，會跟你吵架，讓你覺得自己很笨」，被刻意限制在沙盒裡。

真正翻轉這個分工的是Anthropic。

希普的觀察是，Anthropic證明了一件事，一個夠快、夠聰明、又有情商、能存取你電腦的模型，對程式設計師是極佳體驗；而既然它能自己寫軟體，就能做任何形式的知識工作。Claude Code因此從工程師工具長成跨職能代理人，Claude for Work把同一套邏輯擴張到行銷、業務、營運。

OpenAI過去3個月對Codex做了希普口中的「硬轉向」，從只給工程師、變成寫作、招募、跑營運都能用的桌面App。「我用它做深度工程、寫文章、找人才。」希普說。

為什麼是Codex桌面App，而不是Claude？

Every成長主管Austin的故事，是更具體的對照樣本。

2025年底到今年1月，Austin在CLI（命令列介面）裡把Claude Code接到所有工具，週末連續12小時不出門，就為了把Codex之前不能解的工作流跑通。他形容那是自己的「agentpill moment」，第一次相信代理人能接管知識工作。

到了2月，希普推他試Codex。Austin第一次使用就被勸退，「它問我3個技術選項要選哪一個，我完全聽不懂，回問為什麼，Codex回我『為什麼你不直接照我推的做』。」那次他得到的結論是，「沒有什麼比2個月前的Codex更能讓我覺得自己很笨。」

真正的轉折是GPT-5.5。Every一個月前拿到提前試用，Austin發現除了設計工作他仍然信任Claude Opus之外，模型本身已經和Anthropic至少打平。

但讓他「全面搬家」的不是模型，是App本體。「我從來沒成功讓Claude for Work在我這邊跑起來。」Austin說，Codex桌面App的速度、子代理（sub agent，把任務拆給多個代理人並行的功能）品質、自動化推送的順暢度，是Anthropic桌面App目前還沒追上的細節。

「我現在80%的工作時間都在Codex裡。它幫我從Gmail、Slack、Notion、Stripe拉資料，今天早上我說『幫我做這場Camp的流程表』，它知道去哪找、推到Notion、丟到Slack，完美。」Austin這樣說。

希普補了一個工程師會懂的觀察，2家公司其實看到同一個終局，未來1、2年會像賽馬一樣，每隔幾週輪流領先；現在切換成本還不算高，但等生態真的長出來，你選定的代理人桌面App，會像10年前選iOS還是Android那樣，把你綁進整個工作生態。

Every是怎麼用代理人的？2條最反直覺的工作流

希普與Austin在直播裡demo了6種真實工作流。其中2條最值得讀者抄走，一條翻轉人跟工具講話的方向，另一條揭示代理人決策鏈的隱藏風險。

讓代理人告訴你工具該怎麼用

Austin開新對話時，第一句常常不是下指令，而是反問Codex「請看看我最常用Notion、Slack、Gmail做什麼，建議幾個自動化。」Codex會回提「跟進雷達」「事件指揮中心」「招募流程追蹤」等選項，由Austin選一個再執行。

希普對此下了一個值得記下來的結論，「讓一個前沿模型告訴你『這個工具該怎麼用』，會比自己想破頭快太多。」這個微小的開場句切換，其實顛覆了過去10年的SaaS邏輯。

以前是「我有目的、工具幫我達成」，現在是「我有原料、模型告訴我能做什麼」。對任何還在用「打開10個分頁」工作的人，這就是思維升級的入口。

KPI儀表板：3%誤差會讓下游全歪

Austin想做一份所有代理人都能讀的Notion即時KPI表，要求Codex一次到位，誤差落在5～10%。他立刻退回手動驗證，原則只有一條「只要源頭資料有3%誤差，整個代理人鏈下游的決策都會歪掉。」

要理解這個數據誤差所導致的問題，你可以想像你開一間飲料店，並請一整串「代理人」幫你做決策：

第一個代理人每天看POS數據，以觀察哪一款飲料賣最好，順便算飲料的「平均甜度」。
第二個代理人看這個「平均甜度」，自動設計新品、排下季菜單。
第三個代理人拿新品菜單去算進貨量，決定要叫多少糖漿和茶葉。

結果，因為一開始POS設定就錯了3%誤差，所以本來點「微糖」的客人，有3%被記成「半糖」。

這3%看起來很小，但往下會變這樣：

第一層：報表顯示「客人其實喜歡再甜一點」，平均甜度被拉高。
第二層：設計新品的代理人以為「市場愛重甜」，新品全都比現在再甜一級。
第三層：進貨的代理人看到「未來菜單都偏甜」，就多叫一堆糖漿、少叫茶葉。

最後的結果是，新品一堆都偏甜、庫存裡糖漿爆多、茶葉常缺貨。

每個代理人看起來都只是「照數據做出合理調整」，但因為一開始那3%就是錯的，大家都在很認真地順著錯的方向前進，整條決策鏈就一起被帶歪了。

這條警示對任何想把代理人接到報表系統的公司都重要，當代理人開始為其他代理人提供資料，誤差會在鏈條中複合放大，不是線性增加。值得貼在每個編輯部、行銷部、營運團隊的牆上。

其餘4條工作流，把整套工作環境變成資料夾、代理人寫草稿人類完稿、GTM計畫5分鐘出底稿、招募變成大海撈針。

Every 6種代理人工作流

工作流	一句話精華
整套工作環境變成資料夾	API金鑰、公司專案說明、審稿代理人全放進「every growth OS」單一資料夾，所有工作從這裡長出來。
先讓代理人腦力激盪	不直接下命令，先讓Codex從Notion、Slack、Gmail看你怎麼工作，由它提自動化建議再選。
代理人寫草稿、人類完稿	Codex先在Slack draft、Gmail留草稿，使用者切換到原生介面才點送出，保留人對人的判斷瞬間。
GTM計畫5分鐘出底稿	會議逐字稿、Slack討論、過去模板全餵Codex，跑「複合工程」3段流程，輸出80～90%就位的proof doc。
招募變成「大海撈針」	用具體假設（如「2010年代General Assembly校友後轉AI」）讓代理人撈出名單，過去要靠獵頭跑2週。
KPI儀表板逐欄手動驗證	代理人做KPI表初版誤差5～10%，必須退回手動驗證，源頭3%誤差會讓下游決策歪掉。

資料來源：Every共同創辦人Dan Shipper Codex Camp直播分享。

「不是寫給人看，是寫給人透過代理人讀」

這場直播裡最值得記下來的，是希普對工作本質的重新定義：

「你大部分上班時間，其實是把你已經想過的東西，轉成別人能讀的格式。重要的是先把思考做完。」

過去寫一份策略文件是花一整天打字，現在用語音App Monologue口述、丟給Codex整理，自己只負責確認每個bullet point是否站得住。希普對團隊立了一條規矩，你交出的代理人寫的文件，會議上有人問細節，不能說「啊我不知道有寫這個」，被抓包就完了。

為了避免這種翻車，Every在Codex的專案檔裡放了規則「不要自己加沒在別處出現過的內容」「想到新建議丟到chat就好，不要塞進文件」。這條設計把AI從「會幻想的助理」拉回「會整理的祕書」。

更進一步，希普指出一個被多數公司忽略的轉變，文件的讀者已經從「人」變成「人透過代理人」。

Every的COO Brandon拿到Austin的GTM計畫，第一個動作不是讀，而是叫自己的代理人「幫我摘要、抽商業案、列我要負責的章節」。文件的可被代理人解析能力（agent-readability），開始比文字優美度更重要。Every為此推出自家產品Proof，一個用markdown在團隊之間傳遞、讓代理人直接讀的介面。

這場「桌面App戰爭」意味著什麼？

希普與Austin的觀察不是中立評論，他們是OpenAI的深度使用者與生態共建者，講話有立場。但把立場剝掉，這場對談指向3個值得台灣讀者放在心上的趨勢。

1.代理人正在重定義「打開電腦做什麼」這件事

過去10年知識工作的入口是瀏覽器與SaaS儀表板，未來10年的入口很可能是一個能看到、能點、能跨App操作的代理人桌面。誰先把這個surface設計成最順手的版本，就拿下未來通用作業系統級別的話語權。

2.工具切換速度會持續以「季」為單位

Austin從Claude Code全面搬到Codex用了3個月，希普則建議「每隔幾週測試一次競品」。對一般企業而言，這意味著「選定一家供應商一路走到底」的策略風險變高，編輯部、行銷部、營運團隊都該保留每季至少一天的「玩工具時間」。Every自己每年辦2次「Think Week」，整週停掉日常工作只為了學新東西。

3.文件設計要開始為代理人讀者服務

過去寫策略文件想著CEO怎麼看、怎麼讓他2分鐘抓重點；以後要多想一層，CEO的代理人怎麼解析這份文件。markdown、清晰章節、明確bulletpoint、可被機器引用的段落結構，會從「工程師的偏好」變成「跨部門通用標準」。

希普在直播尾聲說了一句話，值得貼在每個編輯部的牆上：「工具與工作流變得太快，光跟著現在的工作方式跑，會被用新工具新範式的人靠預設值打敗。」

＊本文出自《數位時代》，原文標題：Codex是新一代作業系統？新創CEO實測6種AI工作流，他為何甘願從Claude Code投奔Codex？

延伸閱讀：
自己的AI助理自己養！OpenAI工程師曝5大Codex進階用法，打造「專屬AI貼身特助」
執行長都這樣用AI！12位CEO親揭工作術：讓AI當幕僚長、情報蒐集、沙盤推演難關⋯

責任編輯：陳芊吟
核稿編輯：倪旻勤