高加索AV无码,99尹人网毛,韩日337p99,一级a片久久无,97色区综合,激情日韩在线一二三,日韩精品久久精品草比,婷婷久久91,亚洲天堂艹比

訂閱
糾錯(cuò)
加入自媒體

GPT-5.5發(fā)布:OpenAI變了,開口閉口都是「工作」

2026-04-24 10:24
雷科技
關(guān)注

一種適合真正工作的新型智能?

北京時(shí)間 4 月 24 日凌晨,OpenAI 突然發(fā)布了 GPT-5.5,以及更高規(guī)格的 GPT-5.5 Pro。

這不是一次常規(guī)的小版本迭代。在 OpenAI 看來,GPT-5.5 不僅是他們最強(qiáng)的模型,更是新的智能模型,即專為真實(shí)工作和智能體任務(wù)打造的模型。

說白了,其實(shí)就是各家最近都在講的「智能體模型」,模型的定位更多是作為智能體的「智能引擎」。

所以不出意外,圍繞「聊天」的各項(xiàng)能力就沒那么重點(diǎn)了,圍繞「工作」來講才是王道。而從紙面參數(shù)和 benchmark 看,GPT-5.5 的確延續(xù)了 OpenAI 過去半年的技術(shù)路線,更多以「真實(shí)工作場(chǎng)景」為導(dǎo)向,在一些取向更貼近實(shí)際的基準(zhǔn)測(cè)試中又刷了新高,比如:

- Terminal-Bench 2.0:82.7%(復(fù)雜命令行任務(wù)) 

- GDPval:84.9%(跨 44 種職業(yè)的知識(shí)工作) 

- OSWorld-Verified:78.7%(真實(shí)電腦操作能力) 

- Tau2-bench Telecom:98.0%(復(fù)雜客服流程) 

截屏2026-04-24 04.39.41.png

圖片來源:OpenAI

不過基準(zhǔn)測(cè)試也就「圖一樂」,即便是這些取向更接近實(shí)際工作的測(cè)試,也很難逃過「高分低能」的問題。所以,GPT-5.5 真的就像 OpenAI 新聞稿開篇所言,會(huì)是我們邁向 PC 工作新方式的下一步嗎?

從 AI Coding 到 AI 辦公,GPT 也是認(rèn)真干活了

根據(jù) OpenAI 公布的信息,GPT-5.5 Pro 僅支持 Pro 及以上訂閱用戶,GPT-5.5 則支持 Plus 及以上的訂閱用戶,將在今天正式上線 ChatGPT 以及 Codex。不過包括我在內(nèi),很多 Plus 還未收到 GPT-5.5 的新模型推送,理論上應(yīng)該采取了分批推送的方式。

不過官方也展示了一些實(shí)際的使用案例,共同點(diǎn)是都不怎么「干凈」,更像我們實(shí)際面臨工作任務(wù),也不是一步就能完成。而對(duì)于現(xiàn)階段重點(diǎn)推 Codex 的 OpenAI 來說,Agentic Coding 肯定是最重要的。

這一代 GPT-5.5 也在正式發(fā)布前被拿去做代碼重構(gòu)、跨文件 bug 修復(fù)、測(cè)試補(bǔ)全這些更接近真實(shí)工程流程的工作。

外部開發(fā)者的實(shí)測(cè)也證實(shí)了 GPT-5.5 在代碼工作上進(jìn)步。MagicPath CEO Pietro Schirano 就用 GPT-5.5 將一個(gè)包含數(shù)百個(gè)前端和重構(gòu)變更的分支合并為一個(gè)同樣有重大變化的主分支,只花了 20 分鐘就一次性解決了所有工作,「我真的感覺自己在和一個(gè)更高的智慧共事!

截屏2026-04-24 06.24.30.png

圖片來源:X

不是說它一次就肯定全對(duì),關(guān)鍵是它更容易「走在正確的軌道上」,中途不用頻繁拉回方向。

CodeRabbit 的評(píng)測(cè)里有一個(gè)細(xì)節(jié)很有意思。他們沒有強(qiáng)調(diào)模型能寫出多復(fù)雜的代碼,反而更多夸贊它在 code review 里更「克制」,更傾向于指出真正會(huì)影響上線的問題,而不是泛泛而談。

同時(shí) Cursor、Windsurf 團(tuán)隊(duì)的使用報(bào)告也都指出,GPT-5.5 在長(zhǎng)時(shí)任務(wù)、處理歧義方面都比 GPT-5.4 明顯更好。

另外,OpenAI 的財(cái)務(wù)團(tuán)隊(duì)還用它審核了 24771 份 K-1 稅表、總計(jì) 71637 頁文件,并稱這套流程比上一年提前了兩周完成。換個(gè)角度看,它其實(shí)揭示了 GPT-5.5 在長(zhǎng)流程里的穩(wěn)定性。而兩萬多份稅表、七萬多頁文檔,是一個(gè)極容易出錯(cuò)、需要持續(xù)校驗(yàn)的重復(fù)性工作。

截屏2026-04-24 06.23.13.png

圖片來源:OpenAI

過去模型在這種場(chǎng)景里最大的問題,是中途漂移,或者在細(xì)節(jié)上逐漸失真。而無論是表格處理、報(bào)告生成,還是多文檔整合,GPT-5.5 的輸出更有一致性,格式更穩(wěn)定,前后邏輯也更連貫。法律 AI 公司 Harvey 就強(qiáng)調(diào)了 GPT-5.5 的推理結(jié)構(gòu)、引用、排版這些細(xì)節(jié)更像一個(gè)合格的專業(yè)人士。

而且這類案例的價(jià)值還不在規(guī)模,因?yàn)槟P筒粌H在分析數(shù)據(jù),還在構(gòu)建流程、生成規(guī)則并接入實(shí)際業(yè)務(wù)系統(tǒng),已經(jīng)非常接近典型的知識(shí)工作流程。

可以說,這次 GPT-5.5 最核心的升級(jí)就是現(xiàn)代社會(huì)圍繞計(jì)算機(jī)構(gòu)建的工作場(chǎng)景。英偉達(dá)創(chuàng)始人兼 CEO 黃仁勛還在一封全員信呼吁所有人使用基于 GPT-5.5 的 Codex,「讓我們跳到光速。歡迎來到人工智能時(shí)代!

如果說 GPT-4 解決的是「答對(duì)」,GPT-5.4 在解決處理更復(fù)雜的問題和任務(wù),到了 GPT-5.5,問題變成了能不能更高效、穩(wěn)定地做好一件事。畢竟,做完和做好完全是兩碼事,中間也是一道「天塹」。

這也是為什么 OpenAI 在這一代里不斷強(qiáng)調(diào)「智能體」這個(gè)詞。

Hero_Art_Card_16x9-1.jpg

圖片來源:OpenAI

GPT-5.5 從模型層面改進(jìn)了智能體最核心的幾個(gè)特征:理解目標(biāo)、拆解步驟、調(diào)用工具、修正過程,并最終交付結(jié)果。能力上看,每一項(xiàng)都不是全新能力,但被放到同一個(gè)系統(tǒng)里之后,體驗(yàn)開始發(fā)生變化。

外部反饋也基本印證了這一點(diǎn)。無論是開發(fā)者還是企業(yè)用戶,討論的焦點(diǎn)都在變。從「答得準(zhǔn)不準(zhǔn)」,變成「要改幾次」「能不能一次跑通」。這兩個(gè)問題的差別,其實(shí)就是模型角色的變化從輔助決策,變成參與執(zhí)行。

當(dāng)然,這種變化還遠(yuǎn)沒有到「可以完全放手」的程度。多個(gè)第三方評(píng)測(cè)都提到了 GPT-5.5 對(duì)任務(wù)邊界的依賴更強(qiáng)。需求描述不清,它不會(huì)主動(dòng)幫你補(bǔ)全,而是按現(xiàn)有信息執(zhí)行。這種「聽話」在某些場(chǎng)景是優(yōu)點(diǎn),在另一些場(chǎng)景反而是限制。

但這恰恰說明,它正在變得更像一個(gè)真實(shí)世界里的協(xié)作者。能力沒有突然跨越一代,工作方式確實(shí)變了。

GPT-5.5 到底升級(jí)了什么?

過去兩年,大模型的升級(jí)路徑很清晰:更強(qiáng)的推理、更長(zhǎng)的上下文、更高的準(zhǔn)確率。GPT-5.5 仍然在做這些,但重點(diǎn)還是變了,OpenAI 就強(qiáng)調(diào)了模型更早理解任務(wù)、更少依賴提示、更會(huì)使用工具,并且能夠持續(xù)推進(jìn)直到完成。

這句話其實(shí)也對(duì)應(yīng)的是過去一直存在、但始終沒被徹底解決的一些問題。

截屏2026-04-24 06.20.40.png

一種適合真正工作的新型智能,圖片來源:OpenAI

其一是理解問題,但不理解任務(wù)。很多模型在復(fù)雜場(chǎng)景里的表現(xiàn)是單步回答很好,但一旦涉及多步驟流程,就會(huì)開始偏離,甚至需要用戶不斷修正。GPT-5.5 的變化,是它開始在一開始就建立任務(wù)結(jié)構(gòu),而不是等用戶一步步喂。

其二是會(huì)用工具,但不會(huì)組織工具。從去年開始,工具調(diào)用已經(jīng)成為大模型的主流能力,但大多數(shù)模型只是把工具當(dāng)成外掛。GPT-5.5 在 Terminal-Bench 和 OSWorld 這類評(píng)測(cè)中的提升,更重要的是它不只是調(diào)用工具,而是把工具變成工作流程的一部分。

其三則是實(shí)際的交付質(zhì)量。過去模型的輸出是「答案」,現(xiàn)在越來越多場(chǎng)景要求的是「結(jié)果」,而且是更好、更準(zhǔn)確。GPT-5.5 的目標(biāo)就是減少中斷,讓任務(wù)可以連續(xù)推進(jìn),直到形成一個(gè)可以直接使用的輸出。

截屏2026-04-24 06.26.35.png

游戲生成,圖片來源:OpenAI

當(dāng)然,GPT-5.5 更強(qiáng)了,但也沒有強(qiáng)到「改寫一切」。問題在于,這一輪競(jìng)爭(zhēng)早就不是單點(diǎn)模型能力的比拼。

今年以來,一個(gè)變化已經(jīng)非常明確。無論是 OpenAI,還是 Google、Anthropic,甚至包括國(guó)內(nèi)的阿里、字節(jié),都在把重點(diǎn)從「更強(qiáng)模型」轉(zhuǎn)向「智能體系統(tǒng)」。模型只是底座,真正的競(jìng)爭(zhēng)在于能不能把模型接入工具、接入數(shù)據(jù)、接入業(yè)務(wù)流程,讓它真正參與工作。

行業(yè)里的關(guān)鍵詞也從「推理能力」「上下文長(zhǎng)度」,逐漸變成了「agent(智能體)」「workflow(工作流)」「computer use(計(jì)算機(jī)使用)」。

OpenAI 自己的動(dòng)作最典型。Codex 的重新被推到臺(tái)前,也不是偶然,它天然就是最適合承載智能體能力的入口。

但現(xiàn)在還有一個(gè)問題是,GPT-5.5 真的很貴。

前段時(shí)間 Claude Opus 4.7 的價(jià)格已經(jīng)勸退了很多,而 OpenAI 雖然強(qiáng)調(diào) GPT-5.5 幾乎是在不犧牲速度和 Token 用量的情況下實(shí)現(xiàn)了全面升級(jí),延遲和 GPT-5.4 相當(dāng)甚至更低,還能用更少的 Token 在 Codex 上完成同樣的任務(wù),但實(shí)際 API 價(jià)格流出后,還是讓很多開發(fā)者心涼了半截:

輸入 5 美元/百萬 tokens、緩存輸入 0.5 美元/百萬 tokens、輸出 30 美元/百萬 tokens,直接在 GPT-5.4 的基礎(chǔ)上翻了一番。

頂級(jí)模型還是太貴了。只能期待一下傳聞將在本周發(fā)布的 DeepSeek V4,希望能夠復(fù)刻 2025 年的奇跡,通過這次的多模態(tài)升級(jí)把智能體模型也能打成白菜價(jià)。

寫在最后

從能力上看,它確實(shí)更強(qiáng)了,但這種「更強(qiáng)」已經(jīng)很難再用一次發(fā)布就被感知到。沒有那種一上手就明顯不同的驚艷,更像是把過去幾代模型的短板一點(diǎn)點(diǎn)補(bǔ)齊,把原本不穩(wěn)定的地方變得更可靠。

但換個(gè)角度看,這反而是一個(gè)更重要的信號(hào)。過去大家比的是誰更聰明,現(xiàn)在開始比的是誰更穩(wěn)定、誰更能融入實(shí)際工作、誰能在復(fù)雜流程里少出錯(cuò)。

GPT-5.5 就落在這個(gè)階段。它沒有重新定義模型能力的上限,但在「把事情做完」這件事上往前走了一步。而當(dāng)模型開始能夠真正承擔(dān)一部分工作時(shí),真正被改變的就不再只是效率,還有新的工作方式,包括人與 AI 之間的分工關(guān)系。

當(dāng)然,這個(gè)過程還遠(yuǎn)沒有結(jié)束。GPT-5.5 的成本仍然高,能力也還不夠通用,很多場(chǎng)景依然需要人類不斷干預(yù)。智能體這件事,從概念走向現(xiàn)實(shí),還要經(jīng)歷一段很長(zhǎng)的打磨周期。

但方向已經(jīng)很清楚了。當(dāng)模型開始進(jìn)入流程,當(dāng)工具、數(shù)據(jù)和系統(tǒng)逐漸圍繞它重新組織,當(dāng)越來越多公司把它當(dāng)成「工作的一部分」而不是「輔助工具」,這一輪變化就不再只是技術(shù)升級(jí)。

OpenAIChatGPTGPT-5.5

來源:雷科技

本文圖片來自:123RF 正版圖庫(kù)    

       原文標(biāo)題 : GPT-5.5發(fā)布:OpenAI變了,開口閉口都是「工作」

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)

    宁强县| 临海市| 渭南市| 奉节县| 肃北| 深泽县| 长春市| 彭水| 高邮市| 布尔津县| 伽师县| 海丰县| 于田县| 山东省| 衡南县| 大城县| 兴安县| 民勤县| 承德县| 武城县| 子长县| 桃园县| 玉门市| 高陵县| 当雄县| 古浪县| 新源县| 昌宁县| 宁乡县| 霍山县| 婺源县| 车险| 红河县| 彭泽县| 三明市| 忻州市| 西乡县| 南雄市| 朔州市| 武城县| 徐水县|