高加索AV无码,99尹人网毛,韩日337p99,一级a片久久无,97色区综合,激情日韩在线一二三,日韩精品久久精品草比,婷婷久久91,亚洲天堂艹比

訂閱
糾錯(cuò)
加入自媒體

連夜測(cè)了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只!皩徝馈边@個(gè)短板了

2026-04-27 10:15
雷科技
關(guān)注

DeepSeek-V4六維實(shí)測(cè)

大模型的圈子最近真的是大戲連連,Claude和OpenAI你方唱罷我登場(chǎng),兩位CEO更是化身戲精,在社交媒體上大打輿論戰(zhàn)。

不過(guò),今天所有的風(fēng)頭都被一家公司搶光了。

沒(méi)錯(cuò),在反復(fù)橫跳小半年時(shí)間后,今天中午,DeepSeek總算是把萬(wàn)眾期待的新模型DeepSeek-V4端了上來(lái),并宣布API服務(wù)已同步更新,即日起登錄官網(wǎng)或官方App即可搶先試用。

640.png

(圖源:雷科技)

要知道,前段時(shí)間網(wǎng)上還有一堆人拿他們開(kāi)玩笑,說(shuō)老板沉迷打游戲忘了更新,還有人擔(dān)心他們因?yàn)楹M獾男酒拗聘悴怀鲂乱淮母叨四P土恕?/p>

結(jié)果人家今天直接把V4甩在了大家臉上,不僅有主打輕量便宜的Flash版本,還有滿血旗艦的Pro版本。

這次更新最狠的地方在于,它把百萬(wàn)字的長(zhǎng)文本記憶能力變成了標(biāo)配,而且因?yàn)榇罅渴褂昧巳A為昇騰芯片,加上自己研發(fā)的底層優(yōu)化技術(shù),把價(jià)格打到了一個(gè)讓人直呼離譜的地步。滿血版處理百萬(wàn)字,只要12元/輸入,24元/輸出,連Claude的四分之一都不到。

不過(guò)官方也挺實(shí)在,在發(fā)布的時(shí)候承認(rèn)目前和世界最頂尖的閉源模型還有幾個(gè)月的差距。

既然官方這么坦誠(chéng),那小雷今天也不去看那些虛無(wú)縹緲的跑分榜單,直接給DeepSeek-V4安排一場(chǎng)評(píng)測(cè),從推理、編程、文本處理、多輪對(duì)話、工具使用和知識(shí)準(zhǔn)確性六個(gè)維度對(duì)其進(jìn)行深度拆解,看看它在真實(shí)場(chǎng)景里到底好不好用。

編程與工具使用:邏輯不錯(cuò),審美堪憂

既然DeepSeek-V4自己都強(qiáng)調(diào)模型的Agentic Coding能力,那么我們先來(lái)看看大模型最容易拉開(kāi)差距的代碼能力。

這里注意一下,為了貼近普通人的日常使用習(xí)慣,也因?yàn)楸救俗约和耆珱](méi)有編程能力,小雷沒(méi)有用那些專(zhuān)業(yè)的程序員指令,而是全程用大白話提要求,讓DeepSeek-V4-Pro與Trae打配合,執(zhí)行了兩個(gè)較為復(fù)雜的任務(wù)。

第一輪測(cè)試,小雷讓它寫(xiě)一個(gè)可以互動(dòng)的網(wǎng)頁(yè)版星空,要求是可以點(diǎn)擊星星看故事,還能用鼠標(biāo)拖拽視角。

這個(gè)任務(wù)的難點(diǎn)在于想象自己在一張紙上畫(huà)一個(gè)會(huì)動(dòng)的星空,同時(shí)還要讓人能用手指轉(zhuǎn)動(dòng)它、點(diǎn)擊星座看故事,對(duì)大模型的設(shè)計(jì)、交互和信息搜索能力都提出了一定的要求。

拿到任務(wù)后,DeepSeek-V4-Pro先是思考了一會(huì)兒,然后輸出了一套共六步的設(shè)計(jì)方案。

image.png

(圖源:雷科技)

之后,我們就完全放手讓DeepSeek-V4-Pro自主執(zhí)行任務(wù),它會(huì)自己調(diào)用各種工具,連續(xù)編程了接近34分鐘,期間沒(méi)有出現(xiàn)中斷或者死循環(huán),也沒(méi)有遺漏關(guān)鍵步驟,完全按照此前的規(guī)劃執(zhí)行,最后消耗了價(jià)值6.19元的Token。

開(kāi)發(fā)結(jié)果如下,從交互式內(nèi)容的角度來(lái)看,這個(gè)成品在美感層面稍有欠缺,但所有功能都運(yùn)轉(zhuǎn)正常,你不僅能夠流暢地拖動(dòng)球形天體模型,還能通過(guò)點(diǎn)擊查看信息注解,流星劃過(guò)的特效也很完美。

IMG_q8wbvy.gif

image.png

(圖源:雷科技)

作為對(duì)比,這是Hy3-Preview的效果。

f9f5dfd9ec92405501cb831bb37a25b7.png

(圖源:雷科技)

而這是Codex的效果,實(shí)際耗時(shí)和Deepseek相差不大,功能也基本一致,但是頁(yè)面設(shè)計(jì)、色彩過(guò)渡和交互度上明顯更好看一點(diǎn)。

dacd50cf95097f538f28f6ca9baf14bf.jpg

(圖源:雷科技)

看來(lái)V4的核心邏輯沒(méi)毛病,就是審美需要找個(gè)設(shè)計(jì)師來(lái)補(bǔ)補(bǔ)課。

第二輪我們上點(diǎn)難度,讓它寫(xiě)一個(gè)小型的地牢探險(xiǎn)網(wǎng)頁(yè)游戲。

這回第一次生成居然還出了點(diǎn)問(wèn)題,Trae反饋生成被截?cái)嗔,需要使用更緊湊的方法進(jìn)行重試。

image.png

(圖源:雷科技)

第二次的表現(xiàn)就非常精細(xì)了,它不僅把游戲的基礎(chǔ)框架搭得明明白白,甚至還自己腦補(bǔ)了一套相當(dāng)完善的經(jīng)濟(jì)系統(tǒng)和升級(jí)路線,角色的血量、藍(lán)量、攻擊力計(jì)算公式寫(xiě)得非常嚴(yán)謹(jǐn)。

image.png

(圖源:雷科技)

我選擇了戰(zhàn)士,甚至可以用1、2鍵觸發(fā)技能。

IMG_fckxe3.gif

a74ff20aa9d346598b9461dfa3728bac.png

(圖源:雷科技)

比較可惜的是,這套組合缺乏直接制作動(dòng)畫(huà)的能力,生成像素圖的效果也是非常粗糙,同樣沒(méi)有什么美感可言。

作為對(duì)比,元寶雖然生成更快,但是忘了設(shè)計(jì)敵人,導(dǎo)致內(nèi)容幾乎沒(méi)有可用性。

adf3ee4dc547410f9b67d93cf895becd.gif

(圖源:雷科技)

盡管最終耗時(shí)42分鐘,還用了我4.71元,至少結(jié)果是滿意的。

總體來(lái)說(shuō),DeepSeek-V4在編程上確實(shí)有顯著提升,框架清晰,速度極快,特別適合拿來(lái)干苦力活和寫(xiě)后臺(tái)邏輯。但如果你想要一個(gè)開(kāi)箱即用、漂亮美觀的前端成品,還是得人工幫它稍微調(diào)整一下。

需要注意的是,和Qwen、Seed不同,Deepseek自身是不帶任何插件的,工具使用能力全靠API接入Agent才得以展示。

考慮到目前DeepSeek-V4表現(xiàn)出的效果,個(gè)人還是很期待未來(lái)的工具整合表現(xiàn)的。

推理與算數(shù):生成很快,偶爾也會(huì)翻車(chē)

如果說(shuō)寫(xiě)代碼考驗(yàn)的是手藝,那邏輯推理考驗(yàn)的就是腦子了。

我們這次特意準(zhǔn)備了幾道不按套路出牌的測(cè)試題,確保它沒(méi)有公式可以套,全靠大模型的推理能力和對(duì)真實(shí)世界的理解。

先來(lái)一道精心設(shè)計(jì)的陷阱題,“一瓶水和一塊冰,放在同一個(gè)保溫箱里密封,24小時(shí)后,保溫箱里的水變多了還是變少了?”

劇透一下,答案應(yīng)該是不變。

結(jié)果Flash和Pro這倆一個(gè)說(shuō)多,一個(gè)說(shuō)少,就是沒(méi)有說(shuō)對(duì)的,你倆到底是在思考些什么東西了?

新建項(xiàng)目 (1).jpg

(圖源:雷科技)

接著是一份海龜湯,“一個(gè)人半夜醒來(lái)打了自己一巴掌,然后聞著一股煙味安心睡去了,請(qǐng)問(wèn)發(fā)生了什么?”

屏幕截圖 2026-04-24 222415.png

(圖源:雷科技)

這個(gè)問(wèn)題倒是都答對(duì)了,而且Flash的思路更直接,反而是Pro耗了一段時(shí)間,反復(fù)琢磨著應(yīng)該給出啥答案來(lái)。

image.png

(圖源:雷科技)

值得一提的是,不知為何,這類(lèi)海龜湯問(wèn)題如果沒(méi)有加上海龜湯的前綴,V4的回答準(zhǔn)確率會(huì)下降一些。

就像這道海龜湯,V4-Pro愣是琢磨兩分鐘,然后得出一個(gè)前后矛盾的答案。

image.png

(圖源:雷科技)

至于知識(shí)準(zhǔn)確性這塊,來(lái)點(diǎn)2025年第66屆國(guó)際數(shù)學(xué)奧林匹克上的算術(shù)題再好不過(guò)了。

題目如圖所示:

image.png

(圖源:雷科技)

我們這邊選擇斷網(wǎng),關(guān)閉聯(lián)網(wǎng)開(kāi)啟推理,讓模型完全靠自己解決問(wèn)題,順便可以考察一下DeepSeek網(wǎng)頁(yè)服務(wù)中OCR的能力。

好消息,識(shí)別對(duì)了。

image.png

(圖源:雷科技)

壞消息,第一步思考就不對(duì)了。

接下來(lái)自然是無(wú)盡的死循環(huán),看著DeepSeek-V4-Pro在那里瘋狂輸出了兩三分鐘后,我選擇直接給它掐斷了。

image.png

(圖源:雷科技)

至于Flash,那更是只剩下車(chē)轱轆話。

只能說(shuō),作為一款開(kāi)源模型,Deepseek-V4在這件事上比它的前輩們肯定是有所提升的,但要說(shuō)有什么很顯著的提升...好像也沒(méi)有那么大。

文本處理出色,多輪對(duì)話顯著提升

既然官方都說(shuō)邁入百萬(wàn)上下文普惠時(shí)代,不整整活怎么行呢?

我們也簡(jiǎn)單試了一下,給《斗破蒼穹》里隨便貼了一段《都市超能高手》的小說(shuō)內(nèi)容,然后丟給DeepSeek-V4讓它找。

結(jié)果啪的一下,很快啊,DeepSeek就找到了異常。

image.png

(圖源:雷科技)

這可是二十四萬(wàn)字的文本啊...就這么給他拿捏了。

隨便問(wèn)一段《斗破蒼穹》的問(wèn)題,它也能很自信地答出來(lái),文本檢索、總結(jié)能力都是肉眼可見(jiàn)地提高。

image.png

(圖源:雷科技)

這還沒(méi)完,為了考驗(yàn)它多輪對(duì)話的能力,我決定和它進(jìn)行20輪以上的對(duì)話,去設(shè)計(jì)一個(gè)涉及5個(gè)城市、12個(gè)景點(diǎn)、不同預(yù)算和交通工具的復(fù)雜旅行計(jì)劃,并在對(duì)話過(guò)程中,不斷人為加入變量。

總之,開(kāi)場(chǎng)白是這樣的。

image.png

(圖源:雷科技)

不得不說(shuō),我還是第一次和AI進(jìn)行這么長(zhǎng)時(shí)間的無(wú)意義對(duì)話。

差不多這測(cè)試進(jìn)行到第10輪的時(shí)候,我已經(jīng)感覺(jué)自己可能都不記得第一輪說(shuō)過(guò)什么了。

好消息是,差不多第14輪的時(shí)候,DeepSeek-V4自己也記不得了。

image.png

從第14輪開(kāi)始,它規(guī)劃的旅行安排就和之前交互中生成的那份安排沒(méi)啥關(guān)系了。

甚至出現(xiàn)了第13輪還在規(guī)劃箱根之旅,第14輪就在沒(méi)有任何提示的情況下給它剔除了的喜劇效果。

image.png

雖然對(duì)比之前DeepSeek的低專(zhuān)注度,現(xiàn)在的DeepSeek-V4能在高強(qiáng)度交互下保持一定的一致性,已經(jīng)算是有所進(jìn)步了,但是和我自己常用于角色扮演體驗(yàn)的Gemini-2.5-Pro依然存在明顯差距。

總結(jié):便宜好用才是硬道理

這一套連招測(cè)試下來(lái),DeepSeek-V4給小雷的真實(shí)感受就是,它是一個(gè)很務(wù)實(shí)、干活利索,但稍微缺乏一點(diǎn)藝術(shù)細(xì)胞的模型。

它的優(yōu)點(diǎn)非常突出,百萬(wàn)級(jí)別的長(zhǎng)文本處理能力,不錯(cuò)的編程規(guī)劃與執(zhí)行能力,再加上不高的調(diào)用成本,這玩意和今年的龍蝦潮非常適配,花一箱飲料的錢(qián)就能幫團(tuán)隊(duì)快速干完一星期的活。

而且最讓國(guó)人提氣的是,在外部技術(shù)環(huán)境如此復(fù)雜的情況下,他們大量依靠華為昇騰等國(guó)產(chǎn)芯片,跑出了比肩世界最強(qiáng)閉源模型的能力,這確實(shí)證明了國(guó)產(chǎn)算力生態(tài)正在迅速崛起。

image.png

當(dāng)然,它的缺點(diǎn)也客觀存在。它現(xiàn)在還沒(méi)法像競(jìng)爭(zhēng)對(duì)手那樣直接看圖或者看視頻,在處理復(fù)雜的邏輯推理時(shí)偶爾會(huì)犯迷糊,而且寫(xiě)出來(lái)的視覺(jué)界面確實(shí)不太符合現(xiàn)代人的審美。

官方說(shuō)它和頂級(jí)的閉源模型還有幾個(gè)月的差距,這個(gè)評(píng)價(jià)非常中肯。

綜合來(lái)看,DeepSeek這次交出的答卷是完全超出預(yù)期的,它不僅穩(wěn)穩(wěn)守住了國(guó)內(nèi)開(kāi)源模型第一梯隊(duì)的位置,還有望把高高在上的算力價(jià)格給打下來(lái)。

對(duì)于咱們普通用戶來(lái)說(shuō),現(xiàn)在的DeepSeek-V4絕對(duì)是一個(gè)日常工作、寫(xiě)代碼、查資料的絕佳免費(fèi)助手。至于多模態(tài)那些更高級(jí)別的功能,不妨給他們一點(diǎn)時(shí)間,讓我們一起期待它下一次的進(jìn)化。

DeepSeek編程代碼六維

來(lái)源:雷科技

本文圖片來(lái)自:123RF 正版圖庫(kù)       

       原文標(biāo)題 : 連夜測(cè)了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只!皩徝馈边@個(gè)短板了

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)

    兴安盟| 揭东县| 安图县| 东光县| 南召县| 施秉县| 阿克苏市| 乐陵市| 安多县| 囊谦县| 孟连| 东光县| 霍州市| 贡山| 玉屏| 喀什市| 那曲县| 兴义市| 咸宁市| 鄂托克旗| 海淀区| 大方县| 开封市| 宁国市| 孟村| 嘉义县| 应城市| 临安市| 都兰县| 金寨县| 固原市| 舒城县| 甘泉县| 厦门市| 韩城市| 双鸭山市| 巫溪县| 山西省| 会昌县| 浪卡子县| 兴安盟|