高加索AV无码,99尹人网毛,韩日337p99,一级a片久久无,97色区综合,激情日韩在线一二三,日韩精品久久精品草比,婷婷久久91,亚洲天堂艹比

訂閱
糾錯(cuò)
加入自媒體

DeepSeek「開眼」引爆AI圈:我用12張刁鉆圖片,試出了它的能力邊界

2026-04-30 10:44
雷科技
關(guān)注

DeepSeek補(bǔ)齊了最后一塊拼圖!

在DeepSeek一記V4重拳徹底引爆科技圈的五天后,DeepSeek內(nèi)部負(fù)責(zé)多模態(tài)的研究員陳小康在X上發(fā)布了這么一條帖子,并且附上了文字:

Now, we see you.

f77d8bb77714908bc7e3b854e43195cb.png

(圖源:雷科技)

沒錯(cuò),就是字面意思。

當(dāng)所有人還在為V4的價(jià)格和編碼能力而驚嘆時(shí),DeepSeek突然開測(cè)識(shí)圖模式,全網(wǎng)熱議了一整年的多模態(tài)能力總算是落地了。

這更新速度,真心讓人覺得梁文鋒是不是為了不被網(wǎng)友做成不務(wù)正業(yè)的梗圖,連夜把開發(fā)團(tuán)隊(duì)鎖在了機(jī)房里。

需要注意的是,這次測(cè)試并非全量測(cè)試,而是小范圍的灰度測(cè)試,只有部分用戶能在DeepSeek官方App或網(wǎng)頁(yè)版里看到,此時(shí)輸入欄上方除了原有的快速模式、專家模式外,還會(huì)新增識(shí)圖模式按鈕,并標(biāo)注“圖片理解功能內(nèi)測(cè)中”。

屏幕截圖 2026-04-29 181314.png

(圖源:雷科技)

不巧的是,筆者的同事們?nèi)慷紱]能被灰度測(cè)試到,被DeepSeek官方抽到的人數(shù)居然高達(dá)0人!

幸運(yùn)的是,筆者居然還真就成了那萬(wàn)中無(wú)一的天選之人。

既然這么巧合,小雷不給大家測(cè)試一番,多少有點(diǎn)過(guò)意不去。這次我精心選擇了12張圖片,讓大家好好看看DeepSeek到底能看到什么?

理解能力強(qiáng),知識(shí)庫(kù)待更新

話不多說(shuō),我們直接從畫面描述開始測(cè)試。

之所以將這個(gè)放在第一位,是因?yàn)檫@是視覺理解在實(shí)際場(chǎng)景中應(yīng)用最多的一項(xiàng)功能。

以我們?nèi)粘I顬槔诼愤吙吹揭恢杲胁怀雒值钠孑庵参,或者想找找某款穿搭的同款鏈接,甚至是在異?guó)他鄉(xiāng)對(duì)著滿屏外文菜單發(fā)愁時(shí),大家現(xiàn)在的第一反應(yīng)多半是拍張照丟給AI問一句:“這是啥?”

這種“所見即所問”的交互,本質(zhì)上就是在考驗(yàn)?zāi)P偷囊曈X理解功底。

而這次我準(zhǔn)備了三張圖用作測(cè)試,分別是一張Coser圖像、我在博物館里的見聞以及一張信息量繁雜的活動(dòng)現(xiàn)場(chǎng)圖片。

image.png

(圖源:雷科技)

提示詞:請(qǐng)?jiān)敿?xì)描述一下這張圖,字?jǐn)?shù)控制在250字以內(nèi)。

對(duì)于第一張圖片,DeepSeek的回答是這樣的:

image.png

(圖源:雷科技)

沒錯(cuò),DeepSeek不但完整描述了整個(gè)畫面細(xì)節(jié),而且還認(rèn)出了圖片里的角色,甚至還把拍攝這種圖片中的背景、打光等元素等如實(shí)還原出來(lái),用這套文字去文生圖模型里直接就能還原一張高度類似的圖片。

要知道,這個(gè)效果可是沒開思考模式的。

對(duì)于第二張圖片,DeepSeek的回答是這樣的:

image.png

(圖源:雷科技)

不打開思考模式的情況下,這次回答就是很單純的畫面描述,沒有對(duì)于物品的解析,但是描述本身還是挺到位的,而且最后還是能看出來(lái)這款物品富有濃郁的中東或中亞藝術(shù)風(fēng)情,很可能是一件珍貴的宮廷或宗教禮儀用具。

那么,要是我打開思考模式呢?

這下開始解析了,首先是對(duì)物品進(jìn)行拆解,定義它是什么、有什么特征、所處的環(huán)境怎么樣。

image.png

(圖源:雷科技)

然后就開始下定義了,它認(rèn)為是清代痕都斯坦風(fēng)格。

屏幕截圖 2026-04-29 185908.png

(圖源:雷科技)

那么清代痕都斯坦風(fēng)格是啥呢?根據(jù)Wiki解釋,這是18世紀(jì)清朝乾隆時(shí)期引入的中亞伊斯蘭風(fēng)格玉器,主要源自北印度莫臥兒王國(guó)。

剛好,我去看的就是莫臥兒王國(guó)展,還真給它找出來(lái)了。

image.png

(圖源:雷科技)

對(duì)于第三張圖片,DeepSeek的回答是這樣的:

image.png

(圖源:雷科技)

除了畫面描述、文字信息讀取,這次它還果斷判斷這是屬于中國(guó)建博會(huì)·廣州的活動(dòng)現(xiàn)場(chǎng)圖片,只能說(shuō)圖片理解這塊確實(shí)沒毛病嗷。

當(dāng)然了,上面這些內(nèi)容都是看圖說(shuō)話,那么更新一點(diǎn)的信息識(shí)別如何呢?

這次我準(zhǔn)備了近些年的三張圖片,提示詞:圖片里的東西是什么?并說(shuō)出你的依據(jù),字?jǐn)?shù)控制在200個(gè)字以內(nèi)。

image.png

(圖源:雷科技)

對(duì)于第一張圖片,DeepSeek的回答是這樣的:

image.png

(圖源:雷科技)

嗯...至少能從圖片里看出寶可夢(mèng)的信息,但是《Pokopia》這款游戲還是太新了,明顯不在DeepSeek的知識(shí)庫(kù)里。

對(duì)于第二張圖片,DeepSeek的回答是這樣的:

image.png

(圖源:雷科技)

這次倒是判斷得很準(zhǔn)確,這確實(shí)是一張從3dm扒下來(lái)的FM24戰(zhàn)術(shù)圖。

對(duì)于第三張圖片,DeepSeek的回答是這樣的:

image.png

(圖源:雷科技)

不難看出,它確實(shí)缺乏了最新的產(chǎn)品信息,但居然能通過(guò)副屏來(lái)判斷成小米11 Ultra,只能說(shuō)DeepSeek識(shí)圖在邏輯這塊真的拿捏了。

邏輯問題,同樣搞不定

接下來(lái),我們來(lái)試試元素識(shí)別。

這部分,說(shuō)人話就是考驗(yàn)AI的眼力見了,里面有些題目,哪怕是真人來(lái)了也不一定能做出來(lái)。

誒,順便看看DeepSeek會(huì)不會(huì)也是個(gè)色盲。

這類圖片在網(wǎng)上那叫一個(gè)多啊,我干脆直接上谷歌搜羅了這些圖來(lái)測(cè)試用,大家也別客氣。

image.png

(圖源:雷科技)

先測(cè)第一個(gè),提示詞:請(qǐng)直接告訴我這張圖中有幾只老虎。

讓人想不到的是,這個(gè)問題居然能讓DeepSeek開始自我博弈起來(lái),不斷地否認(rèn)自己上一次數(shù)出來(lái)的結(jié)果,最后更是在兩次數(shù)出6只老虎的情況下,堅(jiān)定地回答了7只出來(lái)。

屏幕截圖 2026-04-29 193519.png

(圖源:雷科技)

問題在于,這圖里有10只老虎,這就讓人很尷尬了。

再測(cè)第二個(gè),提示詞:這張圖中隱藏著一組數(shù)字,請(qǐng)你直接告訴我其中有幾個(gè)數(shù)字,它們分別是什么。

image.png

(圖源:雷科技)

咋說(shuō)呢,這個(gè)圖之前就難倒過(guò)所有AI, DeepSeek同樣沒有能識(shí)別出來(lái)。

第三張圖也是如此,可以說(shuō),這一類基于反色、碎塊化的圖片,依然是視覺理解的一生之?dāng)场?/p>

image.png

(圖源:雷科技)

最后是三道圖形邏輯題,之前DeepSeek-V4在做邏輯題的時(shí)候表現(xiàn)就一般,不知道應(yīng)對(duì)圖形邏輯題的效果如何。

據(jù)說(shuō)這三道都是行測(cè)例題,我們讓DeepSeek來(lái)解答一下。

屏幕截圖 2026-04-29 194544.png

(圖源:雷科技)

第一道,思考了整整三分鐘。

image.png

(圖源:雷科技)

答案是錯(cuò)的,正確答案是D。這圖的邏輯其實(shí)還挺好懂的,就是前面兩格單白/單黑的地方,第三格是白的,前面兩格雙白/雙黑的地方,第三格就是黑的。

第二道題自然也是不負(fù)眾望,錯(cuò)!

沒想到,在我已經(jīng)失去希望的情況下,經(jīng)過(guò)六分鐘深度思考后,這第三道題,居然是讓DeepSeek給答對(duì)了!

image.png

(圖源:雷科技)

我反復(fù)試了兩遍,只能說(shuō)這道題它確實(shí)能推理出來(lái),雖說(shuō)是采用算數(shù)的形式,但確實(shí)實(shí)現(xiàn)了零的突破。

只能說(shuō),行測(cè)備考你用這個(gè),這輩子也是有了。

總結(jié):識(shí)圖只是前菜,多模態(tài)大招還在路上

完整測(cè)試下來(lái),小雷我對(duì)DeepSeek這次的識(shí)圖能力算摸透了。

只能說(shuō)DeepSeek基礎(chǔ)識(shí)圖的準(zhǔn)確率其實(shí)還是比較高的,然后它的推理思路本身也算有條不紊,但是目前知識(shí)庫(kù)里保存的信息還不夠多,而且面對(duì)難度較高的極限測(cè)試,基本上就沒有能做對(duì)的時(shí)候。

但是,這次起碼不會(huì)出現(xiàn)思考半天吧啦吧啦沒完沒了的情況。

在我看來(lái),這次識(shí)圖更像是過(guò)渡期的開胃菜,這個(gè)識(shí)圖模式,更接近一個(gè)掛載在DeepSeek-V4主干上的視覺理解模塊,而并非DeepSeek-V4本身的多模態(tài)能力。

但至少,它證明DeepSeek團(tuán)隊(duì)在視覺理解上已經(jīng)跑通了,這明顯是在為接下來(lái)的原生多模態(tài)大招鋪路?梢灶A(yù)見的是,補(bǔ)上這塊短板后,整個(gè)國(guó)產(chǎn)模型的格局必然會(huì)再次發(fā)生改變。

至于沒拿到資格的也別急,就DeepSeek目前這個(gè)效果,豆包和千問其實(shí)夠用了。

上海車展(2).jpg

DeepSeek視覺理解多模態(tài)

來(lái)源:雷科技

本文圖片來(lái)自:123RF 正版圖庫(kù)       

       原文標(biāo)題 : DeepSeek「開眼」引爆AI圈:我用12張刁鉆圖片,試出了它的能力邊界

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)

    莫力| 垦利县| 鹰潭市| 麻江县| 盖州市| 长顺县| 怀宁县| 乐都县| 台中市| 叙永县| 扎兰屯市| 吐鲁番市| 泰州市| 建宁县| 德令哈市| 梁山县| 七台河市| 红安县| 亳州市| 洞口县| 丹江口市| 韩城市| 红原县| 绥江县| 罗田县| 松溪县| 保定市| 夏河县| 泊头市| 富宁县| 梅河口市| 阜阳市| 内江市| 秭归县| 平阴县| 大荔县| 灌南县| 广汉市| 墨江| 石台县| 泰安市|