高加索AV无码,99尹人网毛,韩日337p99,一级a片久久无,97色区综合,激情日韩在线一二三,日韩精品久久精品草比,婷婷久久91,亚洲天堂艹比

訂閱
糾錯
加入自媒體

極鏈科技HPAIC人類蛋白質圖譜分類挑戰(zhàn)賽金牌經驗分享

2019-01-18 11:06
張康康
關注

近期,由Kaggle主辦,Leica Microsystems和NVIDIA贊助的HPAIC(Human Protein Atlas Image Classification)競賽正式結束。比賽為期三個月,共有來自全球的2236個隊伍參加,極鏈AI研究院與工程院最終獲得挑戰(zhàn)賽金牌。

比賽介紹

蛋白質是人體細胞中的“行動者”,執(zhí)行許多共同促進生命的功能。蛋白質的分類僅限于一種或幾種細胞類型中的單一模式,但是為了完全理解人類細胞的復雜性,模型必須在一系列不同的人類細胞中對混合模式進行分類。

可視化細胞中蛋白質的圖像通常用于生物醫(yī)學研究,這些細胞可以成為下一個醫(yī)學突破的關鍵。然而,由于高通量顯微鏡的進步,這些圖像的生成速度遠遠超過人工評估的速度。因此,對于自動化生物醫(yī)學圖像分析以加速對人類細胞和疾病的理解,需要比以往更大的需求。

雖然這是生物學方面的競賽,但是其本質是機器視覺方向的圖像多標簽分類問題,參賽隊伍也包括許多機器視覺和機器學習領域的競賽專家。

數據分析

官方給我們提供了兩種類型的數據集,一部分是512x512的png圖像,一部分是2048x2048或3072x3072的TIFF圖像,數據集大概 268G, 其中訓練集:31072 x 4張,測試集:11702 x 4張。

一個蛋白質圖譜由4種染色方式組成(red,green,blue,yellow),圖像示例如下:

我們將4個通道合并成3通道(RYB)可視化的圖像如下所示:

在本次競賽中一共有28個類別,比如 Nucleoplasm、Nuclear membrane等,每個圖譜圖像都可以有一個或者多個標簽。標簽數量統(tǒng)計如下:

可以發(fā)現標簽數量集中在1-3個,但是仍然會有圖像有5個標簽,給比賽增加了一定的難度。

另一方面的難點是數據集中樣本數量很不均勻,圖像最多的類別有12885張,而圖像最少的類別只有11張圖像,這給競賽造成很大的困難,樣本數量分布情況可以在圖中看出。

在比賽過程中逐步有參賽者發(fā)現官方的額外數據集HPAv18,并得到官方授權,這些數據集有105678張,很大程度的擴大了樣本數量,同時給我們提供了很大的幫助。

環(huán)境資源

硬件方面我們使用了4塊NVIDIA TESLA P100顯卡,使用pytorch作為我們的模型訓練框架。

圖像預處理

HPAv18 圖像與官方給出的圖像有一定的差別,雖然也是由4中染色方式組成,但是每個染色圖像是一個RGB圖像,而不是官方的單通道圖像,而且RGB三個通道的值差別較大,我們對這些圖像做了預處理,對每個RGB圖像只取一個通道(r_out=r,g_out=g,b_out=b,y_out=b),并將這些圖像縮放到512x512和1024x1024兩種尺度。

對于TIFF文件,我們用了一周的時間把這個數據集下載下來,然后將所有圖像縮放到1024x1024。

數據增廣

我們比賽中使用的增廣方式有Rotation, Flip 和 Shear三種;因為我們不知道一張圖像中的多個細胞之間是否有關聯(lián)關系,所以比賽中沒有使用隨機裁剪的增廣方式。

1  2  下一頁>  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號

    阜宁县| 广丰县| 嘉祥县| 博客| 依安县| 云林县| 白山市| 博客| 临高县| 洪雅县| 扶余县| 平凉市| 上高县| 乐都县| 霍林郭勒市| 江北区| 西乌| 梅州市| 金秀| 高清| 洪江市| 隆昌县| 航空| 双牌县| 澄城县| 肃南| 仪征市| 肃北| 本溪| 酒泉市| 普定县| 洛宁县| 定远县| 拉萨市| 建瓯市| 德清县| 栾川县| 陵水| 龙南县| 广德县| 贵南县|