快手發(fā)布多模態(tài)大模型Keye-VL-1.5 8B性能領(lǐng)先、視頻理解能力更強(qiáng)
近日,快手正式發(fā)布多模態(tài)大語(yǔ)言模型Keye-VL-1.5-8B。
2025-09-11 16:03:07
來(lái)源:丁科技網(wǎng)??

近日,快手正式發(fā)布多模態(tài)大語(yǔ)言模型Keye-VL-1.5-8B。與之前的版本相比,Keye-VL-1.5的綜合性能實(shí)現(xiàn)顯著提升,尤其在基礎(chǔ)視覺(jué)理解能力方面,包括視覺(jué)元素識(shí)別、推理能力以及對(duì)時(shí)序信息的理—表現(xiàn)尤為突出。Keye-VL-1.5在同等規(guī)模的模型中表現(xiàn)出色,甚至超越了一些閉源模型如GPT-4o。

創(chuàng)新性提出慢快編碼策略 兼顧性能與成本

為了在短視頻理解任務(wù)中同時(shí)實(shí)現(xiàn)高準(zhǔn)確性與高效率。Keye-VL-1.5 創(chuàng)新性地提出了慢快編碼策略 (slow-fast),該策略設(shè)置慢通路處理快速變化幀(低幀數(shù)-高分辨率),快通路處理靜態(tài)幀(高幀數(shù)-低分辨率),從而在節(jié)省計(jì)算資源的同時(shí)保留關(guān)鍵信息。

漸進(jìn)式四階段預(yù)訓(xùn)練方法 大幅增強(qiáng)視頻理解能力

Keye-VL-1.5采用四階段漸進(jìn)式訓(xùn)練流水線(xiàn),以系統(tǒng)化方式提升模型性能。首先,在視覺(jué)編碼器預(yù)訓(xùn)練階段,使用SigLIP-400M權(quán)重初始化ViT,并通過(guò)SigLIP對(duì)比損失持續(xù)預(yù)訓(xùn)練以適應(yīng)內(nèi)部數(shù)據(jù)分布。第一階段重點(diǎn)優(yōu)化投影MLP層,實(shí)現(xiàn)跨模態(tài)特征的穩(wěn)固對(duì)齊;第二階段解凍全部參數(shù)進(jìn)行端到端多任務(wù)預(yù)訓(xùn)練,顯著增強(qiáng)基礎(chǔ)視覺(jué)理解能力;第三階段進(jìn)行退火訓(xùn)練,利用高質(zhì)量數(shù)據(jù)微調(diào)模型,彌補(bǔ)上一階段中高質(zhì)量樣本接觸不足的問(wèn)題,同時(shí)將序列長(zhǎng)度擴(kuò)展至128K、調(diào)整RoPE逆頻率配置,并引入長(zhǎng)視頻、長(zhǎng)文本和大尺度圖像等長(zhǎng)上下文數(shù)據(jù)。

最終,通過(guò)同質(zhì)-異質(zhì)融合技術(shù)對(duì)不同數(shù)據(jù)混合比例下的模型權(quán)重進(jìn)行平均,減少固定數(shù)據(jù)比例帶來(lái)的內(nèi)在偏差,在保持多樣化能力的同時(shí)提升模型的魯棒性。

構(gòu)建一套完整的后訓(xùn)練流程 全面提升推理能力與人類(lèi)偏好對(duì)齊

Keye-VL-1.5構(gòu)建了一套系統(tǒng)化的后訓(xùn)練流程,包含四個(gè)核心階段:監(jiān)督微調(diào)與多偏好優(yōu)化、長(zhǎng)鏈思維冷啟動(dòng)、迭代通用強(qiáng)化學(xué)習(xí)以及對(duì)齊強(qiáng)化學(xué)習(xí)。該流程進(jìn)一步融合了由快手Keye團(tuán)隊(duì)提出的五步自動(dòng)化數(shù)據(jù)構(gòu)建流水線(xiàn),并依托GSPO算法對(duì)通用強(qiáng)化學(xué)習(xí)與對(duì)齊階段進(jìn)行迭代優(yōu)化,顯著增強(qiáng)了模型的推理能力,同時(shí)更好地與人類(lèi)偏好實(shí)現(xiàn)對(duì)齊。

在多項(xiàng)權(quán)威評(píng)測(cè)中,Keye-VL-1.5-8B表現(xiàn)突出,在MMMUval、OpenCompass等大型多模態(tài)評(píng)測(cè)中達(dá)到同類(lèi)規(guī)模最佳成績(jī),在Video-MMMU視頻理解評(píng)測(cè)中取得66分,展現(xiàn)出領(lǐng)先的視頻語(yǔ)義理解與技術(shù)落地潛力。

此外,Keye-VL-1.5-8B目前已在Hugging Face、GitHub等平臺(tái)開(kāi)源,相關(guān)技術(shù)報(bào)告同步發(fā)布,推動(dòng)多模態(tài)大模型技術(shù)共享與生態(tài)共建。

快手Keye團(tuán)隊(duì)表示,該模型依托快手在短視頻領(lǐng)域的深厚積累,在視頻時(shí)序理解、場(chǎng)景推理與指令跟隨等關(guān)鍵能力方面優(yōu)勢(shì)顯著。未來(lái),Keye-VL將持續(xù)推進(jìn)多模態(tài)大模型在視頻語(yǔ)義理解與生成領(lǐng)域的探索與應(yīng)用。

項(xiàng)目主頁(yè)與技術(shù)報(bào)告:https://arxiv.org/pdf/2509.01563

Github:https://github.com/Kwai-Keye/Keye

Model:https://huggingface.co/Kwai-Keye/Keye-VL-1.5-8B

原創(chuàng)文章
最新文章
1
快手發(fā)布2026春節(jié)招商通案,攜品牌共赴“玩逛看聚購(gòu)”盛宴
2
觀(guān)看量破億 互動(dòng)超1.2億 快手直播“超級(jí)大舞臺(tái)·百城大戰(zhàn)”總決賽引爆全民狂歡 
3
快手啟動(dòng)“AI靈境計(jì)劃”:投入千萬(wàn)現(xiàn)金與億級(jí)流量,全周期扶持AI創(chuàng)作者
4
快手捐贈(zèng)500萬(wàn)港元支援香港火災(zāi)救援及災(zāi)后恢復(fù)
5
首款夸克AI眼鏡上市,阿里再次沖擊智能硬件賽道
6
家電行業(yè)如何突破存量困境,高品質(zhì)、高價(jià)值才是關(guān)鍵
7
雙11中國(guó)電視市場(chǎng)銷(xiāo)量同比大幅下降22%,面板價(jià)格保持穩(wěn)定
8
市場(chǎng)階段性觸頂,電動(dòng)牙刷如何撬動(dòng)新增長(zhǎng)?
9
天璣座艙 S1 Ultra算力全面躍級(jí)!深藍(lán) L06首搭聯(lián)發(fā)科3nm旗艦車(chē)芯
10
雙11國(guó)內(nèi)手機(jī)銷(xiāo)量:蘋(píng)果暴增37% 小米、華為分別下滑11%、22%
11
一加Ace 6T首發(fā)8300mAh冰川電池:電池最大的性能旗艦
12
雙11“帶不動(dòng)”彩電業(yè),75吋大屏增長(zhǎng)見(jiàn)頂,機(jī)會(huì)還剩這三個(gè)?
13
1999起 華為全新暢享70X開(kāi)售:麒麟芯片、一鍵發(fā)送北斗消息
14
惠普為何要裁員超4000人?AI可替代人工,存儲(chǔ)芯片價(jià)格大漲
15
海信空調(diào)引領(lǐng)智能家電“新國(guó)標(biāo)”制定  定義智慧健康好空氣
16
解碼三星OLED電視:技術(shù)圍繞需求來(lái),創(chuàng)新跟著用戶(hù)走
17
HUAWEI Mate X7正式發(fā)布,折疊引領(lǐng)者,巔峰之上再突破
18
每百戶(hù)家庭平均擁有彩電108.7臺(tái),電視行業(yè)進(jìn)入存量時(shí)代
19
iPhone 17系列賣(mài)爆 蘋(píng)果將超越三星成為行業(yè)第一
20
挑戰(zhàn)漠河極寒!米家空調(diào)冬測(cè)開(kāi)啟:涵蓋掛機(jī)、柜機(jī)等
關(guān)于我們

微信掃一掃,加關(guān)注

商務(wù)合作
  • QQ:61149512