7月30日,昆仑万维肃肃推出并开源汲取自追想门路的「多模态和洽预进修模子 Skywork UniPic」,在单一模子中深度会通图像一语气、文本到图像生成、图像剪辑三大中枢才略。该模子基于大范围高质料数据进行端到端预进修,具备细致的通用性与可迁徙性。
秉抓绽开协调、分享转换的理念,昆仑万维面向社区全面绽开 Skywork UniPic 的中枢资源:
模子权重:
https://huggingface.co/Skywork/Skywork-UniPic-1.5B
期间回报:
https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf
代码仓库:
https://github.com/SkyworkAI/UniPic
01
Skywork UniPic:和洽自追想模子收场图片生成、剪辑与一语气一体化
GPT-4o的飞快走红,标注着东谈主工智能领域多模态和洽预进修模子的熟悉。Skywork UniPic 持续了 GPT-4o 的自追想范式,在单一模子中深度会通图像一语气、文本生成图像(T2I)与图像剪辑三大中枢任务,构建了果真宗一的多模态模子架构。
传统多模态和洽模子多依赖 VQ 或 VAE 编码器来压缩视觉内容,天然具备一定成果,但也存在局限性,它们更侧重保留图像的视觉细节而非语义信息,这会在一定进度上收缩模子的图像一语气才略。
为此,Skywork UniPic 团队模仿 Harmon 架构想象,并在表征边幅上作念出要道调停:汲取 MAR 编码器当作图像生成旅途的视觉表征基础,同期引入 SigLIP2 当作图像一语气旅途的骨干。
该结构想象的中枢瞻念察在于:能否构建一个轻量级和洽模子,在保抓骨子部署可行性的同期,在一语气、生成与剪辑任务上均达到顶尖性能?
Skywork-UniPic 模子中枢才略包含:
图文一语气:基于 token 瞻望完成文本的自追想建模
图像生成:汲取掩码自追想边幅,逐步生成图像 patch
图像剪辑:引入参考图与剪辑指示当作条目,生成剪辑后的图像
此外,Skywork-UniPic 完成端到端优化历程,大概收场生成、一语气、剪辑三大才略的协同进修和相互促进,粗野传统措施中才略衡量的期间瓶颈。
这一架构想象不仅保抓了自追想模子的爽快高效,更通过分享编码器收场了跨任务的深度协同,为多模态和洽模子的实用化部署奠定了坚实基础。
用户只需要输入教唆词,Skywork-UniPic 既不错像 VLM 一样一语气图像、像 T2I 模子一样生成图片,还不错像好意思图器用一样,一键收场作风转绘/吉卜力化的剪辑功能。
02
模子上风:1.5B 轻量级范围性能贴近同类大参数和洽模子,解说了“小而好意思”的期间好意思学
团队在追求模子才略极限的同期,也坚抓效率紧要性的想象理念。Skywork UniPic 以 1.5B 的紧凑参数范围,果真解说了“小而好意思”的期间好意思学:
多重期间亮点
指示罢免才略比好意思大型模子:在 GenEval 指示罢免评估中取得 0.86 的优异成绩,卓越了绝大大批同类和洽模子,在无 CoT 的情况下取得了 SOTA 分数,贴近较大模子 BAGEL(7B+7B*)带 CoT 的 0.88 分;
复杂指示生图才略最初:在 DPG-Bench 复杂指示生图基准上达到 85.5 分的行业 SOTA 水平;
图像剪辑才略和洽模子第一梯队:GEditBench-EN 取得 5.83 分,ImgEdit-Bench 达到3.49分,展现出精确的剪辑推行才略;
参数效率上风权贵:比拟同类大参数和洽模子(如 BAGEL 的 14B 总参数、UniWorld-V1 的 19B 总参数),Skywork UniPic 以 1.5B 的轻量级范围收场了接近致使卓越大参数模子的性能发扬;
部署友好,果真可落地:模子在 RTX 4090 花消级显卡上均可灵通运行,为宏打开导者和商讨者提供了果真可落,地的和洽模子处分决策,大幅裁汰了期间诓骗门槛。
03
Skywork-UniPic是若何真金不怕火成的?
数据构建:亿级高质料语料库撑抓和洽模子预进修
起原,Skywork UniPic 的不凡性能,并非源自数据堆叠的蛮力,而是收成于一套高度盛大、系统优化的数据构建体系。
团队粗野了“更大即更强”的传统理解范围,通过约亿级范围的精选预进修语料与数百万级任务精调(SFT)样本,生效构建出一套面向一语气、生成与剪辑三大中枢任务的高效力多模态进修语料库。
这一构建体系产生的语料库不仅权贵压缩了进修资源资本,更在模子泛化才略与任务迁徙发扬上展现出惊东谈主的性价比,充分考据了小范围、精筛选、高质料数据对和洽多模态模子进修的可行性与后劲。
? 奖励模子构建:数据质料驱动的智能评估体系
其次,为了确保 Skywork UniPic 在图像生成和剪辑任务上的不凡发扬,想象了专用于图像生成的Reward Model(Skywork-ImgReward)和专用于图片剪辑的Reward Model (Skywork-EditReward)。
其中,Skywork-ImgReward是基于强化学习进修的Reward Model,比拟于其他T2I Reward Model,Skywork-ImgReward在多个文生图场景下的偏好选拔发扬都更接近东谈主类偏好。它不仅被用来当作文生图数据质料的筛选,也不错在后续被用于图像生成才略强化学习进修中的奖励信号,以及当作生成图像的质料评估打算。
同期濒临图像剪辑这一中枢挑战,转换性地构建了具有针对性的Skywork-EditReward,其被用作数据质料评估时不错自动剔除最初30%的低质料剪辑样本,在 GEditBench-EN 和 ImgEdit-Bench 基准测试中发扬显着改善。后续通常也不错被用作图像剪辑强化学习进修中的奖励信号,以及当作图像剪辑的质料评估打算。
进修体系优化与计策普及
MAR进修优化体系:为普及模子发扬,汲取了两项要道优化计策:起原,在数据层面引入遮蔽更广视觉场景和类别的亿级稀疏图像数据,权贵拓展了模子的学习空间。其次,进修过程中汲取渐进式永别率普及计策,先在256×256永别率下建树镇静的底层特征抽取才略,再逐步迁徙至512×512,以增强模子的语义一语气和细粒度建模才略。
HARMON进修优化体系:为进一步普及模子性能并兼顾进修效率,想象了多阶段分层永别率进修机制。在第一阶段,模子在512×512永别率下进行微调,聚焦基础特征索求的镇静性与治感性。随后逐步普及输入永别率至1024×1024,促使模子更好地捕捉纹理、边际等高精度细节信息。
同期,汲取分阶段参数解冻计策,逐步开释模子才略。在驱动阶段,仅进修Projector模块以收场视觉与话语特征的对王人,冻结骨干荟萃和LLM参数;接着在保抓LLM编码器冻结的前提下优化视觉骨干;临了参预全量解冻阶段,进行端到端筹划优化,收场多模态协同增强。
渐进式多任务进修计策:为处分一语气、生成和剪辑三类任务难以兼得的问题,忽视渐进式多任务进修机制。
进修初期,模子先专注于单一任务(如文本生成图像),待其治理后再引入一语气与剪辑任务,按照由易到难的划定逐步增多任务复杂度,幸免多任务早期相互插手。在紧密化阶段,通过奖励模子筛选构建高质料进修数据,汲取动态阈值与万般性采样计策,确保样本既具高置信度又具语义万般性。
合座来看,以上计策在进修过程中收场了结构合理的才略开释和任务妥当,权贵普及了模子在一语气、生成和剪辑等任务上的和洽发扬,达成果真真义真义上的“一专多能”。
夙昔半年,昆仑万维依然开源了多个SOTA大模子,涵盖奖励模子、推理、软件工程、多模态、空间智能等领域。今天,Skywork-UniPic 肃肃加入「Skywork」开源群众庭,让AI果真成为每个东谈主九牛二虎之力的创意伙伴。
(职守剪辑:张晓波 )
【免责声明】本文仅代表作家本东谈主不雅点,与和讯网无关。和讯网站对文中证据、不雅点判断保抓中立,不合所包含内容的准确性、可靠性或竣工性提供任何昭示或涌现的保证。请读者仅作参考,并请自行承担一起职守。邮箱:news_center@staff.hexun.com