
允中 发自 凹非寺开云(中国)Kaiyun·体育官方网站-登录入口
量子位 | 公众号 QbitAI
一支不到15东谈主的团队,把图像模子作念到了人人第三。
5月6日凌晨,Luma AI崇拜文告敞开Uni-1.1 API。
险些在兼并工夫,由第三方机构Arena.ai发布的图像生成榜单,完成了最新一轮的“大洗牌”——
Luma凭UNI-1.1与UNI-1.1-Max平直冲进人人前三,仅次于OpenAI(gpt-image-2)和Google(nano-banana-2)。
△Arena.ai图片生成榜单
把Microsoft AI、Reve、xAI等玩家……悉数甩在死后。
这个排行的含金量不问可知,Arena.ai聘用的是一套依靠用户盲测投票产出的ELO评分系统,莫得官方公关或自报数据,每张图齐是由的确用户在不知谈模子来源的前提下,对两份生成后果二选一投出来的。
这意味着,在的确场景下,图像模子Uni-1.1的审好意思和输出质地,仍是成了OpenAI和Google以外的最优解。
随API、排行榜单一同发布的,还有两项硬缠绵值得一齐看:
落地马上:阿迪达斯、马自达以及阳狮集团等告白大户,仍是带头签了单。
落地马上:阿迪达斯、马自达以及阳狮集团等告白大户,仍是带头签了单。
更值得缜密的是,一个正本预算1500万好意思元、周期一年的告白campaign,用Luma Agents跑了40小时、花了不到2万好意思元,不仅拓展成多国脉地化版块,还通过了甲方内审。
这仍是不是在考虑“丹青得好不好意思瞻念”了。
推理和生成,住进兼并个模子
好多东谈主开始看到Uni-1,第一反映以为这是又一个图像模子。
但Luma此次发布的着实卖点,并不在像修养量自己,而是它把推理(reasoning)和生成(generation)放进了兼并个模子。
传统图像模子的职责流是:用户写prompt → 模子平直出图 → 不舒心→ 换prompt重抽。
总共这个词过程里,模子和会了什么和模子画了什么是两件事,企业拿这种AI用具去跑品牌投放,最大的痛点是不行控,兼并个变装到了下一张图就变样、品牌色每次齐飘、跨市场素材格调各跑各的。
而Uni的架构窜改了这件事。
它聘用decoder-only自转头Transformer,文本token与图像token分享兼并个序列——
也等于说,模子不是先翻译再画,而是同期跨模态推理;构图、空间、品牌一致性这些看守,是在像素生成之前就仍是在结构层面被求解。
API层面的体现等于两个端点:
Reasoning端点:解构领导、策动构图、锁定品牌/变装/产物看守;
Generation端点:在推理后果之上完成像素渲染。
Reasoning端点:解构领导、策动构图、锁定品牌/变装/产物看守;
Generation端点:在推理后果之上完成像素渲染。
这套想象的产业艳羡艳羡,是把创意可控性从prompt工程的哲学,形成了一组能写进分娩pipeline的API左券。
谁在用:告白巨头、通顺品牌、素材平台
Luma此次莫得把Uni-1.1当成竖立者玩物发布,而是平直把企业客户名单亮了出来。
1、告白与营销侧
Publicis Groupe(阳狮,人人跳动的告白与传播集团)和Serviceplan(欧洲最大的自主筹画告白代理集团):
把Luma Agents(基于Uni-1.1)部署到从计谋、创意竖立到分娩的全进程。
一个被屡次征引的标杆案例是,把某品牌原缠绵1500万好意思元、一年期的告白campaign,用40小时、不到2万好意思元(合东谈主民币约13.6万元)的本钱,拓展为多国脉地化版块,且通过了甲方里面质地审核。
Adidas、Mazda:
把Uni-1.1接入品牌内容分娩活水线,用于跨市场视觉素材的批量生成与一致性难得。
2、素材与竖立者生态侧
Envato、Comfy、Runware、Flora、Krea、Magnific、Fal、LovArt等创作家平台与AI职责流公司,已基于Uni-1.1 API发布了集成。
Luma首创东谈主兼CEO Amit Jain把这件事综合为:
用谈话念念考,用像素想象与渲染,这等于像素中的智能(intelligence in pixels)。
用谈话念念考,用像素想象与渲染,这等于像素中的智能(intelligence in pixels)。
从已落地的客户案例倒推,Uni-1.1 API在以下三个方朝上,仍是有了明晰的ROI模子:
1. 告白土产货化
一支在纽约拍的告白主视觉,要在东京、利雅得、巴黎、上海各发一版。
传统进程要重拍、重P、重作念合规审查,单条预算从几万到几十万好意思元不等。
Uni-1.1单次API调用复旧最多9张参考图蚁集输入,把品牌主形象、笔墨、产物、地域元素行为模子层级的硬看守传入,多谈话渲染(含中语、阿拉伯文等非拉丁字符)一次到位。
Publicis案例里40小时 vs 一年的差距,等于从这里挤出来的。
2. 电商与产物可视化
电市集景的痛点是量大、SKU杂、还要保证产物实质一致。
Luma官方把这种用法叫作reference-grounded brand workflows at scale,即参考图行为模子级看守,把视觉身份锁在总共channel里。
3. 变装与IP一致性
游戏好意思宣、漫画、影视前期、杜撰代言——
这些场景需要兼并个变装穿越不同场景、姿态、色泽,但身份信息必须稳如老狗。
Uni-1.1的多参考图机制+ 句子级剪辑(按句改图,默许保留其他元素),让这件事不错作念成笃定性活水线,而不是反复抽卡赌运谈。
智力速览:3个例子,看懂鸿沟单图直出一整张「2036年新闻网站」
Prompt:Generate a news website page from the year 2036, featuring relevant news stories and ad blocks designed not for humans, but for AI agents who have evolved into distinct personalities. Both the website and all the advertisements featured on it should be in English.
(生成一个来自2036年的新闻网站页面,其中包含辩论的新闻,以及出奇为Agent想象的告白模块。这些Agent仍是进化出各自利有的“东谈主格”。总共这个词网站内容以及总共告白齐必须使用英文呈现。)
一张图测出一个模子的「的确成色」——
Uni-1.1单次推理生成了一整页可读的新闻网站:
包括报头、栏目导航、突发新闻条、头条主图、多栏正文、签字/工夫戳、面向AI受众的横幅告白位、页脚伙同,十几类版式元素同框,每一类的英文文本齐是的确可读的。
而不是图像模子常见的「遥望OK、但近看全是乱码」。
这么的复杂版面+长文本任务,在传统pipeline里要由文本剪辑、OCR一致性、版面结构多个模块蚁集完成,Uni-1.1把它们抓在了一次推理里。
多参考图+品牌logo+真东谈主和会
两只猫+一位真东谈主+Luma logo,4张参考图和会成一个有逻辑的会议场景。
GPT Image 1.5把参考图当贴图平直镶嵌了PPT区域,Uni-1在语义层面完成了和会,这是品牌campaign里产物+代言东谈主+场景+logo组合最常见的需求。
多轮剪辑:三连改不丢主体
去掉前边那只熊→加一个玄色布帘→改成长短像片,三轮领导访佛,主体一致性和空间关连在每一轮齐没崩。
这是按句剪辑在分娩环境里最值钱的智力,产物司理不错像剪辑文档相通迭代视觉。
(注:Uni-1.1还复旧中语笔墨渲染、UV贴图、草稿转漫画、格调挪动、跨年齿变装故事板等更多场景,本文不再张开。)
价钱:把图像生成的边缘本钱打到地板
API平直对企业打开了两档计费:
Build缠绵(按量计费)
Scale缠绵(预留蒙眬,最低8单位起订)
Luma的官方说法是,价钱与蔓延均不到同类模子的一半——
这极少在第三方榜单和早期接入客户的本钱对比里已被实证。
SDK遮蔽Python/Java/Type/Go/CLI,从platform.lumalabs.ai拿key即可接入。
团队不到15东谈主,干到人人第三:DDIM之父&CVPR最好论文作家带队
Uni-1的中枢辩论团队不到15东谈主,由两位华东谈主学者领衔:
宋佳铭(Jiaming Song):清华本科、斯坦福博士。代表作DDIM(Denoising Diffusion Implicit Models)是扩散模子采样加快的奠基职责之一,被Stable Diffusion、DALL·E等系统闲居聘用;
沈博魁(William Shen):斯坦福本科及博士。代表作获CVPR 2018 Best Paper Award和RSS 2022 Best Student Paper Award。
宋佳铭(Jiaming Song):清华本科、斯坦福博士。代表作DDIM(Denoising Diffusion Implicit Models)是扩散模子采样加快的奠基职责之一,被Stable Diffusion、DALL·E等系统闲居聘用;
沈博魁(William Shen):斯坦福本科及博士。代表作获CVPR 2018 Best Paper Award和RSS 2022 Best Student Paper Award。
一位深耕“生成”、一位精于“和会”。
这种互补的威望,碰劲对应了Uni-1.1“脑手合一”的架构,让模子在落笔绘制之前,先学会像东谈主类相通念念考构图和品牌逻辑。
在Google、OpenAI主导的图像赛谈里,一支不到15东谈主的团队,把API订价压到同业一半,还趁便在Arena.ai上完成了对一众大厂的“越级反杀”,是此次发布另一个值得记一笔的产业信号。
API发布前后,Luma团队在X平台上,贴出了三条短评:
Luma首席科学家宋佳铭说:
咱们用的算力限度可能会让你感到不测。为咱们团队感到夸口。
(略微更详确的叙述,很快会发布。)
咱们用的算力限度可能会让你感到不测。为咱们团队感到夸口。
(略微更详确的叙述,很快会发布。)
Uni-1辩论负责东谈主沈博魁(William Shen)说:
UNI-1的首发,让咱们成了除OpenAI与Gemini App以外排行最高的履行室。对一个第一代融合图像模子来说,这个源头不算差。顺带一提,此次榜单更新里,GPT Image 2的ELO比之前掉了110分,不太笃定中间发生了什么……
UNI-1的首发,让咱们成了除OpenAI与Gemini App以外排行最高的履行室。对一个第一代融合图像模子来说,这个源头不算差。顺带一提,此次榜单更新里,GPT Image 2的ELO比之前掉了110分,不太笃定中间发生了什么……
而Luma模子产物lead Barkley Dai说:
Luma当今是Arena.ai第三名了。GPT-Image 2级别的智能,Midjourney级别的审好意思,价钱唯有Nano Banana的零头。
Luma当今是Arena.ai第三名了。GPT-Image 2级别的智能,Midjourney级别的审好意思,价钱唯有Nano Banana的零头。
两条背后的潜台词是,Uni-1.1是Luma融合智能路子的第一代产物;
而它所以第一代的身份,平直干到Arena.ai第三名,把价钱压到同类一半。
下一步:从图像到“看说推想”的连气儿流
按照Luma的路子图,Uni-1.1仅仅融合智能的第一代落地形状。
下一步,他们会把这套融合框架从静态图像扩张到视频、语音和交互式寰宇模拟——
标的是构建一个能在连气儿流里看、说、推理、想象的多模态系统。
其CEO Amit Jain对此的总结是:
融合智能的着实价值,不是更好意思瞻念的图,而是模子既能和会又能生成之后,AI第一次着实具备了端到端完成创意职责的智力。
API进口:lumalabs.ai/api
官方公告:lumalabs.ai/news/uni-1-1-api
接入文档:platform.lumalabs.ai
SDK:Python/Java/Type/Go/CLI
*本文系量子位获授权刊载开云(中国)Kaiyun·体育官方网站-登录入口,不雅点仅为原作家总共。