开云体育接洽团队模仿了一个经典的数知识题——匈牙利算法-开云·kaiyun(中国)官方网站 登录入口

发布日期:2025-09-25 07:29    点击次数:175

开云体育接洽团队模仿了一个经典的数知识题——匈牙利算法-开云·kaiyun(中国)官方网站 登录入口

开云体育

这项由ByteDance UXO团队的程宇峰、吴文旭等接洽东谈主员于2025年9月完成的接洽发表在arXiv预印本平台,论文题目为"UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward"。感兴味的读者可以通过https://github.com/bytedance/UMO 走访无缺的代码和模子资源。

提及AI生成图片,大众可能王人不生分。你给AI一段翰墨描述,它就能画出相应的图片来。关联词有一个让东谈主头疼的问题:当你想让AI同期画出几个不同的东谈主物时,粗俗会出现"认错东谈主"的情况。比如你上传了张三和李四的像片,想让AI画一幅他们沿路踢足球的图片,终止AI可能把张三画成了李四的口头,或者干脆把两个东谈主王人画得差未几,分不清谁是谁。

这就好比让一个脸盲症患者同期记取好几个东谈主的长相,然后笔据你的描述画出他们。当只好一个东谈主的时间,他还能对付画对,但东谈主数一多,就初始污染不清了。这种"身份宏大"的问题严重收尾了AI在个性化内容创作中的支配。

ByteDance的接洽团队发现了这个问题背后的根蒂原因:现存的AI智力选用的是一种"一双一匹配"的想路,就像给每个参考像片分拨一个固定的生成位置。但这种智力忽略了一个蹙迫事实:归拢个东谈主在不轸恤境下可能会有很大变化(比如不同颜料、角度、穿戴),而不同东谈主在某些要求下可能看起来很相似。当需要生成的东谈主物越来越多时,这种"一双一"的智力就力不从心了。

为了料理这个问题,接洽团队建议了一个叫作念UMO的全新框架,这个名字代表"谐和多身份优化"。UMO的中枢创新在于选用了"多对多匹配"的计策,就像一个提醒丰富的导演在安排练员站位时,会轮廓磋商总共演员的特质和剧情需要,然后作念出最好的举座安排。

一、从头界说问题:从固定匹配到天真分拨

传统的AI生成智力就像一个刻板的针织,老是让学生按照固定的座位表坐下:第一张参考像片对应生成图片中的第一个东谈主,第二张像片对应第二个东谈主,依此类推。这种智力看起来很有层次,但本体使用中却问题重重。

当你想生成一张"三个一又友在海边聊天"的图移时,传统智力会严格按照你上传像片的规章来安排生成终止。但问题是,像片中的光辉、角度、颜料王人可能与最终身成图片的要求不透澈匹配。淌若第一张参考像片是一个东谈主的侧脸,而生成图片中需要的是正面朝向镜头的东谈主,传统智力就会对付按照侧脸像片生成正面图像,终止时常不睬想。

UMO团队建议了一个创新性的主见:为什么不让AI我方决定哪张参考像片最合适生成图片中的哪个东谈主物呢?就像一个奢睿的画家,他会仔细不雅察总共的参考素材,然后罗致最合适的角度和特征来完成作品。

具体来说,UMO会同期磋商总共的参考像片和需要生成的总共东谈主物位置,然后通过复杂的缠绵找到最好的匹配决策。这个流程就像解一个复杂的拼图游戏,每一块拼图(参考像片)王人要找到它最合适的位置(生成东谈主物),举座效果才能达到最好。

二、中枢时间:将匹配问题升沉为优化游戏

为了收尾这种"多对多"的智能匹配,接洽团队模仿了一个经典的数知识题——匈牙利算法。这个算法发轫是为了料理责任分拨问题而想象的:假定你有10个工东谈主和10项责任,每个工东谈主完成不同责任的遵循王人不通常,怎么分拨才能让举座遵循最高?

在UMO的系统中,"工东谈主"便是参考像片中的东谈主物,"责任"便是生成图片中需要填充的东谈主物位置。系统管帐算每张参考像片与每个生成位置的"相似度得分",然后找到一个全局最优的分拨决策。

这个相似度得分是何如缠绵的呢?接洽团队想象了一个玄机的评分系统。他们使用特别的东谈主脸识别鸠合来索求每张像片的"身份特征",这些特征就像每个东谈主专有的"身份指纹"。然后,系统会比较参考像片的身份指纹和生成图片中每个东谈主物的身份指纹,相似度越高,得分就越高。

但这里有个要道点:UMO不仅要让匹配的东谈主物尽可能相似(提高正确匹配的得分),还要让不匹配的东谈主物尽可能不同(缩小纰缪匹配的得分)。这就像在玩一个双重游戏:既要找到最像的配对,又要幸免纰缪的配对。

三、考验方式:用奖励机制劝诱学习

有了好的匹配计策,接下来的问题是怎么考验AI系统。传统的考验智力就像提醒生作念数学题:给圭臬谜底,让学生反复熟习,作念错了就改进。但在多东谈主物生成这个问题上,很难界说什么是"圭臬谜底",因为归拢个描述可能有多种合理的生成终止。

UMO选用了一种全新的考验方式,叫作念"奖励反应学习"。这种智力更像是考验宠物:作念得好就给奖励,作念得不好就减少奖励,让AI系统我方摸索出最好的生成计策。

具体的考验流程是这么的:AI系统发轫笔据给定的翰墨描述和参考像片生成一张图片。然后,UMO的评分系统会对这张生成图片进行"打分":淌若东谈主物身份保合手得好,不同东谈主物之间区别度高,就给高分;淌若出现身份宏大或者东谈主物特征不澄澈,就给低分。

这个评分不是通俗的对错判断,而是一个一语气的数值。系统会笔据这个分数调整我方的生成计策:哪种操作得到了高分,下次就更倾向于使用访佛的操作;哪种操作导致了低分,就会尽量幸免。

经过多量的考验,AI系统冉冉学会了在生成多东谈主图移时怎么更好地保合手每个东谈主的身份特征,同期幸免不同东谈主物之间的污染。

四、数据准备:构建各样化的考验素材

要考验出一个优秀的多东谈主物生成系统,需要多量高质地的考验数据。但现存的公开数据集大多只包含单东谈主或双东谈主的情况,很少有包含更多东谈主物的素材。接洽团队不得不我方构建一个新的数据集。

他们选用了两种计策来网罗数据。第一种智力是从电影和电视剧中索求素材。这些影视作品粗俗包含多量的多东谈主场景,况回去拢个演员会在不同场景中以不同的角度、颜料和服装出现,这恰是考验多身份生成系统所需要的素材各样性。

接洽团队开采了一套自动化的索求系统:发轫从长视频中找到包含多个东谈主物的要道帧,然后在归拢部作品的其他片断中寻找这些东谈主物的其他出现场景。这么,关于每个多东谈主场景,他们王人能找到对应的多张参考像片。

第二种智力是使用现存的AI生成时间来创造合成数据。他们让AI系统生成多量的诬捏东谈主物图像,然后将这些诬捏东谈主物组合成各式多东谈主场景。天然这些合成数据的质地可能不如信得过像片,但经过严格的筛选和过滤,仍然可以行为考验数据的有用补充。

最终,接洽团队构建了一个包含数万张多东谈主图像的考验数据集,每张图像王人配有对应的多张参考像片和详备的翰墨描述。这个数据集障翳了从2东谈主到6东谈主的各式组合,包含了不同的年级、性别、种族和场景建立。

五、评估圭臬:怎么斟酌身份宏大进程

为了客不雅评估UMO系统的效果,接洽团队还想象了一个新的评臆测划,特别用来测量多东谈主生成中的身份宏大进程。这个计算叫作念"身份宏大度"。

传统的评估智力粗俗只良善生成图片中的东谈主物与参考像片的相似进程,但这种智力无法有用检测身份宏大的问题。比如,淌若AI把两个不同的东谈主王人生成成了归拢张脸,传统计算可能仍然会给出可以的分数,因为生成的脸如实与其中一张参考像片很相似。

身份宏大度计算的想象想路是这么的:关于每张参考像片,系统会在生成图片中找到与它最相似的东谈主物,以考中二相似的东谈主物。淌若这两个相似度差距很大,阐发身份区别度很好;淌若差距很小,阐发可能出现了宏大,即多个生成东谈主物王人与归拢张参考像片相似。

这个计算的缠绵流程就像评判一场选好意思比赛:咱们不仅要看冠军的得分有多高,还要看冠军和亚军的得分差距有多大。差距越大,阐发冠军的上风越显然,身份区别度就越好。

通过这个新计算,接洽团队大略更准确地评估不同智力在多东谈主生成任务中的发达,稀奇是在幸免身份宏大方面的才调。

六、实验终止:权贵进步多东谈主生成质地

接洽团队在多个不同的基础模子上测试了UMO智力的效果,终止令东谈主印象深刻。他们罗致了两个代表性的基础模子:UNO和OmniGen2,这两个模子在单东谈主生成任务上王人有可以的发达,但在多东谈主生成上存在显然的身份宏大问题。

在单东谈主生成任务上,UMO将UNO模子的身份相似度从47.91分进步到了80.89分,将OmniGen2模子从62.41分进步到了91.57分。这种进步幅度是相配权贵的,意味着生成图片中的东谈主物与参考像片的相似度有了质的飞跃。

在多东谈主生成任务上,效果愈加显然。UMO将UNO模子的身份相似度从31.82分进步到69.09分,身份宏大度从61.06分进步到78.06分。这标明不仅生成的东谈主物更像参考像片,况且不同东谈主物之间的区别度也大大提高了。

为了更直不雅地展示效果,接洽团队还进行了多量的视觉对比实验。在这些对比中,可以澄澈地看到传统智力生成的多东谈主图片中粗俗出现面部特征宏大、东谈主物难以区别的问题,而UMO生成的图片中每个东谈主物王人保合手了赫然的个性特征,身份澄澈可辨。

稀奇值得留心的是,UMO的改进不单是体当今身份保合手上,在其他方面如图片质地、翰墨描述匹配度等计算上也王人有不同进程的进步。这阐发UMO的优化是全场地的,而不所以阵一火其他性能为代价来疏通身份一致性的进步。

七、用户反应:专科东谈主士和频频用户王人认同

除了客不雅的数值评估,接洽团队还进行了大范围的用户调研,邀请了包括专科想象师和频频用户在内的数百东谈主对生见效果进行主不雅评价。

调研终止袒露,在身份一致性、图片好意思不雅度、翰墨描述匹配度和举座欢欣度四个维度上,UMO王人得到了最高的用户评分。稀奇是在身份一致性方面,UMO的得分显然高出了其他总共对比智力,证明了用户大略直不雅地感受到身份宏大问题的改善。

一位参与测试的专科影相师默示:"使用UMO生成的多东谈主像片,每个东谈主的面部特征王人很澄澈,不会出现那种'众人脸'的嗅觉。这关于需要个性化内容创作的场景来说绝顶蹙迫。"

频频用户的反应也很积极。一位用户说:"我之前试过让AI画我和一又友们的合影,终止AI老是把咱们画得很像,分不清谁是谁。用了这个新智力后,每个东谈主王人能保合手我方的特色,嗅觉就像真是在沿路拍照通常。"

八、时间细节:玄机的工程收尾

天然UMO的中枢想想并不复杂,但要将其告捷支配到本体的AI系统中,需要料理好多时间细节问题。

发轫是缠绵遵循问题。多对多匹配的缠绵复杂度相对较高,稀奇是当东谈主物数目增多时,可能的匹配组合会呈指数级增长。接洽团队选用了优化的匈牙利算法收尾,并联接了一些启发式计策来加快缠绵流程。

其次是考验踏实性问题。奖励反应学习天然天真有用,但也容易出现考验不踏实的情况。接洽团队通过全心想象奖励函数的权重建立,以及选用渐进式考验计策,确保了考验流程的踏实性。

还有一个蹙迫的工程磋商是怎么与现存的生成模子无缝集成。UMO被想象成一个通用的优化框架,可以很容易地支配到不同的基础生成模子上,而不需要对原有模子进行大幅修改。这种想象使得UMO具有很强的实用价值。

为了考据这种通用性,接洽团队在多种不同架构的生成模子上进行了测试,包括基于扩散模子的UNO和基于transformer的OmniGen2。实验终止证明,UMO在总共测试的基础模子上王人能带来权贵的改进效果。

九、支配远景:开启个性化内容创作新时间

UMO的告捷不单是是一个时间毁坏,更蹙迫的是它为个性化内容创作开辟了全新的可能性。在文娱产业中,电影制片东谈主可以使用UMO来快速生成主见图和故事板,在不同场景中准确展现每个变装的特征。

在进修鸿沟,教师可以创建包含多个历史东谈主物的提醒图片,匡助学生更好地结伴历史事件。在酬酢媒体上,用户可以玩忽制作包含一又友和家东谈主的创意图片,而无用顾虑AI会把大众画得面貌腌臜。

企业营销亦然一个蹙迫的支配场景。品牌可以使用UMO来创建包含信得过客户或职工的宣传素材,确保每个东谈主的特征王人能准确呈现,提高内容的信得过感和亲和力。

诬捏试验和游戏开采是另一个充满后劲的支配鸿沟。游戏开采者可以使用UMO来生成包含多个玩家变装的游戏场景,确保每个变装王人保合手专有的视觉特征。这关于进步游戏的千里浸感和个性化体验绝顶蹙迫。

致使在医疗和脸色健康鸿沟,UMO也可能阐扬作用。脸色颐养师可以使用这项时间匡助患者重构记念中的场景,或者创建用于颐养的视觉材料。

十、时间收尾与将来改进标的

尽管UMO取得了权贵的后果,但接洽团队也坦诚地指出了现时时间的一些收尾。最主要的收尾是跟着东谈主物数目的增多,生成质地会出现一定进程的下落。当需要同期生成高出6个东谈主物时,即使是UMO也会濒临挑战。

这个问题的根源在于基础生成模子本人的才调收尾。当输入的参考图片数目增多时,模子需要处理的信息量呈几何级数增长,这超出了现时模子架构的处理才调。接洽团队觉得,跟着更刚劲的基础模子的出现,这个收尾将会得到缓解。

另一个收尾是对极点格调化场景的处理才调。当用户要求生成绝顶艺术化或格调化的图移时,比如卡通格调或油画格调,UMO的身份保合手才调会有所下落。这是因为格调转机流程中可能会丢失一些蹙迫的身份特征信息。

缠绵老本亦然一个需要磋商的要素。比拟于传统的生成智力,UMO需要额外的缠绵资源来进行多对多匹配和奖励缠绵。天然这个增多的老本在可袭取范围内,但关于需要大范围部署的支配场景来说,仍然需要进一步优化。

接洽团队照旧在计算下一阶段的改进责任。他们计算开采更高效的匹配算法,减少缠绵支拨;同期接洽怎么更好地处理格调化生成任务,以及怎么扩张到更多东谈主物的场景。

说到底,UMO代表了AI图像生成鸿沟的一个蹙迫高出。它不仅料理了一个本体存在的时间问题,更蹙迫的是提供了一种全新的想路来处理多对象生成任务。这种"全局优化"的想想可能会对通盘AI生成鸿沟产生潜入的影响。

关于频频用户来说,UMO意味着更好的个性化内容创作体验。不久的将来,当你想要创建包含家东谈主一又友的创意图移时,再也无用顾虑AI会把大众画得面貌腌臜、难以辩认了。每个东谈主王人将在数字寰宇中保合手我方专有的神情和特征,这让AI生成的内容愈加信得过、更有温度。

从时间发展的角度来看,UMO也为其他干系接洽提供了有价值的启发。它展示了怎么将经典的优化算法与当代深度学习时间相联接,怎么想象有用的奖励机制来劝诱模子学习,以及怎么构建针对特定问题的评估圭臬。这些提醒和智力论关于股东通盘AI鸿沟的发展王人具有蹙迫道理。

目下,接洽团队照旧开源了UMO的代码和预考验模子,任何对此感兴味的开采者和接洽东谈主员王人可以基于他们的责任进行进一步的创新和支配。这种怒放的立场将有助于加快干系时间的发展和普及,让更多的东谈主大略受益于这项时间毁坏。

Q&A

Q1:UMO与传统AI生成智力的主要区别在那儿?

A:传统智力选用"一双一匹配",即第一张参考像片固定对应生成图片中的第一个东谈主,容易变成身份宏大。UMO选用"多对多匹配"计策,让AI自动罗致最合适的参考像片来生成每个东谈主物,就像智能拼图通常找到最好组合。

Q2:UMO在多东谈主生成任务上效果怎么?能处理若干东谈主?

A:UMO权贵改善了多东谈主生成质地。在测试中,将UNO模子的身份相似度从31.82分进步到69.09分,身份宏大度从61.06分进步到78.06分。目下能较公根由2-6东谈主的场景,高出6东谈主时会濒临一定挑战。

Q3:频频用户怎么体验UMO时间?

A:目下接洽团队已在GitHub开源了UMO的代码和模子(https://github.com/bytedance/UMO),开采者可以基于此进行支配开采。展望不久的将来会有更多基于UMO时间的用户友好家具出现,让频频用户大略玩忽创作高质地的多东谈主图片。