在X上看到一个挺有意思的：Qwen形象培训_日常闲聊_BigSeek AI社区

xiaojin 发表于前天 15:43

在X上看到一个挺有意思的：Qwen形象培训

这个模型是在qwenimage基础上训练出来的，能精准控制图像区域的模型。模型结构用的是LoRA，可以通过输入每个图像元素的文本描述和区域条件（比如掩码图），来控制这个元素的位置和形状。训练这套模型的框架是diffsynthstudio，训练用的数据集是diffsynthstudio/EliGenTrainSet。
原帖链接：https://x.com/bdsqlsz/status/1954109353209819277?s=46

模型详情页：https://www.modelscope.cn/models/DiffSynthStudio/QwenImageEliGen/summary

数据集详情页：https://www.modelscope.cn/datasets/DiffSynthStudio/EliGenTrainSet/summary

https://images.bigseek.com/forum/202507/22/1755157388.jpghttps://images.bigseek.com/forum/202507/22/1755157389.jpg

数字化转型 发表于前天 16:05

这有什么新消息吗？稳定扩散模型早就已经存在了啊

高树凤 发表于前天 18:52

所以基本上就是另一个控制网？挺厉害的啊

abars 发表于前天 19:51

挺好的呀！😊

a.孤独 发表于昨天 09:37

是的，但这毕竟是科技行业。苹果就因为比别人晚了5年推出产品，结果在2010年还被大肆称赞了一番。

页: [1]

BigSeek_AI社区_AI论坛's Archiver

在X上看到一个挺有意思的：Qwen形象培训