xiaojin 发表于 前天 15:43

在X上看到一个挺有意思的:Qwen形象培训

这个模型是在qwenimage基础上训练出来的,能精准控制图像区域的模型。模型结构用的是LoRA,可以通过输入每个图像元素的文本描述和区域条件(比如掩码图),来控制这个元素的位置和形状。训练这套模型的框架是diffsynthstudio,训练用的数据集是diffsynthstudio/EliGenTrainSet。
原帖链接:https://x.com/bdsqlsz/status/1954109353209819277?s=46

模型详情页:https://www.modelscope.cn/models/DiffSynthStudio/QwenImageEliGen/summary

数据集详情页:https://www.modelscope.cn/datasets/DiffSynthStudio/EliGenTrainSet/summary

https://images.bigseek.com/forum/202507/22/1755157388.jpghttps://images.bigseek.com/forum/202507/22/1755157389.jpg

数字化转型 发表于 前天 16:05

这有什么新消息吗?稳定扩散模型早就已经存在了啊

高树凤 发表于 前天 18:52

所以基本上就是另一个控制网?挺厉害的啊

abars 发表于 前天 19:51

挺好的呀!😊

a.孤独 发表于 昨天 09:37

是的,但这毕竟是科技行业。苹果就因为比别人晚了5年推出产品,结果在2010年还被大肆称赞了一番。
页: [1]
查看完整版本: 在X上看到一个挺有意思的:Qwen形象培训