Jeremywhami 发表于 前天 13:31

哪怕是中文最强的qwen-image, 也只能和gpt4o-image对半开.

不得不承认,闭源的GPT4O图片生成确实挺厉害的。
同一个千问官方提示词,生成图片的中文文字质量都差不多。
第一张是千问生成的,第二张是GPT4O生成的,我反倒觉得GPT4OImage在细节处理上挺厉害的。
而且文字只要是大字,模型原生是不是中文根本无所谓。只有小字才会出现问题。
最让人遗憾的一点是,GPT4OImage API的配置参数太少了,参数少就意味着算力不能最大化输出,这点太可惜了。得学学Flux,要是出一个Ultra API版本绝对厉害。
https://images.bigseek.com/forum/202507/22/1755149509125.jpeg
https://images.bigseek.com/forum/202507/22/1755149509605.jpeg

Penger 发表于 前天 14:06

GPT4O自己翻译成繁体字了,它可能觉得这样好看?不太懂人工智能的想法。

高鱼 发表于 前天 15:04

但价格……

parasite 发表于 前天 15:08

属于臆造文字

将进酒 发表于 前天 15:19

最强的难道不是豆包吗

15506346450 发表于 前天 15:40

在画图的自回归模型的精确控制方面,肯定比扩散模型做得好。
因为扩散模型的方法是去噪,控制的粒度太粗了。
不过,gptimage1在中文方面不太好。

woomoo 发表于 前天 17:55

qwenimage就是豆包的强化版本,我试了下豆包,文字都不完整。
页: [1]
查看完整版本: 哪怕是中文最强的qwen-image, 也只能和gpt4o-image对半开.