哪怕是中文最强的qwen-image , 也只能和gpt4o-image对半开._日常闲聊_BigSeek AI社区

Jeremywhami 发表于前天 13:31

哪怕是中文最强的qwen-image, 也只能和gpt4o-image对半开.

不得不承认，闭源的GPT4O图片生成确实挺厉害的。
同一个千问官方提示词，生成图片的中文文字质量都差不多。
第一张是千问生成的，第二张是GPT4O生成的，我反倒觉得GPT4OImage在细节处理上挺厉害的。
而且文字只要是大字，模型原生是不是中文根本无所谓。只有小字才会出现问题。
最让人遗憾的一点是，GPT4OImage API的配置参数太少了，参数少就意味着算力不能最大化输出，这点太可惜了。得学学Flux，要是出一个Ultra API版本绝对厉害。
https://images.bigseek.com/forum/202507/22/1755149509125.jpeg
https://images.bigseek.com/forum/202507/22/1755149509605.jpeg

Penger 发表于前天 14:06

GPT4O自己翻译成繁体字了，它可能觉得这样好看？不太懂人工智能的想法。

高鱼发表于前天 15:04

但价格……

parasite 发表于前天 15:08

属于臆造文字

将进酒 发表于前天 15:19

最强的难道不是豆包吗

15506346450 发表于前天 15:40

在画图的自回归模型的精确控制方面，肯定比扩散模型做得好。
因为扩散模型的方法是去噪，控制的粒度太粗了。
不过，gptimage1在中文方面不太好。

woomoo 发表于前天 17:55

qwenimage就是豆包的强化版本，我试了下豆包，文字都不完整。

页: [1]

BigSeek_AI社区_AI论坛's Archiver

哪怕是中文最强的qwen-image, 也只能和gpt4o-image对半开.