ChatGPT Images 2.0发布,这次最狠的是能像跟设计师聊天一样改图

凌晨,OpenAI毫无征兆地发布了ChatGPT Images 2.0。很多人以为这只是一次常规的图片生成升级,画质更好、细节更丰富,仅此而已。但实测了一晚上之后发现,这次最狠的,根本不是画得更像了。

Images 2.0的核心升级,藏在一个不太起眼的地方,理解能力。上一代模型在生成图片时,对用户输入的理解基本停留在字面意思。你说“一只猫坐在沙发上”,它就给你画一只猫坐沙发上,猫的颜色、沙发的款式、光线角度,全靠模型随机发挥。你不能跟它说“猫再胖一点”“沙发换成红色的”“窗户外面加个月亮”,因为它记不住上下文,也没办法在已有基础上做修改。

Images 2.0完全不一样了。它内置了一个类似对话式图像生成的机制,你可以像跟设计师聊天一样,不断提出修改意见,模型会在原有图片的基础上逐轮调整。实测下来,连续修改十几次之后,画面质量依然稳定,不会出现那种改着改着画风突变、人脸变形的情况。这意味着什么?意味着你不需要一次性写一个完美到不行的提示词,你可以先画个大概,然后慢慢调。

举个例子,你想生成一张海报。先跟它说“画一张科幻电影海报,太空背景,一个宇航员站在星球表面”。它给你一张图,你觉得宇航员的姿势太僵硬,就跟它说“宇航员换成侧身站着,手里拿个发光的武器”。它改了,你觉得星球颜色不好看,又说“星球换成蓝色带光环那种”。它继续改,你又说“标题字体换成粗一点的科幻字体”。它全都能做到,而且每一轮改动的幅度刚好,不会把之前好的部分弄丢。

这种能力在目前的图像生成模型里,算是独一份。Midjourney也有修改功能,但操作路径比较绕,得重新跑图,不能像聊天一样自然。Stable Diffusion可以局部重绘,但对用户的技术要求高,普通用户根本用不来。Images 2.0把这件事简化到了极致,会打字就行。

第二个狠的升级,是风格一致性。以前用AI生成多张图片,最头疼的问题就是风格不统一。第一张图是写实风,第二张突然变成二次元,第三张又成了油画。你想做一套风格统一的插图或者漫画,得花大量时间调参数、试种子号,还不一定能成功。

Images 2.0支持风格锁定功能。你给它一张参考图,或者描述一种风格,它后续生成的所有图片都会保持这种风格。实测下来,不管是人物插画、产品渲染还是场景概念图,风格的一致性保持得非常好。这意味着你可以用AI生成一套完整的漫画、一套产品宣传图、甚至一本绘本,而且每一张图看起来都像是同一个人画的。

第三个升级,是图片里的文字生成。以前的AI生成图片,里面的文字基本都是乱码,英文还好一点,中文基本没法看。Images 2.0在这方面进步很大,英文文本的准确率能到95%以上,中文也到了80%左右。你让它生成一张“新年快乐”的贺卡,它真的能在图片里写出这四个字,字体还算工整,位置也放得对。虽然偶尔还会有错别字或者笔画问题,但相比上一代已经是天壤之别了。

这个能力的应用场景非常广。电商做商品图,可以直接在图片里生成价格标签和促销文案;自媒体做封面图,可以直接生成标题文字,不用再单独去PS里加字;做PPT配图,也可以直接生成带标注的图表。

当然,Images 2.0也不是完美无缺。生成速度比上一代慢了大概30%,一张高清图得等十秒左右。对于批量作图来说,这个等待时间有点长。另外,对中文的理解还是不如英文,复杂的中文提示词偶尔会被误解。还有就是老问题,生成人的手指偶尔还会翻车,六根手指、手指黏连的情况虽然比上一代少了,但依然存在。

OpenAI这次发布Images 2.0,其实是在下一盘更大的棋。他们想把图像生成从“一次性创作”变成“对话式创作”。以前你用AI画图,是一锤子买卖,画完就完事了。现在你可以跟AI反复沟通、反复修改,直到满意为止。这个过程更接近人类设计师的工作流程,也大大降低了AI绘图的使用门槛。不会写长提示词的人,也能通过多轮对话得到想要的结果。