ChatGPT Images 2.0发布，这次最狠的是能像跟设计师聊天一样改图

科技快讯
1小时前
4热度

凌晨，OpenAI毫无征兆地发布了ChatGPT Images 2.0。很多人以为这只是一次常规的图片生成升级，画质更好、细节更丰富，仅此而已。但实测了一晚上之后发现，这次最狠的，根本不是画得更像了。

Images 2.0的核心升级，藏在一个不太起眼的地方，理解能力。上一代模型在生成图片时，对用户输入的理解基本停留在字面意思。你说“一只猫坐在沙发上”，它就给你画一只猫坐沙发上，猫的颜色、沙发的款式、光线角度，全靠模型随机发挥。你不能跟它说“猫再胖一点”“沙发换成红色的”“窗户外面加个月亮”，因为它记不住上下文，也没办法在已有基础上做修改。

Images 2.0完全不一样了。它内置了一个类似对话式图像生成的机制，你可以像跟设计师聊天一样，不断提出修改意见，模型会在原有图片的基础上逐轮调整。实测下来，连续修改十几次之后，画面质量依然稳定，不会出现那种改着改着画风突变、人脸变形的情况。这意味着什么？意味着你不需要一次性写一个完美到不行的提示词，你可以先画个大概，然后慢慢调。

举个例子，你想生成一张海报。先跟它说“画一张科幻电影海报，太空背景，一个宇航员站在星球表面”。它给你一张图，你觉得宇航员的姿势太僵硬，就跟它说“宇航员换成侧身站着，手里拿个发光的武器”。它改了，你觉得星球颜色不好看，又说“星球换成蓝色带光环那种”。它继续改，你又说“标题字体换成粗一点的科幻字体”。它全都能做到，而且每一轮改动的幅度刚好，不会把之前好的部分弄丢。

这种能力在目前的图像生成模型里，算是独一份。Midjourney也有修改功能，但操作路径比较绕，得重新跑图，不能像聊天一样自然。Stable Diffusion可以局部重绘，但对用户的技术要求高，普通用户根本用不来。Images 2.0把这件事简化到了极致，会打字就行。

第二个狠的升级，是风格一致性。以前用AI生成多张图片，最头疼的问题就是风格不统一。第一张图是写实风，第二张突然变成二次元，第三张又成了油画。你想做一套风格统一的插图或者漫画，得花大量时间调参数、试种子号，还不一定能成功。

Images 2.0支持风格锁定功能。你给它一张参考图，或者描述一种风格，它后续生成的所有图片都会保持这种风格。实测下来，不管是人物插画、产品渲染还是场景概念图，风格的一致性保持得非常好。这意味着你可以用AI生成一套完整的漫画、一套产品宣传图、甚至一本绘本，而且每一张图看起来都像是同一个人画的。

第三个升级，是图片里的文字生成。以前的AI生成图片，里面的文字基本都是乱码，英文还好一点，中文基本没法看。Images 2.0在这方面进步很大，英文文本的准确率能到95%以上，中文也到了80%左右。你让它生成一张“新年快乐”的贺卡，它真的能在图片里写出这四个字，字体还算工整，位置也放得对。虽然偶尔还会有错别字或者笔画问题，但相比上一代已经是天壤之别了。

这个能力的应用场景非常广。电商做商品图，可以直接在图片里生成价格标签和促销文案；自媒体做封面图，可以直接生成标题文字，不用再单独去PS里加字；做PPT配图，也可以直接生成带标注的图表。

当然，Images 2.0也不是完美无缺。生成速度比上一代慢了大概30%，一张高清图得等十秒左右。对于批量作图来说，这个等待时间有点长。另外，对中文的理解还是不如英文，复杂的中文提示词偶尔会被误解。还有就是老问题，生成人的手指偶尔还会翻车，六根手指、手指黏连的情况虽然比上一代少了，但依然存在。

OpenAI这次发布Images 2.0，其实是在下一盘更大的棋。他们想把图像生成从“一次性创作”变成“对话式创作”。以前你用AI画图，是一锤子买卖，画完就完事了。现在你可以跟AI反复沟通、反复修改，直到满意为止。这个过程更接近人类设计师的工作流程，也大大降低了AI绘图的使用门槛。不会写长提示词的人，也能通过多轮对话得到想要的结果。