来源:IT之家
OpenAI 昨日(12 月 16 日)发布博文,推出“全新旗舰 ChatGPT 图像生成模型”GPT Image 1.5,并罕见公开了该项目背后的庞大研发团队名单,并同步在 ChatGPT 中推出了专用的“Images”(图像)标签页。
此次更新被视为 ChatGPT 图像生成能力的重大飞跃,新模型不仅能生成高保真图像,更在“听懂人话”方面表现出色,即具备极强的提示词遵循能力。
无论是从零创作还是基于上传照片进行编辑,GPT Image 1.5 都能在保留原图核心要素的同时,精准执行用户的指令。
据 OpenAI 介绍,新模型最突出的亮点在于对细节的极致掌控。在生成或编辑图像时候,GPT Image 1.5 能够完美保留光线、构图以及人物外观等关键特征,避免了以往 AI 改图“面目全非”的问题。
此外,该模型大幅提升特定场景下的表现,例如能生成更逼真的服装试穿效果,提供改进的风格滤镜,并能进行极具原创感的概念性转换。
长期以来困扰 AI 绘图的“文本乱码”问题,在 GPT Image 1.5 中得到了显著改善。新模型在文本渲染方面表现优异,能准确地将文字融入图像中。
同时,OpenAI 全面升级 ChatGPT 的编辑工具,用户现在可以精准地添加、移除、组合或移位图像元素。OpenAI 将此次升级形容为把 ChatGPT 变成了一个随身携带的“迷你修图工作室”,用户随时随地都能进行专业级的图像处理。
为了提升使用体验,ChatGPT 在网页端(chatgpt.com)和移动应用侧边栏中新增了独立的“Images”入口,该界面内置了多种预设滤镜和灵感提示词,帮助用户快速上手,已面向全球所有 ChatGPT 用户和 API 用户开放,并且与所有模型无缝兼容。
OpenAI 首席执行官山姆・奥尔特曼(Sam Altman)随后通过其个人 X 账号,发布了一张生成的渲染图,变身消防员,结合奥尔特曼此前拉响的“红色警报”,暗示奥尔特曼成功“灭火”。IT之家附上截图如下:
不过,有趣地方在于,GPT Image 1.5 生成的月历图存在时间问题,网友随后又用谷歌的 Nano Banana Pro 修正了。
OpenAI 在官方博文中指出,此次发布不仅意味着 ChatGPT 在视觉创作能力上的又一次迭代,更从团队架构上揭示了 OpenAI 在多模态领域的最新战略布局。项目由 Gabriel Goh 担任研发负责人,Adele Li 担任产品负责人,两人联手推动了这一功能的落地。
在公开的领导层名单中,两个名字尤为引人注目:Sora 负责人 Bill Peebles 和世界模拟负责人 Aditya Ramesh。Aditya Ramesh 是 DALL-E 系列模型的缔造者之一,而 Bill Peebles 则主导了震惊全球的视频生成模型 Sora。
这两位顶尖专家的共同领导,强烈暗示了新版 ChatGPT 图像功能可能在底层架构上借鉴了 Sora 的“世界模拟”技术,或是在为未来图像与视频生成的无缝切换做技术铺垫。
除了核心领导层,该项目还集结了庞大的技术力量。Mark Chen 作为首席研究官(Chief Research Officer)统筹全局,Prafulla Dhariwal 出任多模态负责人。
团队下设“核心推理(Core Inference)”与“推理协作(Inference Collaborators)”小组,由 Adam Tart 等工程师领衔,确保了模型在高并发下的稳定响应速度。此外,数十位研究贡献者与合作者的加入,为模型在语义理解与图像生成的精准度上提供了坚实的算法支持。
为了应对 AI 生成图像可能带来的伦理与版权风险,OpenAI 此次投入了规模庞大的“安全、诚信与策略(Safety, Integrity, Policy & Trust)”团队。
该团队由 Abby Fanlo Susk 等二十余名专家组成,专门负责制定内容过滤机制、防止恶意滥用以及确保生成内容的合规性。这表明 OpenAI 在追求技术突破的同时,将产品的安全性与社会责任置于了极高的优先级。
为了确保功能顺利推向市场,项目还配备了庞大的应用(Applied)、产品运营(Product Operations)及法律(Legal)团队。从数据评估到社区传播,每一个环节都有专人把控。这种“科研 + 工程 + 产品 + 安全”的矩阵式团队结构,展示了 OpenAI 将前沿技术转化为成熟消费级产品的强大组织能力。