发布日期

GPT-4o 更强的图像生成能力

作者列表
  • avatar
    姓名
    Fast Smart Intelligence Blog
    Twitter

Read the English version:

GPT-4o: More powerful images generation by AI

最近 OpenAI 发布的 GPT-4o 再一次惊艳了很多AI用户, 这款模型不仅将文本与视觉理解深度融合, 还以惊人的细节还原度、灵活的场景适应性和用户友好的交互方式,重新定义了AI图像创作的边界

北京大学发布了一篇详细的评测报告来分析 GPT-4o 的图像处理能力, 让我们来看看 GPT-4o 的表现如何

GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation

评测内容概览

研究从定量评估与定性分析双重视角切入,系统评估GPT-4o在以下核心任务中的表现:

  1. 文生图控制能力:通过多模态指令解析生成高保真图像

  2. 图像语义编辑:支持基于对话的局部细节动态优化

  3. 世界知识驱动的视觉合成:融合专业领域知识构建逻辑连贯的复杂场景

论文中使用的评估基准是 GPT-ImgEval, 通过使用三个数据集对 GPT-4o 进行了评估, 分别是: GenEval / Reason-Edit / WISE

文生图控制能力

定量突破:在GenEval基准测试中,GPT-4o以0.84总分刷新记录,较SOTA模型提升23.7%

关键指标:

  • 物体计数准确率85%(超越Diffusion系模型40%+)
  • 空间定位能力得分0.75(传统模型仅0.34)
  • 属性绑定准确率61%(如正确生成"鼠标与勺子并存"场景)

效果案例: 吉卜力风格插画生成效果稳定, 能够精准描述提示词的空间关系

图像语义编辑

图像语义编辑: 在Reason-Edit数据集上取得0.929分,较次优模型提升62%

支持"将第三人的外套改为深蓝色"级细粒度指令, 多轮对话保持91%的编辑一致性

效果案例: 能够实现 "镜子中的老虎与真实背景同步" 这种编辑需求

知识驱动合成

在WISE知识图谱测试中,GPT-4o以89%总分碾压竞品

效果案例: 输入"巴西巨型雕塑"准确生成基督像, "章鱼遇险喷墨"场景符合生物学常识

架构逆向分析

混合架构:自回归语言模型 + 扩散式图像解码器

动态生成流程:文本 → 语义解析 → 潜在空间建模 → 扩散解码 → 超分辨率优化

生成内容可控性

内置儿童/名人/商标内容过滤器, 能够严格屏蔽人脸/版权内容, 不过仍然存在 10% 的违规内容泄露

效果缺陷

比例失控:竖版海报自动裁剪率达37%

过锐化倾向:强制生成高清细节,无法输出模糊效果

中文文本错误:复杂场景中汉字错误率高达68%

多人物崩坏:10人以上场景肢体异常率42%

色彩偏差:默认启用"暖色滤镜"的概率达76%

AI生成痕迹:超分辨率模块放大插值痕迹, 高频细节呈现固定模式特征

有一些典型的失败案例: 中文标牌错乱、人体结构异常、超分辨率失真