GPT-4o 更强的图像生成能力

Read the English version:

最近 OpenAI 发布的 GPT-4o 再一次惊艳了很多AI用户, 这款模型不仅将文本与视觉理解深度融合, 还以惊人的细节还原度、灵活的场景适应性和用户友好的交互方式，重新定义了AI图像创作的边界

北京大学发布了一篇详细的评测报告来分析 GPT-4o 的图像处理能力, 让我们来看看 GPT-4o 的表现如何

评测内容概览

研究从定量评估与定性分析双重视角切入，系统评估GPT-4o在以下核心任务中的表现：

论文中使用的评估基准是 GPT-ImgEval, 通过使用三个数据集对 GPT-4o 进行了评估, 分别是: GenEval / Reason-Edit / WISE

定量突破：在GenEval基准测试中，GPT-4o以0.84总分刷新记录，较SOTA模型提升23.7%

关键指标：

效果案例: 吉卜力风格插画生成效果稳定, 能够精准描述提示词的空间关系

图像语义编辑: 在Reason-Edit数据集上取得0.929分，较次优模型提升62%

支持"将第三人的外套改为深蓝色"级细粒度指令, 多轮对话保持91%的编辑一致性

效果案例: 能够实现 "镜子中的老虎与真实背景同步" 这种编辑需求

在WISE知识图谱测试中，GPT-4o以89%总分碾压竞品

效果案例: 输入"巴西巨型雕塑"准确生成基督像, "章鱼遇险喷墨"场景符合生物学常识

混合架构：自回归语言模型 + 扩散式图像解码器

动态生成流程：文本 → 语义解析 → 潜在空间建模 → 扩散解码 → 超分辨率优化

内置儿童/名人/商标内容过滤器, 能够严格屏蔽人脸/版权内容, 不过仍然存在 10% 的违规内容泄露

比例失控：竖版海报自动裁剪率达37%

过锐化倾向：强制生成高清细节，无法输出模糊效果

中文文本错误：复杂场景中汉字错误率高达68%

多人物崩坏：10人以上场景肢体异常率42%

色彩偏差：默认启用"暖色滤镜"的概率达76%

AI生成痕迹：超分辨率模块放大插值痕迹, 高频细节呈现固定模式特征

有一些典型的失败案例: 中文标牌错乱、人体结构异常、超分辨率失真