- 发布日期
GPT-4o 更强的图像生成能力
Read the English version:
GPT-4o: More powerful images generation by AI
最近 OpenAI 发布的 GPT-4o 再一次惊艳了很多AI用户, 这款模型不仅将文本与视觉理解深度融合, 还以惊人的细节还原度、灵活的场景适应性和用户友好的交互方式,重新定义了AI图像创作的边界
北京大学发布了一篇详细的评测报告来分析 GPT-4o 的图像处理能力, 让我们来看看 GPT-4o 的表现如何
GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation
评测内容概览
研究从定量评估与定性分析双重视角切入,系统评估GPT-4o在以下核心任务中的表现:
文生图控制能力:通过多模态指令解析生成高保真图像
图像语义编辑:支持基于对话的局部细节动态优化
世界知识驱动的视觉合成:融合专业领域知识构建逻辑连贯的复杂场景
论文中使用的评估基准是 GPT-ImgEval, 通过使用三个数据集对 GPT-4o 进行了评估, 分别是: GenEval / Reason-Edit / WISE
文生图控制能力
定量突破:在GenEval基准测试中,GPT-4o以0.84总分刷新记录,较SOTA模型提升23.7%
关键指标:
- 物体计数准确率85%(超越Diffusion系模型40%+)
- 空间定位能力得分0.75(传统模型仅0.34)
- 属性绑定准确率61%(如正确生成"鼠标与勺子并存"场景)
效果案例: 吉卜力风格插画生成效果稳定, 能够精准描述提示词的空间关系
图像语义编辑
图像语义编辑: 在Reason-Edit数据集上取得0.929分,较次优模型提升62%
支持"将第三人的外套改为深蓝色"级细粒度指令, 多轮对话保持91%的编辑一致性
效果案例: 能够实现 "镜子中的老虎与真实背景同步" 这种编辑需求
知识驱动合成
在WISE知识图谱测试中,GPT-4o以89%总分碾压竞品
效果案例: 输入"巴西巨型雕塑"准确生成基督像, "章鱼遇险喷墨"场景符合生物学常识
架构逆向分析
混合架构:自回归语言模型 + 扩散式图像解码器
动态生成流程:文本 → 语义解析 → 潜在空间建模 → 扩散解码 → 超分辨率优化
生成内容可控性
内置儿童/名人/商标内容过滤器, 能够严格屏蔽人脸/版权内容, 不过仍然存在 10% 的违规内容泄露
效果缺陷
比例失控:竖版海报自动裁剪率达37%
过锐化倾向:强制生成高清细节,无法输出模糊效果
中文文本错误:复杂场景中汉字错误率高达68%
多人物崩坏:10人以上场景肢体异常率42%
色彩偏差:默认启用"暖色滤镜"的概率达76%
AI生成痕迹:超分辨率模块放大插值痕迹, 高频细节呈现固定模式特征
有一些典型的失败案例: 中文标牌错乱、人体结构异常、超分辨率失真