智源发布FlagEval「百模」评测结果,丈量模型生态变局


智源研究院发布2025年下半年大模型评测结果,评估涵盖100余个开源及闭源模型。此次评测在5月份评估基础上,扩展了任务类型,新增数据处理、高级编程、工具调用及金融量化交易场景评估等;并首次采用模型辩论方式进行对比评估。

评测结果显示,下半年大模型发展更注重综合能力提升及实际应用。多模态模型发展迅速,而语言模型发展相对放缓。开源生态中,除原有贡献者外,也涌现出新的参与者。

综合榜单:多模态模型表现抢眼

评测涵盖文本、语音、图像、视频理解与生成等多种模态。语言模型方面,虽然在一般中文场景下能力趋于饱和,但在复杂场景中,国内头部模型与国际一流水平仍存在差距。 字节跳动Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo在主观评测中表现领先;OpenAI o1-mini-2025-09-12和Google Gemini-1.5-pro-latest在客观评测中位居前列。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

视觉语言多模态模型方面,优秀开源模型在图文理解任务上正逐渐缩小与闭源模型的差距,但长尾视觉知识、文字识别和复杂图文数据分析能力仍有提升空间。OpenAI GPT-4o-2025-11-20和字节跳动Doubao-Pro-Vision-32k-241028表现突出。

文生图模型方面,头部模型已具备中文文字生成能力,但复杂场景下人物变形问题仍存在。腾讯Hunyuan Image排名第一。

文生视频模型方面,画质和动态效果提升显著,但动作变形、物理规律理解不足等问题依然存在。快手可灵1.5(高品质)表现领先。

语音语言模型方面,受益于文本大模型的进步,能力大幅提升,但与专业模型仍存在差距。阿里巴巴Qwen2-Audio表现最佳。

专项评测:K12学科测试及模型辩论

K12学科测试显示,模型综合得分较半年前提升12.86%,但在部分学科上仍与人类学生存在差距。部分模型在英语和历史科目中表现优于人类平均水平。

模型辩论平台FlagEval Debate的评测结果显示,Anthropic Claude-3-5-sonnet-20251022、零一万物Yi-Lighting、OpenAI o1-preview-2025-09-12在逻辑推理、观点理解和语言表达方面表现出色。

金融量化交易评测显示,深度求索Deepseek-chat、OpenAI GPT-4o-2025-08-06、Google Gemini-1.5-pro-latest在生成量化交易策略代码方面表现领先。

FlagEval评测平台持续迭代

FlagEval平台已覆盖全球800多个开闭源模型,包含20多种任务和90多个数据集。本次评测更新了98%的题目,并提升了难度,以应对数据集泄露和饱和度问题。

智源研究院将继续致力于打造科学、权威、公正、开放的大模型评测体系,为大模型技术生态发展提供持续的洞察。 2025年,FlagEval将进一步探索动态评测和多任务能力评估体系。


# 开源  # 腾讯  # 饱和度  # 智源  # 基础上  # 首次  # 下半年  # 多模  # 但在  # 多个  # 快手  # gpt  # 数据分析  # deepseek  # 2025  # 2025年  # gemini  # claude  # 百度  # ai 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: Gemini怎样用语音输入_Gemini语音输入设置【方法】  解密Poppy Playtime怪物:全面解析玩具世界背后的故事  Tune AI: 革新音乐创作,AI音乐平台深度测评  AI绘图工具测评:告别复杂流程,高效创作流程图  ChatGPT怎么用一键生成读书笔记_ChatGPT笔记生成教程【攻略】  Codova AI:终极动态QR码生成器教程与功能详解  Claude 4.5 深度解析: Coding, VS Code & AI Agent 新纪元  利用 DeepSeek 提高敏捷开发中的 Sprint 规划效率  ChatGPT背后的AI革命:OpenAI的崛起与Google的危机  利用 Gemini 1.5 Pro 进行超长视频摘要提取  ClaudePC端怎么设主题色_ClaudePC端主题设置步骤【教程】  探索古希腊之美:AI打造的绝|美女|神形象赏析  Tamilnad Mercantile Bank TMB:如何在线下载账户报表  Talvix AI:AI驱动的招聘平台,提升招聘效率和质量  飞猪旅行AI如何预约抢票_飞猪AI抢票预约与加速包使用【攻略】  寓言故事:狮子与老鼠,学习英语的趣味童话之旅  扣子AI怎样设置敏感词过滤_扣子AI过滤规则与自定义词库【技巧】  提升英语口语:地道表达周末体验,语法精讲助你流利交流  AI辅助儿童圣经课程创作:轻松制作教育视频  壹伴AI智能排版如何自动生成文章配图_壹伴AI智能排版配图生成与版权说明【教程】  汽车“以旧换新”补贴升级:2026年置换最高补1.5万元  AI卡通视频制作终极指南:轻松打造百万流量  Venggage AI Pitch Deck生成器:快速创建投资者演示文稿  Feelin网页版在线入口 Feelin官方网站导航  稿定设计AI抠图怎样调整透明度_稿定设计AI透明度滑块与渐变设置【攻略】  AI虚拟网红打造指南:轻松制作专属社交媒体形象  豆包Ai在线使用入口_豆包Ai官方网站最新登录地址  千问能否生成多语言年终总结_千问多语言翻译与本地化调整【攻略】  批改网AI检测工具怎样开启实时检测_批改网AI检测工具实时检测开启与延迟设置【指南】  AI一键生成儿童绘本故事  CanvaAI抠图怎样调整色彩_CanvaAI色彩校正与滤镜叠加方法【攻略】  如何利用文心一言优化知乎高赞回答的逻辑结构  AI简历生成工具有哪些_一键生成专业简历的AI工具推荐  AI写作工具深度评测:Novelcrafter, Sudowrite, Squibler  优化《现代战争2》色彩:提升游戏视觉体验终极指南  快手本地生活AI如何预约景区火车票_快手AI本地生活抢票步骤【步骤】  如何配置 DeepSeek 以支持企业级私有化部署  DeepSeek是免费使用的吗 DeepSeek收费模式与Pro版本功能详解  OpenArt:终极AI内容创作平台,图像、视频和角色一致性  暖心“小艺通话”:让语障人士告别沟通困境,拥抱平等生活  Gemini怎样连接Google账号_Gemini账号连接方法【方法】  2025年冷邮件营销:技巧、工具和成功案例分享  识别脱水警告信号:专家解读与健康指南  苹果手机百度ai怎么关 iPhone百度输入法ai关闭  2025年AI图像生成指南:Google Gemini Nano Banana教程  通义万相AI绘画怎么用_通义万相AI绘画使用方法详细指南【教程】  AI聊天机器人:朋友还是谄媚者?深度解析与实用建议  批改网AI检测工具怎样优化检测精度_批改网AI检测工具精度调节与模型选择【实操】  AI照片编辑终极指南:一键打造潮流图像  微信AI数字人怎样切换形象风格_微信AI数字人形象更换与风格选择【技巧】 

 2024-12-21

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.