首页 | 汽车研究网_汽车智库互动平台 官方微信 科瑞咨询  
汽车研究网,我的汽车领域专家
  国内资讯  国际资讯  行业快讯 新能源 智能汽车 前沿技术 数据快讯  
乘用车 卡车 客车 专用车 零部件 发动机 自主品牌  
高层动态 合资合作 整合并购 战略规划 出口 召回 终端市场 经营业绩 人事变动 新品上市 品牌营销  
国际政策 国内政策 地方政策  
经济指标 改革规划 基建投资 能源环境 金融商贸    
知识术语  汽车人物  汽车展会  科研院校 人才招聘    
热点透视 产销分析 展会论坛 厂商专题    
宋井宽:AI赋能——多模态大模型前沿及在汽车行业应用
来源:汽车研究网   编辑:侯小南  2025-07-14 14:30:30 字号   打印  收藏

  2025年7月10-12日,2025中国汽车论坛在上海嘉定举办。本届论坛主题为“提质向新,智赢未来”,由“闭门峰会、大会论坛、技术领袖峰会、多场主题论坛、N场行业发布、主题参观活动”等15场会议和若干配套活动构成,各场会议围绕汽车行业热点重点话题,探索方向,引领未来。其中,在7月12日上午举办的“主题论坛八:智数赋能,‘智’检之道——汽车测试赋能产业高质量发展”上,同济大学计算机学院教授、“杰青项目获得者”宋井宽发表精彩演讲。以下内容为现场演讲实录:

  尊敬的各位领导,各位嘉宾,大家上午好!非常荣幸能够受邀来到中国汽车论坛智数赋能,“智”检之道的分论坛,能够有机会跟大家分享和学习。

  今天我汇报的题目是“多模态大模型前沿及在汽车行业应用”。选择这个题目是两个原因,首先特别契合今天分论坛的主题,智能赋能汽车测试,同时第二个原因多模态大模型现在是非常热门的研究话题,并且在汽车领域有非常多的应用场景。刚刚我们领导叶总提到了多模态大模型要做一个重点发展方向,今天汇报从以下两个方面:

  第一介绍多模态大模型和它的前沿进展。

  第二介绍各行业的具体应用案例。

  首先什么是多模态大模型大家?它是一个能够处理多种模态输入的AI模型,其中每个模态是指一种特定类型的数据,比如说图像、视频、文本、音频,但是如果汽车行业是各种传感器数据,也可以作为不同模态输入。通过整合网络上多模态的数据,从而可以实现类人多模态感知、认知,可以有望推动计算机视觉在语言处理等多领域的协同发展。可以说多模态大模型已经从过去必然的发展趋势变成了已然的现状。因此右边列出了多模态大模型发展的里程碑事件,从2022年ChatGPT的横空出世,到后来的多模态版本的GPT-4V,以及到Sora,GPT-4o,以及国产Deepseek的出现,整体来说从2023年下半年开始大模型竞争整体从语言大模型过渡到多模态大模型。

  为什么多模态大模型能引发这么多行业关注,因为它在行业有很多应用场景。这里列出了一些,比如说Med-Gemini可以用于赋能医学诊断。Face大模型可以赋能人机交互,通过数字人形式。盘古大模型可以赋能工业服务,紫东太初大模型可以赋能法律,日日新可以用于金融服务场景。因此可以说多模态大模型正实现智能赋能千行百业。

  介绍这么多多模态大模型到底是什么?我这里列出了一个多模态大模型的技术全景图,包括三个部分,最左边的数据,中间的技术,右边的应用。数据包括各种模态数据的收集,当然还有很重要的一点是数据之间的关联,中间的技术层上面的模态架构和下面的优化算法,所以模态架构也就是大模型长什么样,现在的架构相对比较固化了,基于Transformer各种各样的拼接。有了数据和架构怎么把参数学习出来?优化算法经过了多轮迭代,从早期的对比学习到现在的子回归再到后面的掩码形式等,有了参数最终可以在各个场景进行应用,比如说用于多模态的对话,跨模态的生成,以及等下要讲到的具身智能的场景,这是整体的全景图。

  为什么研究领域引发了这么多关注,一个很重要的原因是多模态大模型是实现通用人工智能的必经之路,大家知道通用人工智能是计算机学科的梦想,要实现通用人工智能必不可少要像人一样感知认知这个世界,比如说听觉、触觉、视觉等等,这些数据天然就是多模态的形式,要实现通用人工智能必不可少要研究多模态大模型,也经历了一系列的发展历程,从早期各个模态的独立发展,大家可能听过以前的自然语言处理,计算机视觉是独立发展的,自然语言处理只处理翻译,交谈的任务。计算机视觉里研究分割识别等等,这些任务是独立发展的。当前有了多模态大模型之后是把多种模态融合发展,现在一个新的趋势是把多模态大模型里面的进一步的集成和统一,把理解和生成任务进行统一。那么在未来想要进一步发展就需要和物理世界进行结合,探索研究世界模型,研究具身智能,最终实现通用人工智能的最终目标。

  这里列出了多模态大模型发展趋势,整体上从传统的任务驱动和预调的方式,转向现在的任务统一,推理增强和主动交互三个趋势我分别介绍一下。

  任务大家不知道熟悉不熟悉,任务有两个定义,第一个是非常狭义的定义,自然语言处理里翻译是一个任务,在计算机视觉里识别是一个任务,早期的时候不同模态之间的任务非常割裂,早期的时候任务不统一,有了多模态大模型之后可以把自然语言,文本和图像放在一起处理,相对统一了一些,但是依然存在两个任务的割裂,一个是理解的任务,一个是生成的任务。理解是给你一张图像这个图像是什么类别,是什么内容,这个是理解。生成是给定一段话,我通过这段话生成一段图像和视频,很直观感觉到这两个是非常不一样的任务,所以之前多模态大模型作为两个独立的分支来研究,而最新的成果逐步将这两个任务进行进一步融合,从而实现更高层次的任务统一,这是第一个趋势。

  第二推理增强。以往的大模型通常停留在给定一个输入,给出一个答案这样的阶段,这样的存在什么问题对于复杂的场景,图文结合推理,几何题带图解的表现很差,因此又有新的研究不仅能够给出这个答案,还能给出得到答案中间的推理过程,这个是所谓的推理增强。大家现在熟知的Deepseek取得很大的成功重要的原因是将推理引入了学习的重要过程,因此推理增强是第二个趋势。

  第三个趋势是主动交互。刚刚提到AGI通用人工智能是智能最终的梦想,你如果要实现通用人工智能要和物理世界进行交互,因此多模态大模型要能够在复杂环境中进行交互,像人一样在现实世界中进行自主的行动和决策能力,这是现在发展的第三个趋势,典型的一个任务是现在大家经常听到的具身智能的任务。

  我们团队在多模态大模型方向也有一些相关的研究工作,刚刚介绍的一个是理解,第二个生成,第三个是安全这块。首先是理解这块,我们主要关注这几个方面。

  第一是以人为中心的视觉分析。通用大模型针对的是通用场景,我们这里更关注以人为中心,人体姿态的估计,人的不同部位的识别等等这样的任务。

  第二场景图生成。需要对它进行智能化、结构化处理就需要有一个很重要的技术方法、技术手段进行场景图生成,把一个非常复杂的多模态的数据变成关键字、名词相互关联的三元组的场景图形式,从而有效对他们进行有效管理和理解。

  第三个方向是做通用多模态大模型改进。具体算法就不介绍了。

  第二个研究方向是生成这块。我们团队的工作所谓生成给定一个输入,可以生成图像,生成视频和3D,下面是我们团队所做的工作,AIGC大家非常熟悉,等下会有一些具体的场景(展示)。相关工作就跳过了。比如说有一些故事的生成,图文音的生成等等。

  第三个方向让AI具有学习和安全的能力。比如说有持续学习,少样本学习和安全。安全非常有趣的工作是幻觉大家可能听过,大模型进行一本正经的胡说八道,左边的图像描述有一只红色的狗,而这只狗并不是红色的,这就是幻想,我们根据这个提供相应的解决方案,可以有效减少大模型幻觉的生成。

  这些成果有一些相关的应用场景。1.通过关联构建跨域的推荐系统,可以用在支付宝的场景,可以为用户推荐优质产品,本质上利用用户的个人信息和历史浏览记录等多模态的数据,从而可以更好进行产品匹配和推荐。2.构建一个130亿多模态行业大模型。构建通用大模型很难和大厂进行竞争,所以构建行业大模型,主要用于像电网巡检,工业检测等相关场景,在12个基准测试机上达到了主流大模型的信任,取得了最好的信任。3.现在是需求非常多的大模型本地化部署,在智能法律的平台应用,需求是构建文书助理,法律助手,重大决策辅助等六个场景,上线之后我们的业务处理效率得到了极大提升,也入选了国资委首个法治大模型的标杆。这是实际的场景。

  接下来介绍一下汽车行业多模态大模型,更宽泛一点人工智能的应用场景。

  福特公司的首席信息官说“人工智能不仅对智能驾驶非常重要,而且在转变员工体验方面发挥着越来越重要的作用”。同时在供应链风险识别和车辆预测性维护等方面也有应用,当然仅仅是众多应用之一。沃尔沃公司的首席信息官也提出“人工智能不仅可以用于人工驾驶,还可以用于其他各个方面,比如说汽车的制造和销售,以及创造新的客户和体验”。由此可见人工智能在汽车行业得到了越来越多的关注。

  我这里简单概述了一下人工智能在汽车行业,尤其在汽车测试行业的应用场景,我是外行总结得不是很全面和准确,不准确的地方请大家批评指正,包括以下四个场景。

  一、智能化场景生成和安全测试。等下下面的报告也有关于生成式人工智能,和这个相关。

  二、预测性维护和健康管理。

  三、边缘智能和车联网。最后一个报告是关于车联网和智能驾驶的。

  四、虚拟测试和数字孪生。下面依次介绍一下。

  首先是AI驱动的自动驾驶安全自主测试系统。它是利用机器学习与仿真技术,在虚拟环境中大规模、自动化、智能化地创建和执行汽车安全测试用例,以验证测试汽车安全性。本质上通过AIGC生成的方式能够生成更多的测试用例,从而提高测试效率,和传统的相比成本高,风险大,并且测试覆盖不足,通过AIGC可以提高效率,降低成本,增加它的测试用例覆盖率,并且没有任何物理风险。一个典型的例子是D2RL通过强化学习智能测试,已有的数据是非关键数据,非关键数据是正常情况,缺少导致事故的关键事件,针对这个问题的核心思路是识别并且移除海量的非关键数据让模型从关键的安全事件中学习,这是所谓的关键事件的定义,定义了一系列的危险场景。比如说多智能体维度场景,通过强化学习的方式能够识别并且把关键场景定义出来,自动地检测出来,从而提升模型学习的效率,最终提升模型的性能,这是通过人工智能驱动的场景案例的自动识别。

  第二个AIGC用于检测这块。从被动修复到主动预警,通过AI方式预测分析并进行维护的模式。传统的方式可能更多的是当危险发生之后再去进行检测,存在一系列问题,比如说成本高昂,缺乏预见性,主要依赖经验。通过AI提前预警,精准预测提升可靠性。这里有一个具体的例子,通过多元传感器数据最终进行主动预警,它的输入和之前的图像文本主要是汽车行业相关的数据,比如说曲轴转速,悬架振动等,通过多模态大模型最终进行最终预警,比如说故障等级,部件寿命预测等。另外一个是AI驱动汽车悬挂预警性维护,也是通过悬架系统的信号输入和采集,通过多模态大模型进行维护决策和诊断、预后等一系列预测。

  第三个场景是边缘智能和物联网。一个非常典型的应用是智能驾驶,通过人工智能和物联网的结合,人工智能可以进行边缘处理,五连物联网可以增强数据的收集能力,把这两个相结合可以摆脱对网络的依赖,实现边缘端的处理,从而更快更高速的响应。和传统的云端相比存在的问题比如说处理之后稳定性差,受资源限制等等。如果用边缘端加上物联网的形式避免一系列问题。刚刚提到了典型的应用是智能驾驶,有了人工智能边缘端处理加上车联网的能力从而赋予了汽车低延时的本地决策能力,车联网可以提供超越单车的广域感知能力,两者结合构建了安全高效自主驾驶的技术基石。

  第四是虚拟世界的锤炼。仿真和数字孪生在汽车应用很多,通过数字孪生技术创建车辆的高保真虚拟模型,可以快速迭代,传统的方法存在成本高,测试场景有限,风险后置等一系列问题,仿真和数字孪生可以解决相对应的问题。

  典型的案例是基于数字孪生的智能电池管理系统,通过数字孪生创建电池的虚拟模型,通过多模态大模型相关的技术实现对电池的生命周期的精准监控,健康预测和智能控制,从而提升电动汽车安全性和续航能力。

  以上就是今天汇报的主要内容,谢谢大家!

  (注:本文根据现场速记整理,未经演讲嘉宾审阅)

上一篇:闵海根:数字孪生——基于数字孪生的自动驾驶虚实融合测试评价
2025年Automechanika Shanghai圆满闭幕,与会观众人数达到253,691再创新高
上海,2025年12月2日。上海国际汽车零配件、维修检测诊断设备及服务用品展览会(Automechanika Shanghai)于2025年11月26至29日在国家会展中心(上海)顺利举行,并以多项破纪录数据和空前规模绘出又一幅全产业链生态图景。 [详细]
2025-12-02 17:42:20
 
第22届中国(国际)锂电及储能技术展
第22届中国(国际)锂电展齐聚“淮海经济区中心城市” 江苏徐州,于徐州淮海国际博览中心盛大启幕。围绕新兴能源、新能源电池、装备、材料及全产业链,聚焦新能源供给侧与需求侧,推动行业资源整合与项目落地。展会集中展示新技术、新产品、新模式、新业态,致力打造集专业性、实践性、国际性、前瞻性于一体的新能源领域综合平台。 [详细]
2025-12-02 17:35:57
 
2026第11届亚太储能技术及应用展同期举办2026世界电池及储能产业博览会暨第11届亚太电池展
[详细]
2025-12-01 19:11:39
 
WBE2026世界电池及储能产业博览会暨第11届亚太电池展/亚太储能展
WBE世界电池及储能产业博览会(亚太电池展/亚太储能展)致力于构建“电池、储能、氢能、光伏风电”等全产业链生态闭环,促进全球市场贸易与产业链采购供需!已连续成功举办10届,并发展成为电池、储能成品领域较大规模专业展,也是行业内参展电池与储能品牌企业数量较多,以及应用端专业观众与国外采购商参与度较高的专业展!展会主题紧密契合国家政策方向,展示锂电、铅酸、钠电、固态电池、氢电等多元化技术。WBE以其享誉全球的影响力和每届数以千计的海外买家帮助参展企业参展一次面谈数百专业采购商与海外优质客商,被誉为“电池储能行 [详细]
2025-12-01 19:10:20
 
2026第十六届上海国际智能网联新能源汽车技术与生态链博览会
由英佛会展携手中国电工技术学会、上海市汽车工程学会及相关单位共同主办的“2026第十六届上海国际智能网联新能源汽车技术生态链博览会(NEAS CHINA 2026)”,将于2026年8月12日 - 14日在上海新国际博览中心隆重举办,目前展会已获得UFI权威认证。 [详细]
2025-12-01 19:03:02
 
2026第二十一届上海国际汽车内饰与外饰展览会暨智能舱驾一体化科技展
在汽车行业加速变革的当今时代,汽车内外饰领域的创新已然成为重塑驾乘体验的关键要素。由英佛会议展览(上海)有限公司主办的全球极具影响力的汽车内外饰行业盛会——2026第二十一届上海国际汽车内饰与外饰展览会暨智能舱驾一体化科技展(CIAIE 2026),将于2026年8月12日至14日在上海新国际博览中心盛大举行。 [详细]
2025-12-01 19:00:09
 
2026第四届中国智电汽车科技与供应链展览会
“中国智电汽车科技与供应链展览会”简称“中国智电展”。展会始于2023年,是国内首个由车企牵头主办,从研发和采购需求出发,由展览、会议、供采对接、技术发布等组成的创新型生态平台。展会紧扣全球产业趋势,纵向深度呈现智电汽车从设计、材料、关键零部件、数字智造到整车集成和应用的完整生态链。横向推动产业链、创新链等各方深度对接,达成实质合作。以“展示、发布、交流、采购”4大功能为核心,打造面向智电汽车时代的新材料、新技术、新装备、新供应链及创新科技产品一站式生态合作平台。 [详细]
2025-12-01 13:42:49
 
第八届全球半导体产业与电子技术(重庆)展会,黄金窗口期已就位!
在 “十五五” 的国家战略加持下,重庆以融合逻辑重构产业空间(两江新区,)凭借政策红利、完整产业生态,和密集落地的重点项目,成为电子智能制造产业的投资热土,用实实在在的落地成果证明市场潜力! [详细]
2025-11-21 14:25:37
 
AWC 2025,精彩因你!2026,再赴深圳智能之约!
在您的鼎力支持与热情参与下,AWC 2025 深圳国际智能网联汽车产业展览会于 10 月 28 日至 30 日在深圳国际会展中心(宝安)圆满落下帷幕。在此,我谨代表 AWC 全体项目组成员,向远道而来的全球参展商、专业观众致以最诚挚的谢意;向深圳市新能源汽车产业办公室、深圳市宝安区人民政府、深圳市宝安区新能源汽车产业办公室、深圳市交通运输局等机关单位,各行业协会、媒体伙伴的全程支持与高度认可,致以崇高的敬意!是您的信任与参与,让 AWC 2025 成为智能网联汽车产业的年度高光舞台。 [详细]
2025-11-11 19:10:10
 
2026武汉国际汽车制造技术暨智能装备博览会
2025年,武汉汽车制博会与中国机博会暨武汉工博会,吸引1100家海内外企业参展,专业观众流量突破10.2万人次,同期举办35场国际论坛与技术峰会,覆盖汽车技术、智能制造、工业自动化/机器人等前沿领域。通过线上线下融合的商贸对接模式,展会累计实现销售额及意向合同金额达45亿元量级,创下历史最佳业绩。 [详细]
2025-11-11 19:01:33
 
 
一汽-大众第1000万台发动机下线
宁德时代计划在印尼建厂 将投资50亿美元
LG化学高镍电池预计明年交付特斯拉
大众在欧洲或需要40座电池厂
热点排行
1
2
3
4
5
6
7
8
9
10
新闻专题
· 第十六届中国汽车产业发展(泰达)国际论坛
· 2018年北京国际车展专题报道
· 2017年上海国际车展专题报道
· 2017中国国际节能与新能源车展专题报道
· 2016北京国际车展专题报道
· 2016年天津国际客车、公交车及零部件展
· 2015天津国际客车、公交车及维保工具展
回顶部
关于我们 智库平台 科瑞咨询 招聘英才 联系我们 法律声明
电话:4006-997-802    客服邮箱:market@autothinker.net    投稿邮箱:news@autothinker.net
Copyright @ 2010 - 2018 China-Qiche All Rights Reserved 沈阳科瑞信息有限公司 版权所有 辽ICP备18018472号 增值电信业务经营许可证 辽B2-20180363
手机版
执行时间:1.51 秒