▲ 邓志东:清华大学教授、视觉智能研究中心主任、聚合智能产业委员会(EAI 100)专家委员
智能汽车、具身机器人与低空经济正逐渐收敛为聚合智能产业,可迁移与可复用之供应链成为聚合智能产业协同发展的关键。人工智能赋能的感知技术作为上述三大产业的基础技术,率先呈现出跨产业支撑的发展趋势。
当然,不同细分领域存在着不同的技术要求。智能汽车需高精度传感器、实时决策算法和V2X通信,以确保安全与效率,并适配开放动态环境;具身机器人强调本体设计、运动控制、人机交互与自适应学习,以应对任务的多样性;低空经济依赖轻量化设计、避障导航与空域管理技术,以实现高效飞行。三者共同要求强大的AI算力、可靠的安全机制和能源优化,但侧重点不同,反映了各自应用场景的复杂性。技术的融合是推动产业升级的关键。
此外,三大产业爆发节奏也有所区别。智能汽车因电动汽车和自动驾驶技术日趋成熟,已逐步进入规模化商用阶段;具身机器人受制于硬件可靠性和AI泛化能力,爆发较慢,预计在5-10年内逐步普及;低空经济如无人机物流,在政策红利下加速,但需解决空域整合问题,节奏不均衡。爆发差异源于技术迭代、法规支持与市场接受度,企业需动态调整战略以捕捉窗口期。
为适应高度分散的市场需求,平台产品可以通过模块化设计和开放API,实现定制化与互操作。例如,智能汽车平台支持多传感器配置,但任务较为单一,只需从A点安全自主行驶至B点这一目标点即可,其挑战是在开放场景中环境的高速动态变化;机器人平台允许灵活任务编程,“一机多用”,任务不局限于机型特点,其最大挑战在于任务的多样性与复杂性;低空经济平台集成飞行控制与数据服务。这些平台建设有助于降低开发门槛,促进生态合作,应对碎片化需求。核心在于标准化接口与云边端协同,以可扩展性和灵活性驱动产业普及与创新。
共性关键技术是本次会议探讨的重点,主要围绕聚合智能感知领域的供需关键技术展开。首先聚焦于感知系统,其核心分为环境感知与自感知两大板块,其中环境感知涵盖传感器设备、障碍物的检测技术、任务载荷的目标检测技术、多传感信息融合技术,以及大模型的环境感知—— 即多模态对齐技术,该技术是需要行业投入大量资源攻克的关键技术。
具体而言,传感器是环境感知的基础,包括摄像头、激光雷达、4D毫米波雷达和超声波传感器等,可为智能系统提供实时、异构的环境数据。摄像头捕获丰富的视觉信息,但易受环境影响;激光雷达作为主动视觉,可提供高精度3D点云数据,但丢失了颜色和纹理信息;4D毫米波雷达可实现全天候动态探测,但数据的质与量有待提高;超声波传感器仅适用于近距离探测。
障碍物检测技术需具有高实时性、低误检率,并融合跟踪算法预测轨迹。其挑战在于处理严重遮挡、恶劣天气等复杂场景,可通过多帧融合与增量学习提升鲁棒性。这是自动驾驶与机器人、无人机实现安全避障的核心,直接决定系统的可靠性。
任务载荷的目标检测涵盖分割、定位与识别。针对特定任务(如无人机巡检或机器人抓取),目标检测算法通过使用深度CNN或Transformer模型,可完成分割、定位、分类与跟踪等。该技术要求高准确性与适应性,以应对光照、尺度变化等挑战。通过迁移学习与实时优化,实现精准识别,同时提升任务效率。目前更强调利用端到端的学习能力以提升目标检测的精度,也在探索运用大模型进行目标检测。
多传感融合是通过数据级、特征级或决策级方法(如使用卡尔曼滤波方法、深度学习方法、多模态大模型方法),整合摄像头、激光雷达、毫米波雷达与IMU等异构数据,进一步提升感知的时空一致性。多传感融合可克服单一传感器局限,减少不确定性,提供冗余保障。关键技术包括时空对齐与不确定性建模等,是高阶自动驾驶、通用机器人与通用无人机的基石,可确保环境理解的完整性、可靠性与鲁棒性。
多模态对齐方面,大模型的环境感知需要实现视觉、语言(文本)等模态的对齐。例如,利用大模型对齐视觉、语言和传感器数据,机器人需将传感器反馈的关节数据及轨迹数据等进行反馈闭环。通过跨模态注意力机制,最终实现语义级的环境理解、场景描述和预测、推理能力,从而获得认知能力。其关键技术难点在于多模态对齐的精度,因为不同模态在时间和空间上存在不一致性。此外,需依靠计算效率实现对环境的理解与预测,进而完成后续复杂的决策与规划。这一过程的基础在于前端的感知环节,只有在感知准确的前提下才能进行有效的理解。若多模态感知效果不佳,如此前提及的对齐与动态融合未能做好,后续的理解环节就会出现偏差,进而影响预测、决策和规划。本质上,将“感知”升级为“理解”后,可使系统升级,也进一步拓展了智能边界。
接下来是自感知,即导航定位定姿技术,主要包含三个方面,一是导航设备,二是组合导航技术,三是SLAM技术。该项技术至关重要,若缺少它们,三大产业的相关规控系统将无法正常运行。
其中,导航设备包括GPS、IMU、视觉里程计与磁力计等,可提供位置、速度与姿态信息。GPS可实现全局定位,但易受外部干扰;IMU高频测量运动,可补偿盲区;视觉传感器辅助相对定位。导航设备正向高精度、低功耗与多源集成演进,是聚合系统自定位的核心硬件。
组合导航技术通过融合GPS和IMU等多源数据,利用卡尔曼滤波等算法,可优化定位精度。组合导航可用于GPS失效时依靠IMU维持短期稳定性,并结合地图匹配进一步提升导航的可靠性。其关键技术包括模型的自适应与误差补偿等,可缓解城市丛林多径效应等应用挑战。该技术已广泛应用于自动驾驶、机器人与无人机,能够确保获得连续鲁棒的导航性能。
SLAM(同步定位与地图构建)技术通过使用单目/双目视觉、激光或IMU数据以及特征提取与匹配,可使智能驾驶汽车、通用机器人、无人机在未知环境中实现实时建图与定位。最新技术包括语义SLAM及其与深度学习的融合,基于多模态大模型的SLAM技术等。SLAM是自主导航的基础,是聚合智能在动态环境中实现定位定姿的关键核心技术。
最后是大模型及其支撑技术,这是环境感知和自感知的重要支撑。该技术涵盖了VLM、VLA与世界模型智能体(Agent with world model)、端云协同、星地链路、AI芯片及AI计算平台,由于涉及三大产业,相关范围极为广泛。
VLM(视觉语言模型)是聚合智能感知系统的基础。如CLIP,可对齐图像与文本语言,以实现跨模态交叉感知与理解;世界模型可模拟视觉场景或状态的动态转移,预测未来一段时间的状态变化,可用于滚动优化决策与规划。它们通过预训练压缩与封装世界知识,提升系统的理解、预测与泛化能力。其技术挑战在于高AI算力需求与多模态对齐精度。实际上,VLM是基础中的基础,在相当程度上决定了AI大模型与智能体的性能上限。
端云协同可平衡边缘与云端AI算力:须强化边缘节点,以处理实时任务,降低端侧系统响应延迟;云端负责大规模预训练、在线预测与反馈校正等。通过模型蒸馏、轻量化技术实现高效协同与落地应用。端云协同克服了带宽与算力瓶颈,支持大规模产业部署,是聚合智能实现可扩展性的关键。
星地链路对于无人机等低空经济应用至关重要,它不仅能提供全球覆盖,而且可弥补地面网络盲区,支持远程数据传输与定位。该技术需满足低时延、高带宽要求,实现空中基站(卫星基站)与地面基站的融合,以达成无缝连接。不过,目前其面临成本较高、标准未统一等挑战。未来将赋能全球的AI互联互通。
AI芯片(如 GPU、DPU、NPU、TPU等)可为多模态大模型的训练与推断提供高算力支持;AI计算平台集成硬件、软件与框架,可优化资源调度与能效,目前正向专用化、低功耗方向发展,同时也在不断降低AI应用门槛。这些都是聚合智能感知系统的关键基础设施,可进一步推动产业发展。
感知系统对AI 算力需求巨大,无论是云端的超大规模预训练、端侧的轻量化推断应用,还是基于世界模型的状态预测,都需要与之匹配的巨量算力。云端预训练可能需要几十万卡或几十个EFLOPS以上的AI算力,甚至需要考虑AI算力供电问题,但计算资源可共享,并非每家企业都须自建智算中心。当前,AI推断芯片发展迅速,我国企业的推断芯片正逐步缩小与国际先进水平的差距。事实上,智能汽车、无人机、机器人等领域的AI算力需求不断提升,如智能汽车算力正从400-600T向2500T迈进,以实现丝滑的端侧响应。
聚合智能须通过跨界、跨领域、跨产业协同。由于其涉及的领域众多,不仅有汽车、IT、人工智能领域,还涵盖无人机、机器人等跨产业系统,因此需要系统整合感知、决策与执行技术。本质上,感知技术是为决策和执行技术服务的,要实现前后环节的一体化承接或桥接。
可利用标准化接口、开源生态构建,推动政、产、学、研、用、金(金融投资机构)密切合作,推动物理交互数据与超大规模AI训练算力的资源共享,同时实现算法创新。
此外,还需积极促进聚合智能相关法规、标准与伦理框架的制定,确保聚合智能产业沿着安全、自主可控及绿色低碳的轨道健康发展。
总之,聚合智能的协同进化,一方面可优化国内供应链与产业链的迭代演进,加速关键核心技术的突破与应用落地,另一方面则可增强产业的全球竞争力,进而推动智能经济与智能社会的可持续发展。