华新社北京(记者 李永都)2025世界机器人大会上,德国慕尼黑工业大学教授Alois C.Knoll、北航教授王田苗、蓝驰创投合伙人曹巍、智平方科技创始人郭彦东、UniX AI创始人杨丰瑜等产学研代表同台交锋,围绕“具身智能的商业化与落地挑战”展开讨论。
机器人专家学者与投资人圆桌:具身智能的商业化如何实现?I WRC2025
嘉宾们结合技术突破与产业实践,为具身智能的商业化破局梳理出了清晰路径。核心观点如下:
具身智能的商业化,本质是 “经济可行性” 问题,而非形态问题,先算清回本账,再谈落地场景。
具身智能商业化可以从简单可大规模复制的任务切入,先交付直接价值,再逐步攻克复杂任务,且明确的治理框架是长期投资的基础。
具身智能落地需三大支柱:能自我学习的算法、“互联网 + 仿真 + 真实世界” 三类数据的分阶段策略、稳定低成本且量产一致性强的硬件。
关于技术突破,目前存在两条路线:理想主义的全球统一世界模型(难度大)与现实主义的垂直领域模型(易落地,如咖啡、清扫等场景)。
2025年或将成为“具身智能商业化元年”,但容错率、数据隐私、责任归属与监管框架仍是横亘在量产前的“四座大山”。
行业应建立具身智能第三方评价标准(如类似工业机器人 MTBF),明确运营方、制造方、用户、保险四方责任划分,并按场景制定差异化安全指标。
监管在其中发挥重要角色的必要性,核心聚焦数据安全、知识产权、人身安全,主张参考无人驾驶模式建立行业标准,且需平衡创新与风险,在底线统一基础上允许区域差异。
以下为圆桌对话实录:
Alois C.Knoll:在我们开始讨论之前,我想先做一些学术性的说明,因为今天的大部分讨论将主要集中在商业角度。我们需要探讨的问题是:什么是具身智能?
在我们开始讨论之前,我想先做一些学术性的说明,因为今天的大部分讨论将主要集中在商业角度。我们需要探讨的问题是:什么是具身智能?
目前,这个术语其实并不是完全明确的,且没有形成完全的共识。我这里列出了四种不同的定义,当然还有更多其他的定义,但是如果我们仔细查看这些定义,可以看到某些关键词和概念不断地重复。
第一种定义认为,具身智能是智能体通过与物理环境的互动而形成的智能。这个互动不仅仅是感知,还包括行动,也就是说它需要通过身体去感知世界、影响世界。
第二种定义强调了身体在智能形成中的作用,认为智能并不是孤立于身体存在的,而是与身体的形态、结构以及身体与环境之间的关系紧密相关。
第三种定义则来自机器人学领域,把具身智能看作是在物理世界中运行的机器人系统所具备的综合感知、决策和执行能力。
第四种定义比较宽泛,它把虚拟环境中的具身化代理(embodied agents)也包含在内,比如游戏中的智能角色或者虚拟现实中的交互式AI。
虽然这些定义各有不同,但我们可以发现一些共同的关键词:感知、行动、交互、环境、身体。这说明,无论从哪个角度出发,具身智能都离不开身体和环境之间的动态互动。
在我们达成了对“具身智能”的基本共识之后,我想提出一个值得我们思考的问题:具身智能的价值究竟在哪里?
从学术研究的角度看,它的价值在于推动我们更全面地理解智能的本质;
从产业应用的角度看,它的价值在于让AI从虚拟世界真正走进现实世界,去解决那些无法用纯软件解决的问题。
但是,这里面有一个挑战:具身智能的研究和应用门槛都很高。
在研究层面,我们需要跨越人工智能、机器人学、传感技术、认知科学等多个领域;
在应用层面,我们需要考虑硬件成本、可靠性、安全性等多方面的制约。
所以我想抛给在座各位的第一个问题是:我们是否真的已经准备好,让具身智能大规模进入商业化阶段?接下来我们将开启本场的对话,先请几位嘉宾介绍一下自己。
王田苗:非常高兴今天能作为嘉宾参加世界机器人大会。我是北京航空航天大学机器人研究所的教授,专注于服务机器人研究,同时也从事创业导师的孵化和投资工作。谢谢。
曹巍:大家好,我是蓝驰创投的合伙人曹巍。我在2010年加入蓝驰,蓝驰是国内领先的早期投资机构,我们主要关注AI及其相关领域的风险投资。
蓝驰在机器人领域的投资始于2015年,当时我们投资了全球领先的清洁机器人公司——高仙机器人,以及智能汽车公司理想汽车。在这一波机器人引领的浪潮中,我们也投资了智元机器人、银河机器人等具身智能相关的公司。非常高兴今天能与大家一起讨论具身智能相关的话题。
郭彦东:大家好,我是郭彦东,2013年在美国博士毕业,读书期间就专注于人工智能和机器人方向。毕业后,我在微软、小鹏和OPPO工作,担任主要研发负责人。2023年,我创办了智平方科技,致力于开发第四代智能终端,目标是拥有强大的“大脑”和稳定的“身体”,为各行各业提供服务。
智平方科技成立不到两年,我们的具身大模型在性能上获得了国际同行的认可,并在汽车、半导体、生物科技等领域取得了商业化应用。今天,我很高兴有机会分享我们在具身智能领域的一些思考。
杨丰瑜:大家好,我是UniX AI公司创始人杨丰瑜。我们的公司成立于2024年4月,至今已经推出三代轮式人形机器人,并发布了一代双足机器人。我们是一个全栈的具身智能公司,主要聚焦在上肢操作中的应用。
虽然我们今天展示的是双足机器人,但我们主要的商业化产品是轮式双臂机器人,应用于服务端场景,比如酒店、办公楼等场景夜间巡检。今年我们已经交付了几百台机器人。创业之前,我本人曾在耶鲁大学攻读计算机博士,研究方向为触觉多模态传感,并将其应用于机器人感知和操作中的运用。
Alois C.Knoll:我们看到,今天的讨论非常广泛,涵盖了从工业到服务领域的应用。现在我想稍微深入一下,探讨一下具身智能在现实应用中的具体场景。
第一个问题是,我们已经看到了一些实际的应用,尤其是在人形机器人方面。那么,这些需求将会如何驱动具身AI的发展?这种需求背后的独特价值是什么?
王田苗:这是一个非常深刻的问题。目前机器人,特别是泛化机器人和具身智能,在我们的人类社会中最重要的作用是服务和提高生产效率,并提供社会服务的价值。
历史上,机器人已经完成了这个任务。但是,当我们的新产品发生变化时,我们的工业机器人甚至是AGV(智能搬运机器人)等,都需要工程师们重新编程。这让我们产生了一个问题:工程师的经验能否沉淀下来?某些基本操作是否可以通过当前的模型和算力来解决?从趋势来看,这是可能的。于是,机器人就加入了感知、学习和推理来决策,而这些功能在过去的机器人中并不具备。
举个例子,在服务场景中,例如清理餐桌,如果让机器人去学习,我们需要首先编码感知,再进行推理,形成空间轨迹,然后再进行操作。比如桌面上有剩菜、饭盒和垃圾袋,机器人会自动知道要把剩饭放进饭盒,把垃圾放进塑料袋,然后丢进垃圾桶。
如果我们可以利用人工智能来理解并生成子任务、感知、推理的步骤,会大大提高服务价值。所以我认为,具身智能的真正价值在于它能够学习、推理,并模仿人类,以高效的方式匹配生产效率和服务价值。
Alois C.Knoll:我追问一个问题,因为很多人问我,人形机器人首先应用在哪些领域?是工业领域?家庭领域?还是公共空间等?
王田苗:如果把具身智能定义为匹配提高生产效率和服务价值的时候,其实与形态并没有太大关系。我们需要算一笔账,这个账就是我需要运营多少台机器人,基于什么样的形态,之后我再定义模型和数据。
如果账算得过来,比如看需要30万或50万人民币,再看操作的容错性。比如说需要拿水杯上下左右等操作,即使摇晃也没什么关系。但是它在工业领域的要求是很高的。
比如说,这个账在两三年内可以算过来,那就可以推进应用。如果账算不过来,比如需要5年及以上,那就很可能只是概念验证。
根据这个思路来看,人形机器人或者类人形机器人,可能会在商业超市等环境中应用,因为它能高频赚很多钱,或者在工业特定的环境中应用,但不会泛化到所有工厂、养老院或者儿童陪护等场景。对于这些领域来说,我觉得还需要一段漫长的路。
Alois C.Knoll:那么,我们再回到最初的问题。你们看到的现实世界应用是什么?具身AI的应用场景有哪些?
曹巍:我们在2015年就开始研究人形机器人,回顾了大量的历史文献,探讨人形机器人及其对整个社会的长期价值。当我们谈论机器人时,我们究竟在谈论什么?从长期来看,它对人类社会的意义是什么?我们得出了一些结论,其中之一是我们在寻找无限的生产力,这种生产力尽可能便宜且可扩展。这是我们长期目标的一个角度。
另一个角度是人类文明的再生,这是人形机器人长远发展的目标之一。在短期内,我们试图逐步解锁人形机器人的使用难题。我们提出了一种简单的算法,从简单的任务场景到复杂的任务场景逐步发展。
具身智能和人形机器人的技术进步将是逐步发展的,不是像突然醒来一样,你就会看到机器人来帮你做所有家务。这个过程将是一个非常漫长的旅程。
当我们寻找投资机会时,尤其是考虑到短期的应用场景时,我们会着眼于具体的场景,比如参观工厂。例如,我们是理想汽车的天使投资人,当我们参观理想汽车的工厂时,发现80%的过程已经完全自动化,但仍有20%的工作是劳动密集型的。
在生产线中,仍然可以看到很多人。我问其中的工人,为什么没有机器人来代替你的工作?问题出在哪里?得到的答案是,这些工作非常复杂且灵活,不像数据驱动或者具体数字驱动的任务,更像是依赖经验和复杂过程。我们看到这更多是像大型语言模型或多模态系统的数据驱动过程。
Alois C.Knoll:非常感谢。这是投资者的角度。那么,你们对这些创业公司设定的时间框架是多少?你们会给他们多少时间?
曹巍:这是一个非常好的问题。作为天使投资人,我们的基金周期是10年。所以最难的部分是,我们需要找到那些真正理解技术当前限制的人,他们能在未来3到5年的时间窗口内,结合学术界和供应链的最佳资源,打造出一个符合市场的产品并推向市场。
郭彦东:谢谢教授,曹巍先生已经给出了非常有价值的意见,我想再补充一些个人看法。
首先,具身智能的需求并不是新产生的,而是已经存在很长时间了。全球范围内,劳动力短缺一直是一个非常严重的问题,许多工作都是不愉快的、不安全的,甚至是危险的。
因此,无论是人形机器人,还是普通的自动化设备,都必须承担这些任务。但真正改变游戏规则的是,由于大语言模型和其他技术的快速发展,具身AI可以适应不同的场景,处理非结构化的任务。
这是一个新的变化。如果你问我,具身智能的需求是什么?我认为新的需求是在不确定、非结构化的场景下使用机器人。例如,在汽车、半导体和生物科技等行业,制造商们面临着类似的问题。某些任务适合自动化设备完成,但很多任务确实需要人来做,因为它们是不确定且非常复杂的。这也是为什么工厂中仍然有大量工人,特别是在处理复杂且非结构化的任务时,现有的机器人和算法无法替代这些工人。
另一个例子是零售行业。我们曾与零售商讨论,如果能引入一些具有人形外形的机器人,这些机器人能够在某些环节替代人工,答案是他们非常欢迎这些机器人。因为他们的工作有多个步骤,现有的机器人可以完成其中的几个步骤。
例如,机器人可以向顾客问好、进行人流管理,甚至为顾客提供餐饮服务(如制作咖啡、送茶等)。这些对于员工的工作是非常有用的。所以,这就是我们所看到的具身智能在日常生活中的实际应用,机器人可以在生产或服务过程中发挥作用。
杨丰瑜:我认为,具身智能的需求一直存在,关键在于技术发展能否找到合适的产品与市场契合点。回顾机器人发展的历史,最早的第一代机器人可以在工厂的流水线上完成固定轨迹的操作,经过几十年的发展,如今大部分简单的、可标准化的任务都已被替代。但剩下的那部分工作之所以没有被机器人接管,是因为它们过于复杂,需要灵活性和泛化能力,而且在精度上几乎没有容错空间。
2025 年常被称作人形机器人或具身智能的“商业化元年”。我们收到了上千个来自不同行业的应用需求。在选择落地场景时,我们总结了几个关键原则:
容错性高的场景优先。参考近十年来成功的AI产品,例如人脸识别和ChatGPT,这类产品能被广泛使用的原因之一,就是对偶发错误有较高容忍度。例如刷脸进门识别错误可以再刷一次,ChatGPT的回答不够好可以人工调整。
先进入公共服务或半开放场景。在这些场景中,即使机器人不能做到百分之百正确,只要能完成大部分工作,就能发挥价值。同时,这样的环境能帮助我们快速收集多样化的真实世界数据,包括成功案例和失败案例,进一步提升模型性能。
采用增量优化策略。初期机器人并不完美,但在真实环境中运行,可以不断积累数据,让模型在实际应用中逐步变得更智能,而不是依赖人工搭建的仿真环境去生成有限的“理想化”数据。
因此,我们判断,服务业或公共场所将会是人形机器人进入市场的第一步,在这里积累的多样化数据,最终能支持它们进入更复杂的领域,例如家庭场景。
Alois C.Knoll:如果我们继续探讨一下技术突破,目前有哪些技术突破是必需的,以确保具身AI在非结构化环境中能够稳定可靠地应用?你们已经做了一些评论。那么,是否还有其他的突破需要达成?
杨丰瑜:好的,我简要回答一下这个问题。最难的部分是让机器人在最复杂的非结构化环境中稳定可靠地工作。大家经常忽视的一项关键技术是遥操作。因为在这种环境中,机器人无法做到100%的成功率,因此需要保持闭环反馈。我觉得教授刚才提到的闭环问题非常重要。我们需要人类操作员在机器人的自动化过程中充当安全员,类似于自动驾驶车辆中的安全员角色。此外,机器人需要具备力控制和扭矩控制,即使在硬件失效时,也能保持稳定运行。这是确保机器人可靠性的基础。
Alois C.Knoll: 非常感谢。其他几位还有什么补充吗?
王田苗:除了稳健性和可靠性的突破外,我认为在具身智能的应用中,当前有两条发展路线:一条是理想主义者的路线,希望构建一个全球统一的世界模型,再加上通用的机器人以及丰富的数据,以便可以广泛应用于多种场景。然而,这种思路的可靠性和稳定性非常难以实现。
所以,我们也可以从现实出发,采取另一条路线:构建垂直领域的智能化模型,并将其应用到特定场景中。这种方法能在特定场景下解决稳定性和可靠性问题。比如以咖啡场景、清扫场景、手术场景等为例,这些领域的需求较为明确且变化不大,因此机器人在这些场景中的应用会更容易被接受。
郭彦东:我认为,要让具身智能在非结构化环境中实现真正的突破,有三个关键要素:
第一,合适的算法。算法必须能够尽可能多地摄取各种类型的数据,并且具备在真实环境中自我学习的能力。理想情况下,这个算法应该足够大,能够像人类一样掌握大量常识,从而在面对具体任务时,能够非常迅速地学会并适应。这不仅依赖算法结构本身的设计,也取决于它能否在真实环境中不断迭代。
第二,科学的数据策略。我在一年半前提出过一个观点:训练具身智能需要同时结合三类数据——互联网数据、仿真数据和真实世界数据。
我将数据策略分成两个阶段:冷启动阶段(Cold Start):这一阶段必须三类数据结合使用,让模型快速建立起通用能力。
还有真实世界学习阶段(Learn from Real World):当模型具备一定基础后,就要尽可能多地从真实世界收集数据。因为在真实环境中,机器人会遇到仿真环境和网络数据无法提供的关键信息,比如压力、温度,甚至人的表情和情绪反馈。这些信息会让机器人获得更丰富、更真实的认知能力。
第三,稳定且低成本的硬件。我并不认为一定要用非常昂贵的硬件,相反,我主张使用便宜但足够稳定的硬件。原因是只有这样,才能尽早将机器人部署到真实环境和客户场景中运行,去采集宝贵的数据。同时,硬件必须在大规模生产中保持一致性——生产100台和生产100万台是完全不同的挑战,但一致性对于商业化至关重要。我在小鹏和OPPO负责硬件产品时,就深刻体会到,硬件一致性对工程和量产环节的重要性。
因此,在我看来,要想推动具身智能在真实世界中落地,就需要这三方面同时发力:强大的算法、分阶段的数据策略,以及稳定且低成本的硬件。这三者结合,才能让具身智能产品既有能力,又能规模化进入市场。
Alois C.Knoll:我们其实在刚才的讨论中已经部分触及了下一个问题,但现在我想请大家集中谈一谈“可信度”。也就是说,我们怎样才能让这些具身智能系统真正值得信任,让人们愿意与它们共事、融入日常生活,而不会产生排斥?换句话说,如何避免用户因为不信任而拒绝与这些系统直接互动?
曹巍:让人信任机器人是一个非常漫长的过程。首先,从教育和日常接触开始,可以减少人们的陌生感。比如,我看到有孩子在很小的时候就跟机器人一起玩、一起踢球,这种长期的互动能帮助建立亲近感。
其次,在物理安全方面要改进。现在大多数机器人还是金属结构,太重、惯性太大,如果高速运动,会给人带来危险。我们需要让它的外部结构更“柔软”或更安全,减少对人的潜在伤害。
最后是算法的透明性。目前神经网络的决策过程外界很难理解,我们需要在系统中加入“看门狗”或“防火墙”机制,设定硬性的安全边界,确保机器人在与人交互时不会越界。
王田苗:我认为可信度问题的第一步,是要建立第三方的评价与标准。工业机器人有 MTBF(平均无故障时间),自动驾驶有第三方测评,具身智能也应该有类似标准。
第二个关键是责任划分。在出现问题时,责任可能涉及四方:运营方、制造方、用户误用方,以及保险/赔付方。这四方应该形成清晰的协作机制。历史上在汽车、自行车、飞机等领域,这些责任划分都是通过行业和法规逐步完善的。如果过于保守,发展会慢;如果过于激进,风险会高。
最后,不同类型的应用要有分类标准,比如陪护类、工业操作类、养老类、驾驶类等,要有各自的安全和可信度指标。
杨丰瑜:在我看来,可信度的核心是可预测性。我不要求机器人在所有场景下都成功,但至少要能预测出它在哪些场景下会失败。
现在很多是端到端的大模型,虽然会出现“涌现”能力,有时会超出预期地表现良好,但也会出现无法预判的失败情况。这就需要在端到端的流程中加入对人类可解释的中间环节。
比如我们在模型中用关键点模仿学习,在生成动作轨迹前,会输出关键点。如果这些关键点不符合常识,人类就可以及时干预;在事后分析时,也能回溯是哪个环节出了问题。这样不仅能提高安全性,还能帮助模型不断改进。
郭彦东:我认为要让人信任具身智能,可以从开源底座模型做起。底座模型是具身智能泛化能力和定制能力的核心来源,但它也是系统中最不可预测的部分。如果把底座模型开源,大家就可以看到它的内部机制、理解它的工作方式,这会增强外界对它的信任。
我们最近开源了最新的模型 Fast&Slow,不仅是为了技术传播,也是为了传递一个信号:透明和开放,是建立信任的关键途径。
Alois C.Knoll:我们刚才已经谈到了一些与商业化相关的话题,比如量产降本。但我想更具体地问——要让具身智能系统真正商业上可行,我们需要采取什么方法?是否有可以借鉴的经验或方法论,比如来自汽车产业?在降本的同时,如何提高质量和产量?
郭彦东:我不完全认同这个问题背后的假设,因为我认为硬件成本已经在快速下降。以前买一台人形机器人可能要上百万人民币,现在只需要一两万元就能买到基础版本。
真正在上升的是AI侧的成本,包括模型训练、数据管理、算力资源等。我的策略是:
算法小型化 + 大规模增量学习:不要每次都从零开始训练,而是用小而有效的算法持续迭代模型。
智能化算力与数据管理:跨GPU卡通信、建立高效的向量数据系统、大规模存储多模态数据。
真实使用场景采数:把机器人卖给客户,通过实际运行采集数据,这比自建数据生产体系更经济。
鼓励开源:包括数据开源,这样能降低全行业的数据成本。
强底座模型:有了强大的底座模型,针对不同客户场景的定制化成本会显著下降。
王田苗:我认为有两个切入点,能在三到五年内加速具身智能的规模化应用:
第一,是从运营环节切入并直接负责。像特斯拉做自动驾驶,如果把运营交给第三方,我觉得不可行。
第二,是加强基础数据和算力能力,由此带动通用载体平台和核心部件的供应链成熟。这两点结合,有可能让具身智能在一些大的应用赛道上快速展现商业价值。
杨丰瑜:对我们来说,硬件价格不是核心障碍,我们的人形机器人只卖1万美元,已经能投入实际工作。更关键的是降低进入新环境的边际训练成本。
我们的做法是依靠少样本模仿学习和在真实场景下采集的数据,让机器人尽快适应新环境。结合终身学习 / 增量学习,机器人会随着应用场景的积累,持续提升智能水平。
曹巍:我认为要想推动机器人产业发展,必须先找到那些简单但可大规模复制的工作,用最直接的方式交付价值,然后再一步步往上走。复杂任务可以留给一些大学和研究机构去探索,而创业者的重点应该放在商业化和规模化上。
Alois C.Knoll:非常感谢大家的讨论和意见。看起来,大家在降低成本、提高生产效率以及增加产品质量方面有着一致的看法。对于具身智能的商业化,我们的共识是,虽然现阶段面临一些挑战,但通过不断的技术创新和生产模式的优化,我们可以期待这一技术在未来的广泛应用。接下来,我们可以讨论一下关于这些系统的监管框架。
关于监管,我们是应该先放开,让创新先行,然后再去监管?还是像欧洲的做法那样,先立规矩,再看产业怎么发展?目前这个阶段,你们觉得需要监管吗?如果需要,应该重点监管哪些方面?
王田苗:监管确实非常重要。首先,具身智能应该首先去替代那些危险的、复杂的、不受欢迎的工作,而不应该替代人的生活服务类工作,否则人类的角色会被削弱。
此外,必须有针对数据安全、知识产权和人身安全的监管制度,确保系统在运行中不会伤害人类,也不会引发隐私或版权纠纷。
我们需要一个明确的监管框架,以确保具身AI在使用过程中不会出现安全隐患或侵犯用户的隐私。在这个框架下,企业和消费者可以建立更加信任的关系,确保技术的透明度和可控性。
我认为,类似于无人驾驶汽车的监管方式,我们也需要为具身智能设立具体的行业标准和法律规范。这些标准不仅能够保证技术的安全性和合法性,还能促进整个行业的健康发展。
曹巍:我认为监管是必要的。作为投资人,我们希望看到治理上的一致性。只有在明确的治理框架下,投资才能产生长期的复利效应。
郭彦东:我同样认为需要监管,这样才能保障系统的安全性、伦理性和社会价值导向。我一直强调,具身智能应该像手机和汽车一样,是帮助人的工具,而不是取代人。
另外,我不认为全球必须采用统一的监管模式。可以有共同的底线,但细则上,各个地区和国家可以根据自己的情况做差异化规定。
杨丰瑜:我赞同这一点。无论在哪个国家,数据隐私和责任归属都必须有明确的监管。现实中,监管大概率会是区域性的,比如欧洲、美国、东南亚都有不同的认证要求和细节标准。但共同目标是一致的——确保机器人稳健、安全、可靠。
華文財經新聞社聯合報道。发布者:张聚奎,转载请注明出处:https://huaxinnews.com/3943.html