“我觉得今天我们谈具身智能,它有一个当下的目标,就是我们一定要推动具身智能的产业化。”6月6日,在“2025智源大会”上,北京银河通用机器人有限公司(以下简称“银河通用”)的创始人兼CTO(首席技术官)王鹤在会上如是说道。
而银河通用的轮式双臂机器人GALBOT G1也亮相现场。演示环节中,GALBOT G1在听到指令后,开始准确地从现场搭建的商品摆放密集的货架上,抓取对应的物品。
2023年5月,银河通用在北京海淀创立,公司专注研发人形机器人硬件和具身智能大模型。在过去一年多时间里就完成了超12亿元融资,投资方既包括美团战投、北汽产投、商汤国香基金等战略及产业投资方,也包括启明创投、蓝驰创投、IDG资本等明星机构。
6月1日,银河通用正式推出自主研发的产品级端到端导航大模型TrackVLA。这是一款具备纯视觉环境感知、语言指令驱动、可自主推理、具备零样本(Zero-Shot)泛化能力的具身大模型。
在银河通用发布的演示短片中,机器狗在大模型的加持下能够在超市、商场以及儿童游乐区等人员和路况都较为复杂的场所稳定地跟随前进中的母子,并且还可以帮助携带重物。
一定要推动具身智能产业化,但也要反思能否满足用户的要求
今年以来,具身智能一直是社会关注的焦点之一。而在北京举行的全球首场人形机器人半程马拉松比赛,以及5月底才刚刚在杭州落幕的机器人格斗赛都再次刷新了大众对于人形机器人的市场预期。
对于具身智能领域,通过观众喜闻乐见的比赛形式让更多人看到人形机器人只是一方面,“如何落地”才是整个产业的“必答题”。
“我觉得今天我们谈具身智能,它有一个当下的目标,就是我们一定要推动具身智能的产业化。”王鹤在今日会上表示。他指出,虽然在具身智能领域看到了很多炫酷的技能,但是也一定要反思这样的技能,是否能在新的环境、新的物品和用户对成功率的高要求下实现。
在王鹤看来,如果人形机器人能够在一般性的货架进行24小时的服务,才能构成具身智能真正走向产业化,真正服务人民,创造生产力的开始。“这也是我一直谈的,我们要推动人形机器人生产力时刻的到来。”
目前,银河通用的机器人GALBOT G1已经在现实生活场景中落地。
据王鹤介绍,银河通用的机器人已经在北京开了7家无人药店。这些机器人可以24小时在无人药店里捡药,对接骑手。王鹤表示,在今年年底,银河通用预计在北京、上海、深圳一共开100家无人药店。王鹤也表示,希望后续的赛事可以在一些操作级别上对接起来,用赛事去引领这些有价值的、可落地的技能形成,不断地把生态下沉下来。
而今年8月15日至8月17日,人形机器人的下一场盛会——“世界人形机器人运动会”将在国家体育场和国家速滑馆举办。
“VLA还只是一个起点”
此外,王鹤也针对近期具身智能领域的热点——VLA(视觉-语言-动作模型,Vision-Language-Action)给出了自己的观点。在他看来,VLA的意义在于它可以直接视觉观测,获得位置信息,最终这个模型端到端的输出动作,不经过任何的中间产物。
“所以从端到端的角度上来讲,(VLA)能够真正充分地吸收数据背后的知识,让这些(知识)发挥出最大的性能,而不会受制于一些模块化方案中间阶段的一些错误,(规避)要写无穷无尽的规则标准的这些问题。”王鹤说。
而对于VLA下一步的突破方向,王鹤表示,将人类一切能做的事情都囊括进来,形成一个基座模型还是为时过早。因为人类除了视觉的输入,还有大量的信息来自嗅觉、味觉等一系列的感官。VLA还只是一个起点,想做到人类级别的具身智能,还需要不断地融合新的模态。
而王鹤认为当前VLA现在最适合应用的方向还是移动、抓取和放置。“这几个技能基本上靠视觉为主,末端再加一个触觉和力学的传感器就能够很好地执行。而且它面对的很多任务,在工业、商业、服务等方面都有非常广泛的应用。”在王鹤看来,如果把这样的VLA先做好,将见证具身智能第一次真正高峰的到来。