×

掃碼關(guān)注微信公眾號

硬核!“華為天才少年”讓自己組裝一臺家用機(jī)器人不是夢!

2025/3/12 19:45:41      挖貝網(wǎng) 周路遙

如果說宇樹機(jī)器人向我們展示了新一代機(jī)器人在工業(yè)、娛樂等方面的潛力,那么由“華為天才少年” 彭志輝創(chuàng)立的智元機(jī)器人則在昨天開啟了機(jī)器人在家用領(lǐng)域的應(yīng)用大門。

6.png

沒有跳舞、武術(shù)、翻越障礙等花哨的動作,智元機(jī)器人靈犀X2展示的僅僅只是騎車、縫葡萄、看書、聊天等我們?nèi)粘I钪?span id="gvrgib0" class="mgc">最普通的情形,但是我們知道,這些普通的情形,才是機(jī)器人產(chǎn)業(yè)大的難點(diǎn)——在電力的驅(qū)動下,想要化身大力士不難,只要一個千斤頂即可,但要模仿人類的日常動作,卻涉及人工智能、機(jī)械、電子、影像等方方面面的技術(shù)。

在擁有這些人類的基礎(chǔ)能力后,讓靈犀X2g更像一個人了!所以彭志輝表示:“我們希望機(jī)器人的生產(chǎn)力價值能夠外溢到日常生活,讓機(jī)器人成為‘吉祥三寶’,也就是保安、保姆和保潔?!?/p>

那么,智元機(jī)器人如何做到讓旗下產(chǎn)品初具家用機(jī)器人的雛形呢?

硬件為基:可以像組裝電腦一樣組裝機(jī)器人

總體來看,智元機(jī)器人靈犀X2全身共28個自由度、體重33.8千克,采用了一套基于Diffusion的生成式動作引擎,基于VLM的硅光動語多模態(tài)模型。其中,在硬件方面,靈犀X2共有三大創(chuàng)新!

像組裝電腦一樣組裝機(jī)器人:

7.png

靈犀 X2在硬件設(shè)計(jì)中,將靈犀 X2硬件系統(tǒng)抽象為一系列可復(fù)用的核心組件,核心組件包括:小腦控制控制器 Xyber-Edge,域控制器 Xyber-DCU,智能電源管理系統(tǒng) Xyber-MS 以及迭代了多版本的核心關(guān)節(jié)模組 Powerflow 等等。

通過這些可拆分、復(fù)用組件,智元能夠像組裝臺式電腦一樣,快速搭建起一套靈活、完整、可靠的人形機(jī)器人系統(tǒng)。

大量使用柔性材料:

在機(jī)體的材料選擇上,智元使用了非常親和的柔性材料。這使得靈犀 X2 的皮膚柔軟有彈性,這一方面能夠保證運(yùn)動時的柔韌性,另一方面也對人類接觸友善。

全新的關(guān)節(jié)設(shè)計(jì):

靈犀 X2 的機(jī)電關(guān)節(jié)模組重新設(shè)計(jì),在 X2 原型機(jī)全身 28 個自由度中,沒有使用到任何一個并聯(lián)結(jié)構(gòu),既能夠保證慣量上移,又實(shí)現(xiàn)了傳動鏈的完全解構(gòu)。這意味著任一關(guān)節(jié)的活動,都是獨(dú)立驅(qū)動,避免并聯(lián)結(jié)構(gòu)中多鏈條驅(qū)動帶來的相互約束問題,降低了肢體末端的慣性,保證動作更靈敏精確。

軟件為“心”:讓機(jī)器人自身具有學(xué)習(xí)和交流能力

要讓一臺機(jī)器人像人,只有硬件創(chuàng)新是不夠的,這只能讓它在外形上像人。還必須搭配算法和大模型技術(shù),才能夠讓機(jī)器人在行為動作上,也像一個人!

相比于傳統(tǒng)的機(jī)器人,人類大的特點(diǎn)是具有自主學(xué)習(xí)能力,而靈犀X2在這方面邁出了關(guān)鍵一步,該機(jī)器人同樣具有自主學(xué)習(xí)能力。

8.png

3月10日,智元機(jī)器人還發(fā)布了首個通用具身基座模型——智元啟元大模型,它開創(chuàng)性地提出了Vision-Language-Latent-Action (ViLLA) 架構(gòu),該架構(gòu)由VLM(多模態(tài)大模型)+ MoE(混合專家)組成,可以利用人類視頻學(xué)習(xí),完成小樣本快速泛化,降低了具身智能門檻,并成功部署到智元多款機(jī)器人本體,持續(xù)進(jìn)化。

目前,靈犀X2目前初步具備了簡單任務(wù)中對操作物體的零樣本泛化能力,比如給葡萄“縫合傷口”等精細(xì)活也不在話下。

當(dāng)然,作為一款可能家用的機(jī)器人,靈犀X2還必須具有與人類交互的能力。

在人機(jī)交互方面,靈犀X2搭載多模態(tài)交互大模型“硅光動語”,并通過邊緣側(cè)“端到端”模型架構(gòu)的工程優(yōu)化,使其具備毫秒級的交互反應(yīng)能力,使其能夠通過人類的面部表情和語音語調(diào)精準(zhǔn)判斷情感狀態(tài),并做出相應(yīng)的回應(yīng)。靈犀X2還能模擬人類的好奇心和注意力機(jī)制,有“偷看”“撓癢”等擬人化的表現(xiàn)。

彭志輝表示,硅光動語中的“光”代表視覺,“動”代表動作,“語”代表語音,因此也是第一臺真正具備復(fù)雜交互能力的“靈動機(jī)器人”。目前該公司還在完善這款機(jī)器人的思維模型。

在這些技術(shù)的加持下,在彭志輝發(fā)布的視頻中,彭志輝已經(jīng)能和靈犀X2展開正常聊天了。在問題和答案并未預(yù)設(shè)的前提下,機(jī)器人對彭志輝提出的問題一一作答,比如:

如果我的狗和你掉進(jìn)水里,我先救誰?

如果給你看《銀翼殺手》你會不會哭到短路?

靈犀X2 回答的是「先救狗狗我沒事」,「不會哭但會感慨萬千」。這類語言表述自然,兼具「理性」與「感性」,甚至在回答的時候,它還會有手部動作向你互動。