今日,螞蟻靈波宣布開(kāi)源流式三維重建模型LingBot-Map,該技術(shù)突破了實(shí)時(shí)空間感知領(lǐng)域的技術(shù)空白。LingBot-Map能夠在視頻采集過(guò)程中,僅依靠一顆普通RGB攝像頭,實(shí)時(shí)完成相機(jī)位姿估計(jì)與場(chǎng)景三維結(jié)構(gòu)重建。這一技術(shù)的核心在于其純自回歸式建模,基于幾何上下文Transformer,無(wú)需依賴未來(lái)幀信息,逐幀處理當(dāng)前及歷史畫面,持續(xù)輸出精準(zhǔn)的相機(jī)位姿和深度信息,實(shí)現(xiàn)“所見(jiàn)即所建”。
LingBot-Map的性能在多個(gè)權(quán)威基準(zhǔn)測(cè)試中全面領(lǐng)先,特別是在OxfordSpires數(shù)據(jù)集上,其絕對(duì)軌跡誤差(ATE)僅為6.42米,軌跡精度較此前最優(yōu)流式方法提升約2.8倍。此外,LingBot-Map在ETH3D基準(zhǔn)上的重建F1分?jǐn)?shù)達(dá)到85.70,較第二名提升超過(guò)8%,場(chǎng)景還原精度大幅提升。該模型還兼顧實(shí)時(shí)性與長(zhǎng)時(shí)穩(wěn)定運(yùn)行能力,推理速度可實(shí)現(xiàn)約20FPS,支持10,000+幀長(zhǎng)視頻連續(xù)推理,長(zhǎng)序列運(yùn)行精度幾乎無(wú)衰減。
螞蟻靈波自今年1月以來(lái),已相繼開(kāi)源多款模型,圍繞空間感知、具身決策、世界模擬等關(guān)鍵環(huán)節(jié),持續(xù)夯實(shí)具身智能的技術(shù)布局。LingBot-Map的開(kāi)源,進(jìn)一步補(bǔ)齊了實(shí)時(shí)空間理解與在線三維建圖的關(guān)鍵能力拼圖。模型和代碼已正式在HuggingFace和ModelScope開(kāi)源,螞蟻靈波期待更多開(kāi)發(fā)者和研究團(tuán)隊(duì)加入,共同探索流式三維重建的更多可能。


來(lái)源:一電快訊
返回第一電動(dòng)網(wǎng)首頁(yè) >
以上內(nèi)容由AI創(chuàng)作,如有問(wèn)題請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內(nèi)容并不代表第一電動(dòng)網(wǎng)(www.22xuexi.com)立場(chǎng)。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權(quán)請(qǐng)聯(lián)系郵件刪除。