英特爾實驗室通過兩種新的AI模型推進計算機視覺開發(fā)
VI-Depth 1.0 和 MiDaS 3.1 開源 AI 模型改進了計算機視覺的深度估計。
深度估計是一項具有挑戰(zhàn)性的計算機視覺任務(wù),需要在機器人技術(shù)、增強現(xiàn)實 (AR) 和虛擬現(xiàn)實 (VR) 中創(chuàng)建廣泛的應(yīng)用程序。現(xiàn)有的解決方案往往難以正確估計距離,而這是在視覺導(dǎo)航方面幫助規(guī)劃運動和避開障礙物的關(guān)鍵方面。英特爾實驗室的研究人員正在通過發(fā)布兩種用于單眼深度估計的 AI 模型來解決這個問題:一種用于視覺慣性深度估計,一種用于穩(wěn)健的相對深度估計 (RDE)。
最新的 RDE 模型 MiDaS 3.1 版僅使用單個圖像作為輸入來預(yù)測穩(wěn)健的相對深度。由于其在大型和多樣化的數(shù)據(jù)集上進行訓(xùn)練,它可以在更廣泛的任務(wù)和環(huán)境中有效地執(zhí)行。最新版本的 MiDaS 通過其更大的訓(xùn)練集和更新的編碼器骨干將 RDE 的模型精度提高了約 30%。
MiDaS 已被納入許多項目,最著名的是 Stable Diffusion 2.0,它啟用了深度到圖像的功能,可以推斷輸入圖像的深度,然后使用文本和深度信息生成新圖像。例如,數(shù)字創(chuàng)作者Scottie Fox使用 Stable Diffusion 和 MiDaS 的組合來創(chuàng)建 360 度 VR 環(huán)境。這項技術(shù)可能會帶來新的虛擬應(yīng)用,包括法庭案件的犯罪現(xiàn)場重建、醫(yī)療保健的治療環(huán)境和身臨其境的游戲體驗。
雖然 RDE 具有良好的通用性和實用性,但缺乏規(guī)模會降低其對需要度量深度的下游任務(wù)的實用性,例如地圖繪制、規(guī)劃、導(dǎo)航、對象識別、3D 重建和圖像編輯。英特爾實驗室的研究人員正在通過發(fā)布 VI-Depth 來解決這個問題,VI-Depth 是另一種提供準確深度估計的人工智能模型。
VI-Depth 是一種視覺慣性深度估計管道,它集成了單目深度估計和視覺慣性里程計 (VIO),以生成具有公制尺度的密集深度估計。這種方法提供了準確的深度估計,有助于場景重建、映射和對象操作。
結(jié)合慣性數(shù)據(jù)可以幫助解決尺度歧義。大多數(shù)移動設(shè)備已經(jīng)包含慣性測量單元 (IMU)。全局對齊確定適當(dāng)?shù)娜直壤?,而密集比例對齊 (SML) 在本地運行并將區(qū)域推向或拉向正確的度量深度。SML 網(wǎng)絡(luò)利用 MiDaS 作為編碼器主干。在模塊化管道中,VI-Depth 將數(shù)據(jù)驅(qū)動的深度估計與 MiDaS 相對深度預(yù)測模型以及 IMU 傳感器測量單元相結(jié)合。數(shù)據(jù)源的組合允許 VI-Depth 為圖像中的每個像素生成更可靠的密集度量深度。
MiDaS 3.1和VI-Depth 1.0可在 GitHub 上獲得開源 MIT 許可。
有關(guān)更多信息,請參閱“用于密集預(yù)測的視覺變換器”和“邁向穩(wěn)健的單眼深度估計:混合數(shù)據(jù)集以進行零樣本跨數(shù)據(jù)集傳輸”。
- 上一篇
人工智能價格下跌:如何利用、挑戰(zhàn)和主要考慮因素
人工智能因其能夠自動執(zhí)行重復(fù)性任務(wù)和增強決策能力而受到全球組織的關(guān)注。早些時候,人工智能僅適用于大公司和大學(xué)進行學(xué)術(shù)研究或構(gòu)建高成本的專有工具。但近年來,公司正在經(jīng)
- 下一篇
數(shù)字化轉(zhuǎn)型如何為銀行業(yè)帶來變革
隨著精通技術(shù)的客戶的偏好和興趣不斷變化,人們見證了銀行業(yè)數(shù)字化轉(zhuǎn)型的興起,它提供更快、更多樣化的服務(wù)選擇,為客戶提供全渠道的體驗。換句話說,數(shù)字化轉(zhuǎn)型確保了在任何設(shè)備上都能提供快速無縫的銀行服務(wù)。