acebook 推出了一個(gè)名為 SoundSpaces 的新的開源工具,專為所謂的 "嵌入式AI "而設(shè)計(jì)。該工具旨在通過允許機(jī)器人分析環(huán)境聲音,幫助他們更有效地找到自己的方向。
圖片來源:siliconangle
音頻對導(dǎo)航很有用。例如,如果用戶要求假想的機(jī)器人家庭助理取回正在響鈴的智能手機(jī),則將聲音追蹤到其來源可能比目視檢查設(shè)備可能位于的每個(gè)房間要快得多。
SoundSpaces 是一個(gè)主要基于 3D 環(huán)境聲學(xué)模擬的音頻渲染信息集。該信息集設(shè)計(jì)用于 Facebook 的開放供應(yīng)模擬平臺 AI Habitat,它提供了一個(gè)軟件程序傳感器,使其可以在掃描的真實(shí)世界環(huán)境中插入聲源的模擬。
SoundSpaces 提供了一系列音頻文件,AI 開發(fā)者可以用這些文件在模擬中訓(xùn)練聲音感知的 AI 模型。Facebook 方面表示,這些音頻文件不是簡單的錄音,而是 "幾何聲學(xué)模擬"。這些模擬包括關(guān)于波浪如何從墻壁等表面反射的信息、它們?nèi)绾闻c不同的材料相互作用、以及一些其他數(shù)據(jù),開發(fā)人員可以使用這些數(shù)據(jù)來創(chuàng)建聽起來很真實(shí)的模擬,以訓(xùn)練 AI 模型。
Facebook 研究科學(xué)家 Kristen Grauman 和 Dhruv Batra 在博客中寫道,"據(jù)我們所知,這是第一次嘗試訓(xùn)練既能看到又能聽到的深度強(qiáng)化學(xué)習(xí)代理,以映射新環(huán)境并定位發(fā)聲目標(biāo)。通過這種方法,我們在導(dǎo)航方面實(shí)現(xiàn)了比使用單模態(tài)同行更快的訓(xùn)練和更高的準(zhǔn)確性。"
此外,F(xiàn)acebook 方面還表示,他們已經(jīng)開源了一個(gè)名為“Semantic MapNet”的工具,開發(fā)人員可以用來為模型提供某種空間內(nèi)存以改善導(dǎo)航的軟件模塊。