近年來,關(guān)于人工智能領(lǐng)域的重磅新聞接連不斷。繼下棋、寫作之后,人工智能又開始進軍藝術(shù)領(lǐng)域。5月16日,微軟小冰發(fā)布了自己的新歌曲《我知我新》,人工智能開始接近人類歌手水平。
他們都順應(yīng)潮流
他們問為什么改變
青春灼灼花樣翩翩
卻不向前
當(dāng)世界還在變遷
若時間無垠
若探索無邊
認知就不再有極限
——《我知我新》歌詞節(jié)選
截至5月25日12時,這首單曲在網(wǎng)易云音樂收獲了超過1800條評論。點贊數(shù)最多的評論寫道,“小冰是現(xiàn)在唯一秒回我的女生了吧”;點贊數(shù)第二多的評論收獲了195個贊,這位網(wǎng)友認為,小冰的“作詞水平領(lǐng)先周杰倫兩條街了,未來可期”。
“這首歌小冰參與了歌詞的創(chuàng)作,同時也是小冰自己演唱的。” 微軟(亞洲)互聯(lián)網(wǎng)工程院人工智能創(chuàng)造事業(yè)部副總經(jīng)理袁晶向中新網(wǎng)記者介紹,“雖然這次的曲子不是小冰創(chuàng)作的,但之前也發(fā)過它作曲的作品。所以其實小冰是可以作曲演唱的,只是這次用的曲子是人類創(chuàng)作的,可以認為這是聯(lián)合創(chuàng)作。”
袁晶告訴記者,和此前的寫詩類似,人工智能創(chuàng)作歌詞也需要通過大量的歌詞去“訓(xùn)練”。在經(jīng)過上萬次“學(xué)習(xí)”后,才能在一些觸發(fā)源之下刺激它輸出。
袁晶向記者展示“訓(xùn)練”小冰的過程。從中可以看出,在最初階段,小冰寫出的歌詞難以讀懂;但當(dāng)?shù)先f次后,小冰寫出的歌詞已接近人類水平。微軟供圖
“我們訓(xùn)練用了大概一千萬行的歌詞。在訓(xùn)練中模型我們也會做一些優(yōu)化,針對曲調(diào)的韻律、節(jié)奏,會有一些優(yōu)化。所以這首詞生成出來完全是AI的作品。”他說。
創(chuàng)作歌詞之后,讓小冰把歌詞唱出來又是另外一個過程。
在微軟的科學(xué)家看來,小冰唱歌的原理和虛擬歌手“初音未來”或“洛天依”演唱的原理并不一樣——虛擬歌手需要錄制好的聲音庫,再通過重新拼接聲音庫中的片段形成歌曲;而小冰唱歌是根據(jù)輸入的信號做出發(fā)聲的反應(yīng)。
微軟(亞洲)互聯(lián)網(wǎng)工程院微軟小冰首席語音科學(xué)家欒劍直言,在拿到曲子后,會根據(jù)小冰的風(fēng)格,調(diào)整曲子的細節(jié)。“如果完全按照簡譜的節(jié)拍和音符來唱,會非常機械,不好聽。這部分我們是有模型來做的。”
在人工智能識別了曲子后,就需要用到“另一個模型”——用小冰的聲音演唱出來。而這個模型并非簡單的發(fā)聲裝置。
欒劍告訴記者,這次使用的唱歌模型已經(jīng)是第四代了。“我們的第一代版本挺像一個普通人唱歌,雖然唱得挺自然,但有時候不太在調(diào)上;到第二代時,我們解決了基本音準(zhǔn);后來不斷迭代模型、優(yōu)化算法,在音質(zhì)、自然度,包括銜接上做改進,升級到第三代。”
“第四代唱歌模型主要改進了三個方面——一個是我們加入了換氣的聲音。我們跟一些音樂人做了交流,覺得加入這個會提高演唱的自然度;第二是我們讓這個模型變得更復(fù)雜了一些,加入了控制因素,使得它在字和字之間、轉(zhuǎn)音地方的一些小技巧,能更加流暢、平滑;第三我們加入了更多訓(xùn)練數(shù)據(jù),使模型更加穩(wěn)定,在風(fēng)格上更加成型。”他說。
“以前小冰在唱主歌和副歌的感情色彩基本是一樣的,虛擬歌手唱歌的時候通常會有這樣的問題。而現(xiàn)在可以看到,小冰在唱主歌和副歌的感情、音色是有區(qū)別的。副歌的地方情緒會更加激烈,音色會更加高亢。”欒劍覺得,這是新版本與此前三個版本區(qū)別最大的地方。
小冰創(chuàng)作的詩集《陽光失了玻璃窗》。
事實上,對于創(chuàng)造人工智能的科學(xué)家們而言,讓小冰更像人類一直是他們的目標(biāo)。“我們在小冰身上主要探索兩點,一是情感,一是創(chuàng)造。”袁晶覺得,這兩點其實某些時候是緊密聯(lián)系在一起的。“當(dāng)你做創(chuàng)作的時候一定有情感,當(dāng)有情感的時候就會想要表達一些東西。”
在他看來,這樣的研究不僅僅是在嘗試將人工智能技術(shù)應(yīng)用到內(nèi)容創(chuàng)作領(lǐng)域,同時也希望讓人工智能的這種能力幫助到人類。
“其實每個人都有自己創(chuàng)作的欲望。只是有的人比較擅長創(chuàng)作,成為了畫家、音樂家,有的人雖然有這樣的創(chuàng)作欲望,但他沒有這樣的能力,或者說沒有很高的能力創(chuàng)作出這樣的內(nèi)容。我們覺得,是不是能讓AI幫助每一個普通人,都能具有這樣創(chuàng)作自己個性化東西的能力。比如說,給他自己或者朋友寫首歌。”袁晶說。
欒劍同時也強調(diào),人工智能的發(fā)展并非要替代人類,而是將來“幫助人去處理一些很重復(fù)的、沒有必要的腦力勞動”。
“況且AI現(xiàn)在還處于很基礎(chǔ)的階段。”欒劍覺得,發(fā)展人工智能的目標(biāo)是將來輔助人類去探索更多未知的領(lǐng)域。“比如在唱歌方面,AI很可能創(chuàng)造一些新的東西。而這并不會替代原有的,卻會刺激后來的歌手從中汲取所需的養(yǎng)分,創(chuàng)作出新的東西。這是挺有意思的事情。”
談及小冰的未來,袁晶表示,將來會有很多方向可以去嘗試。“比如能寫詩,是不是可以去試著寫散文,之后是不是還可以寫短篇小說,是否可以從事專業(yè)類文本的撰寫。當(dāng)然難度會一個比一個大。”
在音樂方面,欒劍認為,現(xiàn)在小冰有自己的風(fēng)格了,但風(fēng)格還比較單一。“我們會嘗試讓小冰做出風(fēng)格上的變化。另外,目前發(fā)出一些不太常見的聲音對小冰來說,仍比較困難,比如搖滾中那種比較重的嘶吼聲。這方面我們還在探索。”(完)
(原標(biāo)題:繼下棋、寫作之后,人工智能開始接近人類歌手水平)