版權歸原作者所有,如有侵權,請聯系我們

國內AI作曲浪潮再起 網易“醒來”彎道超車?

智能相對論
深挖人工智能這口井,評出咸淡,講出黑白,道出深淺。
收藏

文/黃康瑄

來源/智能相對論(aixdlun)

“醒來燦爛星光透過了窗臺,海岸線連接了那片山川大海。涌動夢境邊緣像是空曠舞臺,在眼前忽然展開。”看到這段文字,你的腦海中是否浮現出靛藍星空風云變幻、透出曙光豁然開朗的景象呢?

網易“醒來”

這段文從字順且頗具畫面感的歌詞并非出自人類之手,而是由網易新開發(fā)的人工智能所創(chuàng)作。日前,由網易伏羲、網易雷火音頻部提供作詞、作曲、編曲、演唱等全鏈路AI技術支持的歌曲《醒來》,在“2020網易未來大會”上正式發(fā)布。這是網易首次完成由AI完全生成的歌曲,從創(chuàng)作到演唱,整首歌曲從無到有僅需一小時。

圖片14.png

其實在此之前,網易一直都在默默進行大數據平臺、強化學習、圖像動作、自然語言處理等圍繞游戲領域的人工智能研究,畢竟游戲才是人家最賺錢的業(yè)務。《醒來》的歌詞創(chuàng)作就是依托于網易游戲伏羲人工智能實驗室較為成熟的語言處理技術。

網易伏羲利用其自主研發(fā)的“有靈智能創(chuàng)作平臺”,讓AI學會人類語言組織的基本邏輯。再借助大規(guī)模語料訓練實現端到端的歌詞生成,并通過自研的方法控制不同參數下的歌詞創(chuàng)作。

有靈平臺的預訓練語言模型可提高歌詞質量,確保生成內容的流暢性和上下文相關性。如《醒來》的歌詞內容便是為了契合大會主題“洞覺·未見”而編寫的一個關于AI虛擬人類在深夜蘇醒的故事。

“智能相對論”了解到, 作曲方面,網易伏羲根據樂理的數據分析,形成一套用于生成旋律的算法,可以在短時間內排列組合出多個實用性生成結果。

編曲則采用雷火音頻部自研的智能編曲引擎,從華語樂壇大量主流歌曲中識別大眾審美偏好,在15-30秒內生成一首出版級編曲。而相同質量的人工編曲,市場價格在1-1.5萬元左右。網易的此項技術已具備工業(yè)化大批量生產的能力。真沒想到,一個做游戲起家的公司竟能研發(fā)出如此成熟的AI音樂技術,AIVA和微軟小冰或許將迎來新對手。

除了作詞與編曲,以雷火音頻部提供的大量游戲配音應用案例及龐大的歌聲資源為基礎,網易伏羲借助神經網絡聲學模型和聲碼器自動根據曲譜,實時生成契合歌曲主題且“幾可亂真”的歌聲,并確?!爸鞒痹诓煌珺PM、風格歌譜上音高、節(jié)奏的穩(wěn)定性。

“還可以嘛,不說還聽不出是AI唱的。”“挺像真人的啊!”甚至還有網友從中聽出了張韶涵、鄧紫棋等歌星的“味道”,可見網易AI的歌聲幾乎能以假亂真。不鳴則已,一鳴驚人。

圖片15.png

網易云音樂用戶對《醒來》的評價

百度“睜眼”

雖然中國的AI作曲發(fā)展速度不如國外,但近年也算是“多點開花”,逐步落地。在網易之前,騰訊、百度、蝦米等互聯網公司及音樂平臺都曾在不同程度上對人工智能作曲進行探索。

2016年,百度曾通過人工智能識圖作曲技術,將勞森伯格“四分之一英里”畫作中的兩個部分分別譜成鋼琴曲。還讓AI根據梵高的《星空》、徐悲鴻的《八駿圖》創(chuàng)作樂曲,前者音韻柔和耐人尋味,后者節(jié)奏明快緊張刺激,在一定程度上與畫作意境相符合。但作為第一個成功研發(fā)此項技術的中國科技公司,百度似乎“志不在此”,并未繼續(xù)探索相關技術。

為了趕上百度,騰訊AI Lab也憑借自主研發(fā)的強化學習算法,開發(fā)了AI識圖作曲技術,并制作出“把照片唱給你聽”的體驗Demo。用戶上傳1到4張圖片后,AI會生成相關的文字描述并匹配韻腳歌詞,再通過合成語音配合旋律RAP出來。此外,蝦米音樂也在其APP推出了簡易的人工智能作曲功能“探樂行動”,通過讓用戶自行設定曲風、心情、節(jié)拍等參數,自動生成樂曲旋律。

圖片16.png

騰訊“開口”

不同于百度和蝦米的淺嘗輒止,騰訊選擇在人工智能作曲的道路上繼續(xù)前進。今年六月,騰訊AI Lab推出AI數字人(Digital Human)“艾靈”,可通過用戶提供的關鍵詞自動生成歌詞并演唱。

AI艾靈的歌聲是通過分析曲譜與人類說話語音,使用真人聲音訓練得到的深度神經網絡聲學模型和聲碼器模型,可模仿真人聲線合成音頻。

與“初音未來”等虛擬歌姬的“機器合成,人工調教”模式不同,AI艾靈使用的DurIAN聲學模型具有自動調試的優(yōu)點,讓它不需經過人工就能生成較“自然”的聲音,還能合成跨語種歌聲。但從聽感上來說,AI艾靈目前的歌聲和真實人聲還是有點差別。

AI艾靈的歌詞生成則是基于騰訊AI Lab最新研發(fā)的歌詞創(chuàng)作深度學習模型SongNet。該模型最大的特點就是可給定任意格式和模板來生成相契合的文本。能對上下文語義和格式同時建模,兼有全局生成和局部精修兩種功能。依靠關鍵詞創(chuàng)作歌詞的技能就是來源于此。

圖片17.png

雖然如此,SongNet模型仍存在局限。約束上下文和蘊含特定關鍵詞的限制會在一定程度上降低模型生成歌詞的邏輯性和連貫性。目前AI艾靈只能生成基礎歌詞和合成歌曲,尚未無法實現完全自由的創(chuàng)作。

嘗試變現

除了網易與騰訊等互聯網公司的自主研發(fā),字節(jié)跳動則直接“撿現成”,通過收購Jukedeck的方式入局AI作曲。近年,國內一些音樂公司也在此領域孵化出成果,并進行了商業(yè)化的嘗試。

如上海若鳶智能科技公司開設Deepmusic人工智能音樂—全球免版稅音樂生成平臺,為視頻、游戲、音樂等內容創(chuàng)作者提供快速制作背景音樂的服務。北京靈動音科技有限公司(DeepMusic)推出AI作詞和作曲服務,幫助沒有任何音樂專業(yè)知識的普通人也可以輕松地創(chuàng)作出屬于自己的個性化音樂。

版權內容機構HIFIVE(成都嗨翻屋科技有限公司)運用AI、大數據和云計算技術,為音樂內容生產者及使用者提供版權交易和增值服務,其智能音樂助手小嗨具有聽歌識曲、作曲、作詞三項功能,其網頁版可免費使用。

去年上線的“哼趣”APP則利用AI語音識別技術,根據使用者哼唱的內容、音調、旋律自動生成一段完整的、可編輯的曲子?,F可免費下載使用。

國內的AI作曲技術落地已有一段時間,但市場滲透率似乎不高。或許是由于上市時間還不夠長,尚未獲得市場關注;也可能是因為C端市場并沒有想象中廣闊。

對于本身就具備專業(yè)創(chuàng)作能力的音樂人而言,詞曲創(chuàng)作是個人情感表達與交流的一種方式,將其過程完全假手AI便失去了意義。能自動生成詞曲的AI技術僅能用來啟發(fā)靈感,并非絕對必要;他們更需要的應是現有編曲、錄音軟件和設備在使用上的智能化,幫助他們提高音樂制作效率。

對創(chuàng)作欲望強烈的音樂小白來說,AI作曲技術的確能幫忙實現創(chuàng)作目的,也可作為不錯的娛樂。但若作為收費服務,或許會勸退一大批用戶。畢竟業(yè)余愛好者的需求有限,而具有為此消費的強烈興趣之人,大多對音樂審美與創(chuàng)作有一定要求,且多半早已付錢學習專業(yè)的音樂創(chuàng)作技巧。因此,AI作曲技術的主要市場,應是對音樂生產有大量需求,又沒有太高審美要求的B端。

“智能相對論”了解到,在上述音樂公司中,HIFIVE的商業(yè)化較為成功。To C方面,小嗨可自動生成音樂模板,輔助音樂人以此為基礎進行再加工,縮短作品的創(chuàng)作周期。作為一家商用音樂授權機構,HIFIVE的核心業(yè)務在于對音樂內容進行確權、授權,并為品牌、活動、游戲、影視等提供定制音樂服務,并販售版權。服務對象仍以B端為主。目前,HIFIVE平臺上已有超過1000首小嗨創(chuàng)作的成品音樂可以用于授權,在廣告配樂或大型活動等特定場合,使用小嗨創(chuàng)作的背景音樂或許具有較高的性價比。

更多可能

不同于音樂公司專注于“老本行”的商業(yè)應用,網易與騰訊瞄準B端市場,嘗試擴大AI作曲技術的應用范圍。國內能自動生成音樂詞曲內容的應用雖然不少,但自動合成仿真人聲的技術屈指可數。在這方面,網易AI與騰訊AI艾靈的“出道”標志著國內人工智能作曲技術的重大進步,也比其它國內企業(yè)更具優(yōu)勢。

作為數字虛擬人的AI艾靈除了用于降低歌曲制作錄音環(huán)節(jié)的成本,還能在其聲音合成技術更加優(yōu)化、更加“逼真”之后,循著小冰框架的路線,用于打造虛擬偶像。目前,AI艾靈在這方面還處于探索階段,尚未出現突破性進展。但目前國人對虛擬偶像的喜愛及接受程度遠不如深受二次元文化影響的日本,虛擬偶像是否能讓AI艾靈成功“破圈”,似乎還需要通過時間和市場來驗證。

圖片18.png

AI艾靈在B站直播間接受彈幕點歌,和粉絲互動

此外,AI艾靈“規(guī)則明確”的語音合成技術很適合用于生成游戲解說詞等具有固定內容的加工創(chuàng)作。現在,除了Bilibili主播,艾靈還多了“王者榮耀游戲解說”的工作?;谥悄軘底秩说慕换ゼ夹g,音樂教育方面的應用也是AI艾靈未來的探索方向之一。但目前AI教育產業(yè)也仍處于探索階段,AI艾靈在這方面的嘗試可說是摸著石頭過河。

而“唱作俱佳”的網易AI技術應用范圍更加廣泛。除了用于游戲,減少背景音樂、相關歌曲的開發(fā)時間與成本之外,其達到工業(yè)化大量生產水平的AI詞曲創(chuàng)作及歌聲合成技術也可作為一個單獨的產品。作為網易最新的技術落地成果,網易目前尚未明確其AI歌曲創(chuàng)作及演唱技術的商業(yè)化路徑,目前僅將其中的文本生成技術進行商業(yè)化探索。

如作為“AI作詞”技術支持的“有靈智能創(chuàng)作平臺”開始以“人機協(xié)同”的創(chuàng)作輔助模式幫助用戶創(chuàng)作詩詞、歌詞與劇本。通過用戶輸入的關鍵字詞甚至是心情、故事,AI算法就會根據用戶的需求,自動推薦相關的場景、意象、畫面,提高文本生成的質量;也可直接生成詩詞、歌詞等作品。用戶也可以在創(chuàng)作過程中隨時開啟AI續(xù)寫,還可以提供多種候選段落支持用戶選擇和修改。

圖片19.png

AI作詞技術若面向C端,仍會出現和作曲一樣的“藝術追求”問題,或許較不利于變現。將這樣的AI文本創(chuàng)作技術用來為B端批量生產廣告劇本、宣傳歌曲或模式化的品宣文本等似乎更具商業(yè)價值。

目前看來,AI作曲產業(yè)還是一片藍海,商業(yè)競爭仍以B端市場為主。誰家的AI能以更低的價格,創(chuàng)作出更契合大眾審美的音樂、發(fā)出更符合用戶喜好的歌聲,誰就能取得領先。這種建筑在對人類審美深入理解上的AI技術優(yōu)化,在降低生產成本的同時,似乎也讓人有些不寒而栗。

隨著人工智能一步步“入侵”藝術創(chuàng)作領域,網易AI的醒來讓本就渾濁的世界更加難辨真假。在創(chuàng)造者與被創(chuàng)造者皆“期待卻不知未來如何安排”的當下,希望未來真的能像網易AI所唱的那樣,終將為我們彼此而喝彩。

參考資料:

1. 網易伏羲實驗室《網易未來大會首發(fā)AI原創(chuàng)單曲 唱功媲美專業(yè)歌手》

2. 中國電子報《騰訊緊隨百度完成“AI識圖作曲” 中國人工智能全面崛起》

3. 騰訊AI Lab《唱作俱佳 騰訊AI艾靈領唱中國新兒歌》

*本文圖片均來源于網絡

深挖智能這口井,同好添加vx:zhinengxiaoyan

此內容為【智能相對論】原創(chuàng),

僅代表個人觀點,未經授權,任何人不得以任何方式使用,包括轉載、摘編、復制或建立鏡像。

部分圖片來自網絡,且未核實版權歸屬,不作為商業(yè)用途,如有侵犯,請作者與我們聯系。

智能相對論(微信ID:aixdlun):

?AI產業(yè)新媒體;

?今日頭條青云計劃獲獎者TOP10;

?澎湃新聞科技榜單月度top5;

?文章長期“霸占”鈦媒體熱門文章排行榜TOP10;

?著有《人工智能 十萬個為什么》

?【重點關注領域】智能家電(含白電、黑電、智能手機、無人機等AIoT設備)、智能駕駛、AI+醫(yī)療、機器人、物聯網、AI+金融、AI+教育、AR/VR、云計算、開發(fā)者以及背后的芯片、算法等。