樂譜,是將音樂量化後使用符號記錄下來,是自古以來音樂傳承的一種方式,要學習音樂一定要看得懂樂譜也要寫得了樂譜,識譜能力也是邁入音樂領域所要習得的第一個技能。不過對於大眾來說,要譜寫一段未曾聽過的音樂,是一件不容易的事,不但需要製譜的能力,還需要準確判斷音高的能力,在高中及大學音樂科的考試項目中,「聽寫」,亦即聽出並譜寫出演奏內容也是一個大門檻,除了判斷節奏有一定的難度外,「絕對音感」的培養也是非常耗時的。但即便有了兩種能力,要將一段包含四五種樂器的音樂,明確的寫出各樂器的樂譜,也是極為困難的。在資訊科技與人工智慧發達的時代,這些資源正是能有效解決這個問題的方法,本專題希望能透過人工智慧,來讓沒有絕對音感的人也能輕鬆知道音樂裡彈奏的內容並加以學習,也讓創作者能更簡單快速的譜寫自己的作品。
自深度學習問世以來,科技就靠著這項技術在視覺方面有了跨世代的突破,如今視訊的發展也來到了巔峰,但音訊則遲遲礙於「雞尾酒會」問題有了耽擱,不過在 2018年 MIT的「 AI PixelPlayer」與izotope的「 RX 7」卻解決了這項問題。其中 PixelPlayer透過三套卷積神經網路 (CNN)來讓機器個別從影像和音訊中進行編碼,並以影像辨識出畫面中的樂器種類及定位其在鏡頭中的位置來輔助音訊的聲部分離,讓 DNN以音色和方向區分開音訊中兩種樂器,這讓聲部分離有了重大性的突破,也證實了樂器的多樣性與獨特性在音訊深度學習中的重要性。
本專題預期運用 AI LABS的轉換流程,先將輸入音檔進行樂器分離後,再將各個樂器音檔進行特徵萃取並由演算法轉換為MIDI檔,最後再將MIDI檔轉換為樂譜形式的圖像檔。而樂器分離的部分,本專題使用Spleeter API作為樂器分離的工具。
1.初期擬定題目規模過大,未考量自身能力,導致後期放棄許多技術核心的實作內容。應在規劃階段有更多的文獻探討,評估當今技術是否可完成與自身能力是否可勝任,而我們察覺之後也立即做出補救,將技術導向更改為應用導向,並向國內頂尖研究室學習最先進的研究成果。
2.部分規劃(如特色動畫、社群經營)未照原先計畫產出。團隊中需要一位專注於專案控管的成員,以防在全員忙碌的情況下,而忽略執行進度與細節。
一般大眾在尋找學習資源時,能直接挑選自己想學習的曲目與樂器,產生樂譜以供學習。樂團演奏者在忙碌的行程與大量的練習曲目下,能省力且快速的得到表演曲目的樂譜,以便演奏時使用。另外還能將改編之版本錄音後快速地轉換成樂譜,提供給大眾參考,提升整體音樂水準。
音樂創作者在創作時,能專心的在創作及演奏上,省去塗寫修改樂譜的麻煩過程。即興表演一直以來都如同一種美麗卻短暫的流星,透過本專題之AI樂譜產生器,能將即興演奏之樂譜內容清楚地保存下來。
讓深度學習神經網路在聲部分離的應用上涵蓋更多種樂器,拓展未來應用於音樂用途的發展。
雖然音樂充斥著我們的生活,卻也因為音樂家將它專業化的關係,學習音樂對於一般人來說往往是個「很花錢、很花時間」的一項活動,也因此音樂在社會真正普及的僅僅只是「聆聽」而已。但隨著音樂數位化,打破了人類對於音樂形式的想像,人們的聆聽方式轉向了串流音樂,而當時許多人擔心的黑膠唱片沒落,在現在看來卻是將黑膠唱片個別獨立出自己獨特的市場。而現在 AI時代來臨,我們開始可以將音樂這個「有規則」的玄學,被量化、模型化的去解決種種問題,使得音樂在大眾裡能夠更進一步地被普及。
期望透過這種本專題開發之程式,讓任何人可以取得任何的譜面,進行各種的音樂行為,以利音樂創作與教育以及娛樂的發展提高整個人類社會音樂的理解,進而推動音樂的轉型,並將「創作」推向另一個我們所不知道的境界。