AI 複製聲音的基本條件 - AI 廣東話 AI 語音 AI Cantonese Voice Cloning

現時的人工智能成熟了嗎？相信我們因為感受過 ChatGPT 的 powerful 而開始充滿幻想，有時面對合作方或客戶，更有天馬行空的要求和見解。「技術上做到」、「理論上做到」、與「讓人類用到」是完全不同的。「理論上做到」等於計算宇宙大爆炸後一秒所發生的事情，「技術上做到」通常出現於學府，花大量「理論」和「研究」去完成一個成品，「讓人類用到」與「技術上做到」的距離，中間夾雜的金錢運用和推廣宣傳，加上「讓人類用到」等於隨時準備應付一萬人同時使用，甚至更多，所需的資源絕對是天文數字。

我們為了加速「讓人類用到」而非流於「技術上做到」，期間我們在語言的字典和錄音內容做了大量修改。以往，錄音內容乏味枯燥，大量與生活無關的字句，內容亦傾向讓人充滿疑問，錄音者需要要三思考才能明白句子。為甚麼錄音者要明白句子呢？正如唱歌一樣，明白句子讓錄音者讀句時更流暢，流暢得接近日常對話，這樣的錄音內容最好。

錄音句子的內容和意義也是重要的。我們為初期參與者錄音的時候並無發現，只能夠從錄音檔案發現他們「錄得唔夠好」，繼而想「點樣可以錄好啲呢？」，最後發現，因為我們做的是「語言」，是人類最貼身的工具，這「工具」因應錄音者的習慣有所不同。例如要一名裝修師傅說會計的專有名詞，裝修師傅絕對會「錄得唔好」，假如我為師傅撰寫一堆跟油漆、拆牆相關的內容，他就會錄得相當好。

一個真實例子：2023 年 4 月，一名女士聯絡到我們，說她爸爸需要進行切除手術，將很大機會不能再說話。我們馬上為他進行錄音。爸爸當時的聲線還好，但錄音總有點「甩咳」，於是我問女兒有關爸爸的日常，她說爸爸喜歡釣魚，買馬。我們在一星期內製作了過千句跟魚和馬相關的內容（相信香港人都懂的，光是馬名都非常多變化）。當然，爸爸的錄音 raw data 相當好^。

一切都是為了從源頭 Enhance data。

不少人曾質疑我們，為甚麼我們需要錄取超過一小時的 raw data，而其他 voice cloning 如 Elevenlabs 或中國的技術，短的只需一句即成。下次討論。

^2024 年 3 月，女兒跟我說她爸爸做了手術，幸得保住聲音。Thanks god.

*錄音讓人腰酸背痛的話，能夠有好的 data 嗎？