AI 複製聲音的基本條件

現時的人工智能成熟了嗎?相信我們因為感受過 ChatGPT 的 powerful 而開始充滿幻想,有時面對合作方或客戶,更有天馬行空的要求和見解。「技術上做到」、「理論上做到」、與「讓人類用到」是完全不同的。「理論上做到」等於計算宇宙大爆炸後一秒所發生的事情,「技術上做到」通常出現於學府,花大量「理論」和「研究」去完成一個成品,「讓人類用到」與「技術上做到」的距離,中間夾雜的金錢運用和推廣宣傳,加上「讓人類用到」等於隨時準備應付一萬人同時使用,甚至更多,所需的資源絕對是天文數字。

我們為了加速「讓人類用到」而非流於「技術上做到」,期間我們在語言的字典和錄音內容做了大量修改。以往,錄音內容乏味枯燥,大量與生活無關的字句,內容亦傾向讓人充滿疑問,錄音者需要要三思考才能明白句子。為甚麼錄音者要明白句子呢?正如唱歌一樣,明白句子讓錄音者讀句時更流暢,流暢得接近日常對話,這樣的錄音內容最好。

錄音句子的內容和意義也是重要的。我們為初期參與者錄音的時候並無發現,只能夠從錄音檔案發現他們「錄得唔夠好」,繼而想「點樣可以錄好啲呢?」,最後發現,因為我們做的是「語言」,是人類最貼身的工具,這「工具」因應錄音者的習慣有所不同。例如要一名裝修師傅說會計的專有名詞,裝修師傅絕對會「錄得唔好」,假如我為師傅撰寫一堆跟油漆、拆牆相關的內容,他就會錄得相當好。

一個真實例子:2023 年 4 月,一名女士聯絡到我們,說她爸爸需要進行切除手術,將很大機會不能再說話。我們馬上為他進行錄音。爸爸當時的聲線還好,但錄音總有點「甩咳」,於是我問女兒有關爸爸的日常,她說爸爸喜歡釣魚,買馬。我們在一星期內製作了過千句跟魚和馬相關的內容(相信香港人都懂的,光是馬名都非常多變化)。當然,爸爸的錄音 raw data 相當好^。

一切都是為了從源頭 Enhance data。

不少人曾質疑我們,為甚麼我們需要錄取超過一小時的 raw data,而其他 voice cloning 如 Elevenlabs 或中國的技術,短的只需一句即成。下次討論。

^2024 年 3 月,女兒跟我說她爸爸做了手術,幸得保住聲音。Thanks god.

*錄音讓人腰酸背痛的話,能夠有好的 data 嗎?

返回頂端