三和国际注册网址,博彩金宝博娱乐城,皇冠现金网hg1808 (中国)·官方网站

電子發燒友網報道（文/李彎彎）AI技術的應用，給我們的生活帶來了巨大改變。同時，它的不當使用也帶來了侵權、詐騙等風險。近日，北京互聯網法院首次組成五人合議庭，依法公開審理全國首例“AI聲音侵權案”。

該案中，原告殷某某以配音為職業，曾錄制多部有聲作品。殷某某意外發現，自己的聲音被AI化后，在一款名為“魔音工坊”的APP上以“魔小璇”的名義對外出售。因此，殷某某以被告行為侵害其聲音權為由，將“魔音工坊”的運營主體北京小問智能科技有限公司等五被告起訴到北京互聯網法院。

AI聲音侵權案始末

目前，該案件仍在審理中，五被告均否認侵權。北京小問智能科技有限公司認為，其APP中的聲音產品有合法來源，來自于微軟（中國）有限公司。微軟（中國）有限公司稱其使用的聲音來源于中廣影音（北京）文化傳媒有限公司。

中廣影音（北京）文化傳媒有限公司認為其與原告有過合作，約定經原告錄制形成的作品著作權歸屬其所有。上海藍云網絡科技有限公司和北京信諾時代科技發展有限公司辯稱，其分別為微軟中國的平臺運營商與涉案產品的經銷商，不構成侵權。

原告則認為，他人利用原告聲音的配音作品在抖音、直播吧等APP廣泛流傳，其中抖音用戶“小禾侃劇”自2021年9月7日至今，共發布使用原告聲音的作品119部。經聲音篩選和溯源，發現上述聲音作品中的聲音來自于被告北京小問智能科技有限公司運營的“魔音工坊”APP。

被告中廣影音（北京）文化傳媒有限公司將原告為其錄制的3本書的音頻交給被告微軟（中國）有限公司，被告微軟（中國）有限公司將原告的聲音進行AI化處理，并向被告上海藍云網絡科技有限公司和被告北京信諾時代科技發展有限公司授權對外出售。

但是，原告從未授權過任何第三人將其錄制的聲音進行AI化并對外銷售，上述被告的行為已經嚴重侵犯了原告的聲音權，應承擔停止侵權、賠禮道歉及賠償原告經濟損失、精神損失的侵權責任。

北京小問智能科技有限公司是出門問問旗下公司，魔音工坊是出門問問面向AI配音場景推出的新一代AI配音產品。在大模型技術的加持下，“魔音工坊”是全球首款搭載了大模型AI寫作功能的配音平臺，覆蓋了AI寫作、AI配音和剪輯等多個場景。用戶可以在它的輔助下輕松完成影視解說、有聲書、在線教育、新聞播報等集文案與配音于一體的內容創作。

如今，短視頻、有聲書市場蓬勃發展，這也使得聲音合成技術有了廣泛的應用空間。在應用市場和深度學習技術的發展下，語音合成技術已經非常成熟。可以看到上述情況是，原告給某公司錄過幾本書，它的聲音在沒被授權的情況下通過AI化之后，進行出售。

這其實就是現在大家談到的聲音克隆，也稱為語音合成定制，是一種深度學習算法。平臺方可以通過各種渠道獲得某人的聲音之后，哪怕這個人只是說了幾段話，通過AI技術都可以合成與原說話人非常相似的聲音。

語音合成歷史及應用趨勢

語音合成，又稱文語轉換（Text to Speech）技術，能將任意文字信息實時轉化為標準流暢的語音朗讀出來，相當于給機器裝上了人工嘴巴。它涉及聲學、語言學、數字信號處理、計算機科學等多個學科技術，是中文信息處理領域的一項前沿技術，解決的主要問題就是如何將文字信息轉化為可聽的聲音信息，也即讓機器像人一樣開口說話。

事實上，早在18到19世紀，語音合成技術就已經出現，當時是用機械裝置來模擬人的發聲，那時候科學家們會制作出一些精巧的氣囊和風箱去搭建發聲的系統，可以合成出一些元音和單音。20世紀初，出現了用電子合成器來模擬人發聲的技術，最具代表性的就是貝爾實驗室的Dudley，他在1939年推出了名為“VODER”的電子發聲器，使用電子器件來模擬聲音的諧振。

到了20世紀80年代，隨著集成電路技術的發展，出現了比較復雜的組合型的電子發生器，比較代表性的KLATT在1980年發布的串/并聯混合共振峰合成器。到了20世紀80、90年代隨著PSOLA方法的提出和計算機能力的發展，單元挑選和波形拼接技術逐漸走向成熟，90年代末劉慶峰博士提出聽感量化思想，首次將中文語音合成技術做到了實用化地步。

在20世紀末期，還有另外一種基于HMM的參數合成技術出現。而近些年，隨著AI技術不斷發展，基于深度學習的語音合成技術逐漸被人們所知道，DNN/CNN/RNN等各種神經網絡構型都可以用來做語音合成系統的訓練，深度學習的算法可以更好地模擬人聲變化規律。語音合成技術應用也迎來了高速發展。

當下，AI聲音合成技術的市場需求確實非常明顯。直播、短視頻、有聲書的市場需求空間大，然而未接受過聲音培訓的普通人對于自己的聲音滿意度并不高。而通過AI技術讓配音，或者美化自己的聲音正在成為趨勢。上文提到的魔音工坊正是通過技術手段為用戶提供好聽的聲音。

小結

當前來說，AI技術侵權的問題仍然還未得到解決，就如之前使用圖片所有權人的圖片進行訓練，生成的圖片，這是否構成對圖片所有權人的圖片的侵權。聲音訓練也是如此，使用某人的聲音訓練出了跟這個人類似的聲音，這個合成的聲音所有權算誰的？這些還需要進一步探討出相應的規范才行。