AI音頻技術(shù)在體育廣播領(lǐng)域擁有巨大潛力/以及潛在風(fēng)險
來(lái)源:AI音頻時(shí)代 編輯:ZZZ 2025-03-28 08:45:58 加入收藏 咨詢(xún)

所在單位: | * |
姓名: | * |
手機: | * |
職位: | |
郵箱: | * |
其他聯(lián)系方式: | |
咨詢(xún)內容: | |
驗證碼: |
|
人工智能(AI)在專(zhuān)業(yè)音頻領(lǐng)域的應用,既可能成為自切片面包以來(lái)最偉大的發(fā)明,也可能像當年的“千年蟲(chóng)”問(wèn)題一樣引發(fā)恐慌。甚至,它可能產(chǎn)生類(lèi)似“奧本海默效應”的雙刃劍效果:既可能拯救創(chuàng )造者,也可能毀滅他們,同時(shí)展現出既危險又誘人的一面。
AI 設計的專(zhuān)業(yè)音頻應用產(chǎn)品已經(jīng)產(chǎn)生了影響,例如 Respeecher 在電影和視頻中用于自動(dòng)對白替換(ADR)。在音樂(lè )、電視和現場(chǎng)活動(dòng)制作中,AI 被用于自動(dòng)混音,甚至直接創(chuàng )作音頻。在這一過(guò)程中,它也威脅到了那些越來(lái)越多依賴(lài)它的“碳基創(chuàng )作者”的就業(yè)。
然而,AI 在音頻應用中的全部潛力,包括在廣播和體育直播制作中的應用,仍然充滿(mǎn)不確定性。最近一篇關(guān)于 FOX 體育在超級碗制作中應用 AI 的文章,標題中高調提到了“AI”,但內容卻只是模糊地提及了機器學(xué)習(被認為是 AI 的一個(gè)子集)在未來(lái)不確定的應用。AI 已經(jīng)成為了一種“模因”,盡管是一個(gè)價(jià)值數十億美元的模因。

SVG 采訪(fǎng)了幾位音頻專(zhuān)家,評估 AI 在體育廣播音頻中的潛在影響。以下是他們的觀(guān)點(diǎn)。
01
人類(lèi)仍然不可或缺
Quintar 的 Tom Sahara 表示:“公司需要先進(jìn)行投資,AI 才能持續產(chǎn)生實(shí)際效果。”

Tom Sahara 是 Quintar(一家空間體驗開(kāi)發(fā)公司)的生產(chǎn)技術(shù)高級副總裁,曾任 Turner Sports 的副總裁。他看到了 AI 在音頻領(lǐng)域的雙面性。其優(yōu)勢包括通過(guò)監控信號電平并以確定性和可預測的方式應用電平管理,減輕 A1(音頻工程師)在比賽期間的注意力負擔,或自動(dòng)混音輸入源以用于二級用途,如入耳式監聽(tīng)、翻譯和替代語(yǔ)言。它甚至可以通過(guò)整合來(lái)自外部和非音頻源的數據(如信號切換、路由器活動(dòng)、錄制設備狀態(tài)和 GPS)來(lái)改進(jìn)現有的自動(dòng)混音流程。

此外,自動(dòng)化的唇音同步和延遲調整可以按通道存儲,并與時(shí)間、播放列表/剪輯 ID、物理位置(GPS)、路由器設置和其他元數據一起保存,從而無(wú)需重新編輯或構建獨立的工作流程即可糾正同步錯誤的視頻源。他還指出,支持 IP 的音頻設備將加速 AI/ML(人工智能/機器學(xué)習)的發(fā)展,因為 A/D 轉換成本高昂且不易集成到傳統工作流程中。
然而,Sahara 也指出:“目前有許多管理、培訓和支持需求尚未完全被理解,公司需要先進(jìn)行投資,AI 才能持續產(chǎn)生實(shí)際效果。例如,根據個(gè)人需求訓練基于 AI 的混音和控制代理可能既昂貴又耗時(shí)。我們將不得不觀(guān)察類(lèi)似 DeepSeek 的方法是否會(huì )影響這一點(diǎn)。此外,獲取大量訓練樣本也很困難,可能會(huì )迅速超出預算和時(shí)間資源。”
更令人擔憂(yōu)的是,他補充道:“視頻中的‘幻覺(jué)’(錯誤)很容易被發(fā)現,但音頻更加微妙,驗證過(guò)程更加復雜。人類(lèi)仍然需要參與其中。”
Calrec 的美國運營(yíng)副總裁 Chris Fichera 也看到了 AI 的雙面性。他提到,AI 能夠實(shí)時(shí)處理音頻,管理解說(shuō)員評論、觀(guān)眾噪音、效果和現場(chǎng)聲音,并自動(dòng)調整均衡器(EQ),基于實(shí)時(shí)數據創(chuàng )建沉浸式 3D 混音。但他也指出,在快節奏、不可預測的體育節目中,過(guò)度依賴(lài)自動(dòng)化功能可能存在風(fēng)險。
不過(guò),他指出,這些功能可能有助于緩解體育廣播領(lǐng)域經(jīng)驗豐富的 A1 逐漸流失的問(wèn)題,因為退休人數增加,從業(yè)者群體逐漸老齡化。“這對于經(jīng)驗有限的 A1 來(lái)說(shuō)非常有用,尤其是在進(jìn)行廣播節目制作時(shí)。”
02
樂(lè )觀(guān)的看法
AudioShake 的 Suzanne Kirkland 表示:“AI 工具將增強人類(lèi)專(zhuān)業(yè)知識,讓音頻專(zhuān)業(yè)人士能夠專(zhuān)注于故事敘述和粉絲互動(dòng),而不是繁瑣的清理工作。”

Suzanne Kirkland 是 AudioShake 的企業(yè)客戶(hù)業(yè)務(wù)總監。她認為,在體育領(lǐng)域,AI 驅動(dòng)的工具如音源分離、自動(dòng)混音和語(yǔ)音克隆能夠提高工作效率并解鎖新的內容機會(huì )。
“音源分離是 AudioShake 的核心技術(shù),它幫助聯(lián)賽和廣播公司應對體育直播音頻的復雜性,” 她說(shuō),“在體育直播中,觀(guān)眾噪音、解說(shuō)和現場(chǎng)聲音相互競爭。我們的對話(huà)隔離模型通過(guò)從嘈雜環(huán)境中隔離清晰的語(yǔ)音,提高了轉錄的準確性,從而更精確地捕捉重疊的球員、教練和解說(shuō)員的對話(huà)。這使得廣播公司能夠突出最重要的內容,無(wú)論是場(chǎng)上的動(dòng)作還是場(chǎng)邊的動(dòng)態(tài)。”

“音樂(lè )移除是另一個(gè)改變游戲規則的技術(shù),幫助團隊和廣播公司避免法律和變現問(wèn)題,” 她繼續說(shuō)道,“通過(guò)去除受版權保護的音樂(lè ),同時(shí)保留語(yǔ)音和環(huán)境聲音,我們的技術(shù)使內容能夠更自由地在平臺上共享,而無(wú)需擔心下架或版權問(wèn)題。”
然而,AI 并不是能夠單獨改變行業(yè)的“靈丹妙藥”。她強調,AI 不會(huì )取代人類(lèi)的專(zhuān)業(yè)知識:“AI 工具將增強它,讓音頻專(zhuān)業(yè)人士能夠專(zhuān)注于故事敘述和粉絲互動(dòng),而不是繁瑣的清理工作。AI 將幫助處理繁瑣的工作,讓那些了解粉絲及其喜好的人有機會(huì )專(zhuān)注于創(chuàng )造和利用精彩內容。”
03
AI 已經(jīng)在發(fā)揮作用
Salsa Sound 的 Rob Oldfield 表示:“更先進(jìn)、更高效的算法,加上硬件加速,意味著(zhù)實(shí)時(shí)應用現在成為可能。”

Salsa Sound 的聯(lián)合創(chuàng )始人兼首席執行官 Rob Oldfield 指出,自 2017 年以來(lái),他的公司一直在使用深度學(xué)習技術(shù)開(kāi)發(fā)現場(chǎng)比賽子混音器。他承認,近年來(lái) AI 的炒作可能有些過(guò)頭,盡管它在語(yǔ)音識別和降噪等領(lǐng)域已經(jīng)取得了成功。
盡管如此,他補充道,一些重大進(jìn)展使得算法的部署和開(kāi)發(fā)變得更加容易,新的方法也擴展了在實(shí)時(shí)音頻中可以實(shí)現的范疇。“歷史上,AI 在音頻中的應用主要局限于非實(shí)時(shí)/離線(xiàn)應用,”他解釋道,“但更先進(jìn)、更高效的算法,加上硬件加速,意味著(zhù)實(shí)時(shí)應用現在成為可能。”

他提到,AI 處理可能帶來(lái)的延遲問(wèn)題,“一個(gè)很好的例子是自動(dòng)字幕生成、翻譯和語(yǔ)音替換,這些技術(shù)正在迅速為無(wú)障礙音頻解決方案帶來(lái)新的可能性,為觀(guān)眾提供多語(yǔ)言解說(shuō)或音頻描述頻道,而這些在以前由于成本高昂和人力密集,難以大規模生產(chǎn)。”
Salsa Sound 目前的計劃包括進(jìn)一步開(kāi)發(fā)自主混音/制作工具。這家總部位于英國的公司還正在推出一套自動(dòng)化質(zhì)量控制工具,利用機器學(xué)習監聽(tīng)特定音頻故障的特征或問(wèn)題。這包括風(fēng)噪檢測、相位異常、爆音/雜音和其他偽影,以及音質(zhì)、語(yǔ)音清晰度和關(guān)鍵詞/語(yǔ)言檢測等功能。
“實(shí)時(shí)音頻 AI 已經(jīng)有很多可能性和實(shí)際應用,” 他說(shuō),“但未來(lái)還會(huì )有更多。這是一個(gè)令人興奮的時(shí)代。”
04
小心你的愿望
NBC體育和奧運會(huì )的Karl Malone:“我認為目前廣播中的AI是‘自動(dòng)化智能’,只要有人領(lǐng)導它,而不是將其用作‘設置并忘記’。”

與大多數工程同行一樣,NBC體育和奧運會(huì )的高級音頻工程總監Karl Malone從實(shí)用而非理論的角度看待AI,專(zhuān)注于現在和不久的將來(lái)該技術(shù)及其子集(如機器學(xué)習)能為廣播體育帶來(lái)什么,主要是以自動(dòng)化流程的形式。然而,像任何曾經(jīng)混音過(guò)節目的人一樣,他對潛在的缺點(diǎn)持謹慎態(tài)度。
“我認為目前廣播中的AI是‘自動(dòng)化智能’而不是‘智能’,” 他說(shuō),并引用了Lawo的KICK音頻混音/球跟蹤技術(shù),該技術(shù)目前由德甲和FIFA用于足球比賽。“我支持將我們廣播音頻中的一些任務(wù)自動(dòng)化,只要有人負責制作音頻設計并領(lǐng)導它,而不是將其用作‘設置并忘記’,因為‘忘記’部分是我們可能遇到問(wèn)題的地方。”

但自動(dòng)化流程可以帶來(lái)顯著(zhù)的好處。例如,他建議,它可以用于在嘈雜的體育場(chǎng)館或官員的耳機中清理解說(shuō)員麥克風(fēng)通道。
“而且,當我們?yōu)橛^(guān)眾提供更個(gè)性化的音頻選項時(shí),比如賽車(chē)運動(dòng),” 他繼續說(shuō),“我可以看到從A1控制臺自動(dòng)或智能混音音頻干音到與內容匹配的演示中。例如,選擇一個(gè)車(chē)內攝像頭,聽(tīng)到該車(chē)的環(huán)境聲音,加上駕駛員和機組人員的通信,加上或減去節目評論。所有這些源都可以使用保持每個(gè)演示在混音質(zhì)量、LKFS等方面一致的參數進(jìn)行智能混音。”
目前,Malone將AI視為A1和聲音主管工具帶中的另一個(gè)工具,盡管它比自動(dòng)混音和動(dòng)態(tài)噪聲抑制更有能力。然而,未來(lái)可能更難預測,特別是當消費者對他們的廣播音頻有更多期望時(shí),以及媒體公司尋找更好地吸引他們的方式時(shí)。
“最終,產(chǎn)品的人工智能性質(zhì)將演變?yōu)槟軌蛞恢碌鼗煲粽麄€(gè)比賽場(chǎng)地,” 他預測。“但是,隨著(zhù)更多內容需要通過(guò)直接面向消費者的模式播出,我們音頻社區將不得不開(kāi)始定義我們感興趣的任何智能混音過(guò)程的參數,然后以視頻為中心的行業(yè)公司開(kāi)始發(fā)布所有新的閃亮AI音頻混音工具。”
換句話(huà)說(shuō),他警告說(shuō),圍繞AI和廣播聲音的炒作最終可能會(huì )損害它聲稱(chēng)要增強的音頻質(zhì)量。
評論comment