亚洲先锋影音人AV成_免费A级毛片一分钟_人人爽人人爽人人插_日韩少妇极品熟妇人妻潮喷

沃卡惠移動(dòng)端logo

人工智能語(yǔ)音技術(shù)的三大挑戰(zhàn)

2022-11-17 09:27:294636

幾十年來(lái),人們一直在談?wù)摽梢陨深?lèi)人數(shù)據(jù)的人工智能(AI)的前景。然而,數(shù)據(jù)科學(xué)家在解決這個(gè)問(wèn)題方面收效甚微。確定創(chuàng)建此類(lèi)系統(tǒng)的有效策略帶來(lái)了從技術(shù)到道德以及介于兩者之間的各個(gè)方面的挑戰(zhàn)。然而,生成式人工智能已經(jīng)成為一個(gè)值得關(guān)注的亮點(diǎn)。

在最基本的情況下,生成式人工智能使機(jī)器能夠使用音頻文件、文本和圖像等元素來(lái)生成從語(yǔ)音到寫(xiě)作再到藝術(shù)的內(nèi)容。根據(jù)科技投資者紅杉資本的說(shuō)法,“生成式 AI 不僅會(huì)變得更快、更便宜,而且在某些情況下比人類(lèi)手工創(chuàng)造的更好,”根據(jù)最近的Tech Monitor采訪(fǎng)。

特別是基于生成語(yǔ)音的機(jī)器學(xué)習(xí)技術(shù)的最新進(jìn)展取得了長(zhǎng)足的進(jìn)步,但我們還有很長(zhǎng)的路要走。事實(shí)上,語(yǔ)音壓縮——發(fā)生在我們嚴(yán)重依賴(lài)的應(yīng)用程序中,比如 Zoom 和 Teams——仍然基于八九十年代的技術(shù)。雖然語(yǔ)音到語(yǔ)音技術(shù)具有無(wú)限的潛力,但評(píng)估為生成式 AI 蓬勃發(fā)展造成障礙的挑戰(zhàn)和缺點(diǎn)至關(guān)重要。

人工智能語(yǔ)音技術(shù)的三大挑戰(zhàn)

以下是人工智能從業(yè)者在語(yǔ)音到語(yǔ)音技術(shù)方面面臨的三個(gè)常見(jiàn)減速帶。

1. 音質(zhì)

可以說(shuō),最佳對(duì)話(huà)中最重要的部分是它是可以理解的。在語(yǔ)音到語(yǔ)音技術(shù)的情況下,目標(biāo)是聽(tīng)起來(lái)像人類(lèi)。例如,Siri 和 Alexa 的機(jī)器人語(yǔ)氣就像機(jī)器一樣,并不總是清晰的。人工智能很難實(shí)現(xiàn)這一點(diǎn)有幾個(gè)原因,但人類(lèi)語(yǔ)言的細(xì)微差別起著重要作用。

Mehrabian 規(guī)則可以幫助解釋這一點(diǎn)。人類(lèi)對(duì)話(huà)可以分為三個(gè)部分:55% 的面部表情、38% 的語(yǔ)氣和僅 7% 的單詞。機(jī)器理解依賴(lài)于文字或內(nèi)容來(lái)操作。只有在自然語(yǔ)言處理(NLP)方面的最新進(jìn)展,才有可能根據(jù)情緒、情緒、音色和其他重要但不一定是口語(yǔ)的語(yǔ)言方面來(lái)訓(xùn)練 AI 模型。如果你只處理音頻而不是視覺(jué),如果沒(méi)有超過(guò)一半來(lái)自面部表情的理解,這將變得更具挑戰(zhàn)性。

2. 延遲

人工智能合成分析可能需要時(shí)間——但對(duì)于語(yǔ)音到語(yǔ)音通信,實(shí)時(shí)是唯一重要的時(shí)間。語(yǔ)音轉(zhuǎn)換必須在說(shuō)話(huà)時(shí)立即進(jìn)行。它也必須是準(zhǔn)確的,你可以想象這對(duì)于機(jī)器來(lái)說(shuō)絕非易事。

實(shí)時(shí)的必要性可能因行業(yè)而異。例如,制作播客的內(nèi)容創(chuàng)建者可能更關(guān)心音質(zhì)而不是實(shí)時(shí)語(yǔ)音轉(zhuǎn)換。但對(duì)于客戶(hù)服務(wù)等行業(yè)來(lái)說(shuō),時(shí)間至關(guān)重要。如果呼叫中心座席使用語(yǔ)音輔助 AI來(lái)響應(yīng)呼叫者,他們可能會(huì)犧牲一點(diǎn)質(zhì)量。盡管如此,時(shí)間對(duì)于提供積極的體驗(yàn)至關(guān)重要。

3. 規(guī)模

為了讓語(yǔ)音到語(yǔ)音技術(shù)發(fā)揮其潛力,它必須支持各種口音、語(yǔ)言和方言,并且對(duì)每個(gè)人都可用——而不僅僅是特定的地區(qū)或市場(chǎng)。這需要掌握該技術(shù)的特定應(yīng)用以及大量的調(diào)整和培訓(xùn)才能有效地?cái)U(kuò)展。

新興技術(shù)解決方案并非一刀切。所有用戶(hù)都需要為給定的解決方案提供數(shù)千種架構(gòu)來(lái)支持這種 AI 基礎(chǔ)架構(gòu)。用戶(hù)還應(yīng)該期望始終如一地測(cè)試模型。這并不是什么新鮮事:機(jī)器學(xué)習(xí)的所有經(jīng)典挑戰(zhàn)也適用于生成式 AI 領(lǐng)域。

那么,我們?nèi)绾沃纸鉀Q其中的一些問(wèn)題,從而開(kāi)始實(shí)現(xiàn)語(yǔ)音到語(yǔ)音技術(shù)的價(jià)值呢?幸運(yùn)的是,當(dāng)你逐步分解它時(shí),它就不那么可怕了。首先,你必須掌握問(wèn)題。之前我舉了一個(gè)呼叫中心與內(nèi)容創(chuàng)建者的例子。確保您考慮了用例和期望的結(jié)果,然后從那里開(kāi)始。

其次,確保您的組織擁有正確的架構(gòu)和算法。但即使在此之前,請(qǐng)確保您擁有正確的數(shù)據(jù)。數(shù)據(jù)質(zhì)量很重要,尤其是在考慮像人類(lèi)語(yǔ)言和語(yǔ)音這樣敏感的東西時(shí)。最后,如果您的應(yīng)用程序需要實(shí)時(shí)語(yǔ)音轉(zhuǎn)換,請(qǐng)確保支持該功能。最終,沒(méi)有人愿意與機(jī)器人交談。

雖然圍繞生成式 AI 深度偽造、同意和適當(dāng)披露的倫理問(wèn)題現(xiàn)已浮出水面,但首先了解和解決基本問(wèn)題很重要。語(yǔ)音到語(yǔ)音技術(shù)有可能徹底改變我們相互理解的方式,為將人們團(tuán)結(jié)起來(lái)的創(chuàng)新開(kāi)辟機(jī)會(huì)。但為了實(shí)現(xiàn)這一目標(biāo),我們必須首先面對(duì)主要挑戰(zhàn)。