“開放域”聊天機器人有多開放,我們真的需要它們嗎?
人們對開放域聊天機器人越來越感興趣,這些聊天機器人旨在與人類就任何主題、任務或領域進行交流。這種興趣得到了娛樂行業(yè)中的虛構人物和系統(tǒng)(例如電影“她”)的支持,以及大型科技公司研究實驗室開發(fā)的聊天機器人(例如谷歌的LaMDA和臉書的Blender)受到的媒體關注。
“開放域”一詞表明這些聊天機器人可以就任何話題進行交流,這被認為比早期構建特定任務系統(tǒng)的嘗試更具挑戰(zhàn)性。然而,“開放”的界限和評估這些對話的標準并沒有明確界定。
通常,人類測試人員會收到一個空提示,并要求“與系統(tǒng)聊天”。這是人類交流的一個非常不尋常的環(huán)境,因為我們不會隨意與任何人和任何地方談論任何事情。相反,我們會根據(jù)我們的對話伙伴和環(huán)境(例如,在工作或?qū)W校)在對話主題方面對我們的交流選擇更具選擇性。因此,構建一個真正的“開放域”聊天機器人可能是不現(xiàn)實的,甚至沒有必要,因為人與人之間的對話也不是那么“開放域”和隨機的。
在最近的一篇論文中,我們認為“開放域”一詞可能不是很有用,并且當前開放域聊天機器人的評估方式可能無法真正測試它們是否真的可以參與人類可以參與的所有各種形式的對話加入,參與。
當我們作為人類進行交流時,我們假設某種形式的共同點,也就是說,我們彼此之間有一些共同點。除了文化規(guī)范和(也許)共享經(jīng)驗之外,我們假設的一件事是某種形式的聯(lián)合活動或?qū)υ挼哪康摹<词刮覀冊诘裙财嚂r開始與陌生人交談,我們都知道這是我們所從事的活動類型,這將指導我們在這種情況下可能適合談論什么。當被要求與計算機“只是聊天”時,我們可以假設沒有共同點或共同活動。
對對話中的聯(lián)合活動進行分類的一種方法是Goldsmith&Baxter(1996)引入的“演講事件”的概念,他們在幾周內(nèi)記錄了學生的日常對話并確定了39個演講事件。這些可以大致分為非正式/膚淺的談話(例如,“閑聊”、“開玩笑”、“體育談話”、“八卦”、“結(jié)識某人”)、涉及談話(例如,“化妝”、“愛情談話”、“關系談話”、“抱怨”)和目標導向談話(例如,“小組討論”、“說服談話”、“決策談話”、“審訊”、“請求幫助”).
當被要求“只是聊天”時,開放域聊天機器人的用戶實際上參與了什么樣的語音事件?為了回答這個問題,我們讓兩個注釋者根據(jù)他們的語音事件類別對公開可用的“開放域”谷歌Meena聊天機器人對話的隨機樣本進行注釋。大多數(shù)對話(約88%)被證明是關于“閑聊”的語音類別,盡管人類測試人員被指示談論任何話題而沒有任何限制。
如前所述,雖然實際的閑聊也假定某種形式的共同點,但鑒于有限的指示,這可能是最有可能發(fā)生的演講事件。如果這些是在這些評估中發(fā)生的唯一語音事件,我們怎么知道它們是真正的“開放域”?當前的開放域聊天機器人能否參與其他語音活動?
為了解決這個問題,我們使用臉書的Blender聊天機器人進行了初步實驗。(人類)測試人員根據(jù)上面列出的16個語音事件類別與聊天機器人進行交互。為了設置類似的上下文,同一位測試人員還與另一個人就相同的主題進行了聊天。兩個人(即測試者和對話者)事先并不認識對方,也不知道對方的身份。
對產(chǎn)生的對話進行了比較(人與人與人與系統(tǒng))并由第三方人類評委進行評估。總體而言,評估人員在多項評估標準上對人際對話的評分較高,并解釋說人與人的對話比人與聊天機器人的對話更連貫,流動性更好。這與描述臉書Blender的論文中提出的評估形成鮮明對比,在該論文中,評委們無法根據(jù)他們評估的方式(正如我們已經(jīng)見,引起閑聊對話)。因此,他們的評估真正表明的是,Blender聊天機器人相當擅長閑聊,但并不擅長“開放域”對話。
自從我們在2021年進行研究以來,已經(jīng)出現(xiàn)了新的“開放域”聊天機器人,它們使用了更多參數(shù)并在更多數(shù)據(jù)上進行了訓練,例如谷歌的LaMDA。我們還沒有測試它們在多大程度上可以處理其他形式的語音事件,以及它們是否真的是“開放域”,但正如我們所展示的,目前的評估無法幫助回答這個問題。
一個可能更重要的問題是,“開放域”聊天機器人的想法對我們?nèi)祟悂碚f是否有意義。相反,我們或許應該關注以有意義的方式存在于人類活動中的對話系統(tǒng),并且用戶可以在其中假設某種形式的共同點和聯(lián)合活動。