深圳logo設(shè)計公司需要做出的第一個明確區(qū)分是我們是在談?wù)摽谡Z(語音)還是書面語言,,即類似 Alexa 的系統(tǒng)上的語音機器人,還是 FB Messenger,、網(wǎng)絡(luò)聊天或短信上的聊天機器人(文本機器人),。一個比另一個花費更多的時間和精力來構(gòu)建。(請注意,,雖然英文單詞“to chat”并不意味著對話是以書面形式還是口頭形式進行的,但該術(shù)語通常用于基于文本的系統(tǒng),,因此我將在這里繼續(xù)使用這個含義,。)
口語通過聲音信號變得生動起來。要理解用戶在說什么,,深圳logo設(shè)計公司首先必須將他們的演講轉(zhuǎn)錄成文本,。此過程通常稱為語音識別,縮寫為 ASR(“自動語音識別”),。此步驟的輸出是 text,。但這就是事情很容易變得模糊的地方。將語音轉(zhuǎn)換為文本的過程實際上只是一個轉(zhuǎn)錄步驟——計算機知道(“識別”)你所說的單詞,,但它還不知道如何處理這些單詞,。
短暫的繞道,。回到大學時代,,我學習了兩個學期的韓語,。韓語的書寫系統(tǒng)乍一看很復(fù)雜,幾乎像中文,,但實際上非常簡單,,因為它像我們的拉丁語系統(tǒng)一樣由字母組成——準確地說是 24 個。在學習韓語的過程中,,我學習了各種詞匯,。到現(xiàn)在,15 年過去了,,我已經(jīng)忘記了大部分,,但我仍然記得如何讀寫韓語。我們錯過了讓計算機與我們進行有意義的對話的一大步:理解用戶所說的行為,。一旦我們進入文本域,,我們就需要計算機來理解. 該階段被稱為自然語言理解。此步驟的輸出是所謂的語義表示或語義解釋,。雖然消除對語音識別的需求確實讓聊天機器人的工作變得更容易,,但構(gòu)建功能性機器人的主要挑戰(zhàn)在于自然語言理解。理解句子到語義表示沒有 1:1 的映射是很重要的,。這與語境,、語言知識、世界知識和對話歷史有關(guān),。人類語言是高度模棱兩可的,。
在構(gòu)建語音機器人時,您現(xiàn)在可以將語音識別技術(shù)視為商品,。不管什么花里胡哨,,工作很明確:接收語音信號并告訴我說出的話。有很多供應(yīng)商在做這項工作,,而且做得很好,。深圳logo設(shè)計公司和所有其他產(chǎn)品現(xiàn)在成為大眾市場現(xiàn)象的原因是因為語音識別的準確性已達到可接受的水平??紤]為了構(gòu)建機器人而解決這個問題,。(這可能是我在這篇文章中做出的最具挑釁性的聲明,因為我知道很多人會在這里反對,。)
如前所述,,機器人成功的關(guān)鍵不是語音識別,而是正確理解和解釋用戶話語。這就是深圳logo設(shè)計公司仍處于起步階段的地方,。在我看來,,這里最重要的見解是,構(gòu)建一個有用的機器人更多是好的設(shè)計而非好的技術(shù)的結(jié)果,。如果您真正站在用戶的角度,,仔細考慮對話流程并預(yù)測機器人給出的每一個響應(yīng),用戶接下來會說什么或輸入什么(基于有限的語義可能性集,,而不是選擇)的詞?。檫@些中的每一個提供響應(yīng)或觸發(fā)的動作,,那么您很可能會成功,。沒有什么比機器人回應(yīng)“對不起,不確定你剛才說的話”更令人沮喪的了,。
深圳logo設(shè)計公司為自然語言理解任務(wù)選擇的技術(shù)框架應(yīng)該支持您對用戶話語進行正確的語義解釋——但作為機器人的設(shè)計者,,做正確的事情的工作仍然是您的工作。計算機可能會模擬對句子的“理解”,,但它是根據(jù)你給它的規(guī)則來進行的,,無論是通過使用機器學習的大量訓(xùn)練工作,還是大量的規(guī)則編碼工作,。這兩種方法都有助于最終產(chǎn)生令人滿意的結(jié)果,。