進(jìn)擊的人工智能:從產(chǎn)品角度,深度解析「對話機(jī)器人」
今天,擁有對話能力的機(jī)器人,被逐漸認(rèn)為是一種核心智能,是否能夠流利地完成對話,可被視作這款機(jī)器人是否真正擁有智能的唯一憑證。
從可以追溯的歷史資料來看,對話機(jī)器人(chat-bot)至少在上世紀(jì)六十年代就已經(jīng)問世,經(jīng)過近五六十年的發(fā)展,今天我們已經(jīng)可以在許多產(chǎn)品中看到對話機(jī)器人的影子,微軟的Cortana、小冰,蘋果的Siri、GoogleNow、阿里小蜜、百度度秘、圖靈機(jī)器人、助理來也、出門問問等等。
可以肯定的是:對話機(jī)器人已經(jīng)成為了一種業(yè)界時尚,越來越多的公司試圖通過這種全新的交互形式,來優(yōu)化或者升級自己產(chǎn)品我們已經(jīng)可以在許多的產(chǎn)品中看到各種名為小X機(jī)器人的子產(chǎn)品。
如此多的對話機(jī)器人很容易給人一種百花齊放、方興未艾的感覺。我們可能會隱約覺得:每家的對話機(jī)器人產(chǎn)品都大同小異,有些家的產(chǎn)品會有一些別樣的特征,可是終究給人一種不屬于過去十年移動互聯(lián)網(wǎng)發(fā)展的感覺這些對話機(jī)器人似乎都還處在很早期,用戶量似乎都不大,顯得都有些小眾。
我將試圖站在純產(chǎn)品的視角分析:一款產(chǎn)品對話機(jī)器人背后,需求和產(chǎn)品邏輯是怎樣的(文中我無意去對比各家對話機(jī)器人的優(yōu)劣,也不討論某款對話機(jī)器人的產(chǎn)品觀或方法論)。
一、探索對話行為背后的需求
首先,我們試圖探索對話這一行為的場景與背后的需求。
在《人類簡史》一書中,認(rèn)為語言能力是智人區(qū)別于其他猿類最重要的特質(zhì)和能力;因為語言能力,智人可以互相通過對話而形成更豐富的交互,從而才有了協(xié)作和后來的文明。
人類有三種最直接的方式來使用語言:一對零、一對多、一對一。
一對零是自我內(nèi)化的反思、總結(jié)、沉淀,不向外做交互和分享。
一對多是廣播式的宣講和相對單向的輸出,譬如開大會或者發(fā)號施令。
一對一是對話群聊也是由許多的一對一構(gòu)成的,所以我認(rèn)為不存在真正意義上的多對多對話。我認(rèn)為對話是我們?nèi)伺c外界進(jìn)行交互的最直接即時的途徑(注意即時很重要)。
所謂對話,一定是一個雙方交互行為,并且互為I/O(input/output)的過程。比如兩個人對話,每個人所說的話,對于自己而言是輸出,對于對方而言是輸入。原則上,對話可以永遠(yuǎn)持續(xù)下去。
但我們幾乎從未見過兩個人會永遠(yuǎn)在對話,那是因為:如果需要對話持續(xù)下去,雙方都需要保持參與;任何一方覺得疲勞或者無價值感了,對話就會終止。
對話的場景更加貼近我們的生活行為,它頻次最高,且環(huán)境開放多變,分析它背后的需求并不容易。現(xiàn)在,我們需要回答兩個問題:
1.1第一個問題:對話為什么能夠開始?
我認(rèn)為人在對話中存在三個層面的需求。
第一層,是基礎(chǔ)問答的需求。可以描述為:
我有一個問題,請你回答我。
二次追問的問題,屬于新問題。這個過程,非常類似于我們今天所使用的搜索引擎。
第二層,是任務(wù)流程協(xié)作的需求,以達(dá)成某種目的為止。可以描述為:我想請你幫我買一張明天下午14:00-18:00出發(fā),北京到上海的機(jī)票;經(jīng)濟(jì)艙,盡可能便宜,最好是東航的。我們和朋友相約去逛街,拜托同事幫忙預(yù)定會議室,接受閨蜜的請求明早叫她起床。
這些都是任務(wù)流程協(xié)作的需求。
第三層,是共同的情感建立,無論喜怒哀樂。聊天的目標(biāo)很難定量量化,我們更多是嘗試定性地去制定聊天的目標(biāo)。可能是心情不好需要人陪,也可能是好事情需要向好朋友分享,我們需要對話來表達(dá)進(jìn)行最直接即時的表達(dá)。
我并不認(rèn)為只有孤獨的情感才需要對話人作為擁有萬年發(fā)展歷程的群居動物,與他人進(jìn)行情感分享是早已刻入基因的特質(zhì)。只是我們建立的情感在不同人之間會有所不同,對于信任之人的情感建立會很深刻,而對于點頭之交則會保留許多。
開啟一段對話一定源自上述的某種需求,而開啟的契機(jī)則是一個相對明確的話題,哪怕只是一句我餓了。
1.2第二個問題:對話為什么會持續(xù)?
對話能夠持續(xù),是有兩個層面的原因。
第一個原因,是至少一方的需求沒有得到滿足。比如我去提問題,對方回答我不滿意,我就會持續(xù)追問。兩個女生在一起聊八卦,聽的人很入神,講的人才有成就感能繼續(xù)講下去。
第二個原因,是雙方相對平等。如果我提了個問題,或者請對方幫個忙,但是對方始終是一種高姿態(tài)不搭理我,那我就很容易放棄,不想聊了。反過來,如果對方對我過分尊敬,總在說一些沒有營養(yǎng)的恭維拍馬屁的話,時間久了,我也會變得更虛榮,而且會覺得很無聊。所以,人不會和自己階層或者品味相差太多的人聊天,絕大多數(shù)人更不會和寵物長時間聊天。
對話會終止,最根本的原因是:雙方都放棄了這輪對話。
感性一些來描述對話終止的原因,可以認(rèn)為是雙方都覺得疲憊了,也就是這一輪對話的能耗消耗殆盡;哪怕是情侶之間說甜言蜜語,聊個兩三千句也會覺得累了,也會在十幾個回合的互道晚安中結(jié)束本次對話。
所以,對話總會終止,能耗殆盡就會終止。
二、對話機(jī)器人產(chǎn)品的發(fā)展源自搜索引擎
在我以前的文章《進(jìn)階之路:站在高視角看產(chǎn)品是一種怎樣的體驗》中,講述過一個概念,簡單說:現(xiàn)在我明白一件事情,但是要完整清楚的講授給你,是很難的;因為我們所擁有的知識背景不同,我們對同一件事情的理解不同。這也就解釋了為什么很多老師在上課的時候索然無味,很多人做Presentation的時候顯得蒼白無力。
一個很大的問題,就是每當(dāng)我們接觸到一個陌生事物時,都會和自己的背景知識進(jìn)行類比。譬如對于長發(fā)飄飄的素顏美女,在我所知中,這類美女一般都是家境不錯,待人溫柔,家教優(yōu)良。所以當(dāng)我再次見到一個類似的美女時,我會做相似的第一印象類比。
不只是美女,我們幾乎所有的認(rèn)知都源自于過往的背景知識。
在人類發(fā)展的歷史上,對于即時的問答需求幾乎時時刻刻都存在。最早大家是詢問部落中最年長的智者,后來大家互相都有了知識儲備,就可以通過對話來進(jìn)行基本的問答和辯論這一個過程持續(xù)了千萬年。同一個問題,最早時只能去問一個人,得到一個答案;到后來,可以去問很多人,得到許多答案,然后擇其善者而從之。如果我能把所有人都問一遍,可能會得到一個巨大的答案集合;我需要過濾、排序、取舍,工業(yè)機(jī)器人維修,你發(fā)現(xiàn),這個過程就是搜索引擎。我們使用搜索引擎時,是通過一個輸入框輸入想問的問題或者關(guān)鍵詞,然后搜索引擎會丟給我一個經(jīng)過相關(guān)性排序和優(yōu)化的答案集合。
但我認(rèn)為兩個原因,會導(dǎo)致搜索引擎會逐漸向?qū)υ挋C(jī)器人演變。
2.1其一:精準(zhǔn)答案的需求愈發(fā)旺盛




