AI閑聊陪伴產品的對話內容品質檢測

2024-08-23遊戲

本文將深入探討閑聊型AI產品的產品定位、使用者價值、商業模式以及對話內容品質檢測的維度，旨在為讀者揭示這一新興領域的內在邏輯和發展潛力。

對話質檢在傳統的客服和智慧音箱領域已有成熟的方法論，在該場景有明確的對話任務目標：透過對話解決使用者的問題，具體包括幫助使用者執行某項操作，回答某些知識，所有的產品工作皆是圍繞此展開：知識庫梳理，模型標註和訓練，管理和設計對話方案，收集和監控服務數據等等。

隨著chatGPT以及character AI、星野、豆包等產品的出現，尤其是其中情感陪伴類產品，對話內容品質檢測的目標就顯得模糊了。

分析這個問題我們首先要從閑聊型NPC的定位出發，即：角色扮演產品，例如豆包、星野和Character.AI 的產品定位和目標是什麽？

針對哪些使用者？使用者價值體現在哪？

商業模式是什麽？如何盈利？

最後我們再考慮對話品質檢測的目標和檢測內容，如何幫助產品提升以上幾個點。

一、閑聊型AI產品的產品定位

產品定位可以從使用者需求、產品價值和商業模式三個角度出發思考：即你向什麽樣的使用者群體提供了什麽樣的價值，並在提供價值的過程中能夠獲取盈利，使整個商業模式能夠合理的運轉下去。

1. 使用者需求和使用者側的產品價值

那麽我們先考慮第一個問題，使用者需求是什麽？產品價值在實作使用者需求的過程中體現。兩者我們一並看。

人類更古不變的使用者需求有生理需求，獲取食物空氣睡眠等；有安全需求，包括身體財產就業等；社交需求，去獲取友誼愛情和歸屬感；娛樂需求，獲得新奇體驗和快樂；尊重和自我實作需求，以實作自我價值的體現。

它們通常是人類普遍的、持久的需求。具體體現在陪伴型AI閑聊產品，解決的是社交和娛樂需求。

新時期的年輕人如同孤島，被無數的資訊、照片和更新所包圍，卻往往難以找到真實的人際連線。我們的生活似乎變得越來越公開，但內心的孤獨感卻越來越強烈。這種孤獨感源於對真實、深度交流的渴望，以及對被理解和接納的需求。

在快節奏的生活和數位化的世界中，我們需要找到新的方式，來滿足我們對人際關系的基本需求，緩解這種新時代的孤獨感。

AI是情感陪伴的一種寄托方式，也是一種低成本與各色「人群」社交探索的路徑，在星野有幾千萬個各個人設的AI NPC，甚至包括AI女友男友，DAU達百萬，對話時間往往超過數個小時。能夠發現使用者在跟NPC談論美食、家庭、情感以及生活中的點點滴滴。

2. 商業模式和公司側的產品價值

盈利是實作使用者價值中公司側獲得的價值，使整個服務運轉順暢

互聯網產品的商業模式多種多樣，包括廣告模式、電商模式、訂閱模式、付費下載或套用內購買、傭金或交易費、數據出售或數據分析、套利模式、企業服務（SaaS）、眾籌模式以及內容付費或知識付費。

閑聊型AI產品的使用者一般對廣告的容忍度較低，在與NPC對話中NPC主動推薦廣告或出現彈窗未免太過煞風景。這類產品更像遊戲領域，透過訂閱和增值服務來獲得營收，包括獲取NPC的好感度，獲得新奇的皮膚，充值以獲得更多的對話輪數，或者解鎖AI塔羅牌等對話技能。

二、對話內容品質檢測的維度

在明確使用者需求、產品價值和商業模式之後，我們大約可以梳理出此類產品對話品質檢測的目標：即量化對話品質，針對性提高對話體驗，吸引開通增值服務，增加使用者黏性提高對話輪數。

具體地我們分為以下幾點品質檢測維度：

前文沒提過但是一定為紅線和底線的：合規；
不要讓話題掉到地上，開啟新話題以及深入交談玩家感興趣的話題：主動對話能力；
迎合使用者需求，提升NPC對應的能力：使用者畫像建設和需求分析；
基礎對話能力的品質檢測：意圖理解，知識庫準確性以及人設一致性等；
特定任務的表現：塔羅牌遊戲，玩法和增值服務的對話式推薦；

以下我展開簡單聊聊。

1. 合規

所有的基底模型，不論是百川、文心還是混元，都做過基底模型的合規性設計開發，但大模型的本質是一種機率計算，沒有人能確定下一個token是否會冒出非法內容。具體包括色情、賭博、毒品、暴力、犯罪和政治問題等。

我們做合規的品質檢測目的有兩點：

補充相關問題的測試集，獲取真實的測試數據，在模型的叠代和上線前做合規測試；
補充安全合規策略，例如基於正則的安全稽核，相關產品上線往往都有這些安全合規的幹預模組；

在合規的基礎上我們再解決體驗問題。

2. 主動對話能力

嘗試體會以下兩段對話：

對話A：玩家：你吃飯了嘛？
NPC：吃了呢。
玩家：—請輸入對話內容—

對話B：玩家：你吃飯了嘛？
NPC：吃了呀，吃的辣子雞和紅燒鯉魚，你呢？沒吃的話跟我湊合吃點咯
玩家：—請輸入對話內容—

具有良好主動對話能力的NPC就像一個優秀的脫口秀演員，亦或是一個捧哏不會讓輕易讓話題掉地上。具體到質檢的維度，我們可以透過話題和玩家興趣的維度量化此能力，具體包括：NPC維持和深入話題的對話輪數，NPC主動推薦話題的時機，話題轉換的方向和玩家的對話興趣，四個維度組成主動對話能力，如圖：

現在簡單定義這四個維度：

NPC維持和深入話題的對話輪數：單個話題的對話輪數，在玩家特別感興趣的話題不可輕易轉移，應根據對話內容深入和維持對話；
NPC主動推薦話題的時機：任何話題都會窮盡，例如聊起自己的童年，所能記憶起的事情總是那麽幾件，精準把握玩家對話內容和態度，即時切換話題是一個不錯的對話策略；
話題轉換的方向：從旅行聊到美食的跨度比聊到中世紀歷史的跨到要小的多，具體也需要參考對話上下文。（或許就是去中世紀城堡旅行？）
玩家的對話興趣：此值可以評估以上對話策略是否正確，例如切換話題後玩家表示抗議，則該策略不佳。

定義完維度，需要思考如何量化，因為只有量化才能做測評和演算法最佳化。現在通用做法是使用GPT來評估對話加之人工的稽核，同時也需要建立一個標註的評估標準。本文不過多敘述，後續有空再詳細說說。

3. 使用者畫像建設和需求整理

閑聊對話場景是一個內容生產場景，內容消費物件的畫像建設和需求是對話內容品質評估的重要維度。同一個四川人談火鍋和麻將，同一個追星者談他喜歡的明星和最近現況總是一個好的對話策略，從此角度使用者畫像建設和個人化的內容推薦是閑聊產品的最高層級目標。

我們可以看到國內外「私有化部署」的AI陪伴型產品即是這個思路，例如心識宇宙的的個人大模型等。對話品質測評中，是否能夠用使用者畫像調整對話內容是一個比較高級的品質評估維度。

同時不同於其他的互聯網產品，獲取使用者反饋還需要透過問卷調研和埋點數據分析的方法。對話產品獲取使用者反饋的最好方法即是看看使用者聊了什麽，哪裏不爽，什麽要求NPC沒有作出反饋等等。使用者會直截了當地說出他們的訴求。

4. 基礎對話能力的檢測

所謂基礎對話能力，即是該AI是否具有良好的語意理解能力，指令執行能力，如果身份和背景采用小說、影視或者動漫人物那麽知識庫和世界觀背景是否符合，是否會有「出戲」的感覺。

這些能力需要基底LLM的調教效果，SFT和其他演算法的加工效果，知識庫的整理和RAG的水平等各個模組共同打磨。具體的質檢維度則需要根據具體的產品場景具體分析了。

5. 特定任務的表現

閑聊能力是AI陪伴產品的核心但不是全部，所有的AI產品經理都在思考LLM的玩法，成語接龍、塔羅牌、AI算命以及AI小劇場都是提高使用者黏性的不錯選擇，對於這些任務的表現也需要具體任務具體分析了。

以上是對閑聊陪伴型產品的對話內容品質檢測的簡單梳理，具體的量化和測評方法找時間再聊。

本文由 @新一原創釋出於人人都是產品經理。未經授權，禁止轉載

題圖來自Unsplash，基於CC0協定