AI闲聊陪伴产品的对话内容质量检测

2024-08-23游戏

本文将深入探讨闲聊型AI产品的产品定位、用户价值、商业模式以及对话内容质量检测的维度，旨在为读者揭示这一新兴领域的内在逻辑和发展潜力。

对话质检在传统的客服和智能音箱领域已有成熟的方法论，在该场景有明确的对话任务目标：通过对话解决用户的问题，具体包括帮助用户执行某项操作，回答某些知识，所有的产品工作皆是围绕此展开：知识库梳理，模型标注和训练，管理和设计对话方案，收集和监控服务数据等等。

随着chatGPT以及character AI、星野、豆包等产品的出现，尤其是其中情感陪伴类产品，对话内容质量检测的目标就显得模糊了。

分析这个问题我们首先要从闲聊型NPC的定位出发，即：角色扮演产品，例如豆包、星野和Character.AI 的产品定位和目标是什么？

针对哪些用户？用户价值体现在哪？

商业模式是什么？如何盈利？

最后我们再考虑对话质量检测的目标和检测内容，如何帮助产品提升以上几个点。

一、闲聊型AI产品的产品定位

产品定位可以从用户需求、产品价值和商业模式三个角度出发思考：即你向什么样的用户群体提供了什么样的价值，并在提供价值的过程中能够获取盈利，使整个商业模式能够合理的运转下去。

1. 用户需求和用户侧的产品价值

那么我们先考虑第一个问题，用户需求是什么？产品价值在实现用户需求的过程中体现。两者我们一并看。

人类更古不变的用户需求有生理需求，获取食物空气睡眠等；有安全需求，包括身体财产就业等；社交需求，去获取友谊爱情和归属感；娱乐需求，获得新奇体验和快乐；尊重和自我实现需求，以实现自我价值的体现。

它们通常是人类普遍的、持久的需求。具体体现在陪伴型AI闲聊产品，解决的是社交和娱乐需求。

新时期的年轻人如同孤岛，被无数的信息、照片和更新所包围，却往往难以找到真实的人际连接。我们的生活似乎变得越来越公开，但内心的孤独感却越来越强烈。这种孤独感源于对真实、深度交流的渴望，以及对被理解和接纳的需求。

在快节奏的生活和数字化的世界中，我们需要找到新的方式，来满足我们对人际关系的基本需求，缓解这种新时代的孤独感。

AI是情感陪伴的一种寄托方式，也是一种低成本与各色「人群」社交探索的路径，在星野有几千万个各个人设的AI NPC，甚至包括AI女友男友，DAU达百万，对话时间往往超过数个小时。能够发现用户在跟NPC谈论美食、家庭、情感以及生活中的点点滴滴。

2. 商业模式和公司侧的产品价值

盈利是实现用户价值中公司侧获得的价值，使整个服务运转顺畅

互联网产品的商业模式多种多样，包括广告模式、电商模式、订阅模式、付费下载或应用内购买、佣金或交易费、数据出售或数据分析、套利模式、企业服务（SaaS）、众筹模式以及内容付费或知识付费。

闲聊型AI产品的用户一般对广告的容忍度较低，在与NPC对话中NPC主动推荐广告或出现弹窗未免太过煞风景。这类产品更像游戏领域，通过订阅和增值服务来获得营收，包括获取NPC的好感度，获得新奇的皮肤，充值以获得更多的对话轮数，或者解锁AI塔罗牌等对话技能。

二、对话内容质量检测的维度

在明确用户需求、产品价值和商业模式之后，我们大约可以梳理出此类产品对话质量检测的目标：即量化对话质量，针对性提高对话体验，吸引开通增值服务，增加用户粘性提高对话轮数。

具体地我们分为以下几点质量检测维度：

前文没提过但是一定为红线和底线的：合规；
不要让话题掉到地上，开启新话题以及深入交谈玩家感兴趣的话题：主动对话能力；
迎合用户需求，提升NPC对应的能力：用户画像建设和需求分析；
基础对话能力的质量检测：意图理解，知识库准确性以及人设一致性等；
特定任务的表现：塔罗牌游戏，玩法和增值服务的对话式推荐；

以下我展开简单聊聊。

1. 合规

所有的基底模型，不论是百川、文心还是混元，都做过基底模型的合规性设计开发，但大模型的本质是一种概率计算，没有人能确定下一个token是否会冒出非法内容。具体包括色情、赌博、毒品、暴力、犯罪和政治问题等。

我们做合规的质量检测目的有两点：

补充相关问题的测试集，获取真实的测试数据，在模型的迭代和上线前做合规测试；
补充安全合规策略，例如基于正则的安全审核，相关产品上线往往都有这些安全合规的干预模块；

在合规的基础上我们再解决体验问题。

2. 主动对话能力

尝试体会以下两段对话：

对话A：玩家：你吃饭了嘛？
NPC：吃了呢。
玩家：—请输入对话内容—

对话B：玩家：你吃饭了嘛？
NPC：吃了呀，吃的辣子鸡和红烧鲤鱼，你呢？没吃的话跟我凑合吃点咯
玩家：—请输入对话内容—

具有良好主动对话能力的NPC就像一个优秀的脱口秀演员，亦或是一个捧哏不会让轻易让话题掉地上。具体到质检的维度，我们可以通过话题和玩家兴趣的维度量化此能力，具体包括：NPC维持和深入话题的对话轮数，NPC主动推荐话题的时机，话题转换的方向和玩家的对话兴趣，四个维度组成主动对话能力，如图：

现在简单定义这四个维度：

NPC维持和深入话题的对话轮数：单个话题的对话轮数，在玩家特别感兴趣的话题不可轻易转移，应根据对话内容深入和维持对话；
NPC主动推荐话题的时机：任何话题都会穷尽，例如聊起自己的童年，所能记忆起的事情总是那么几件，精准把握玩家对话内容和态度，实时切换话题是一个不错的对话策略；
话题转换的方向：从旅行聊到美食的跨度比聊到中世纪历史的跨到要小的多，具体也需要参考对话上下文。（或许就是去中世纪城堡旅行？）
玩家的对话兴趣：此值可以评估以上对话策略是否正确，例如切换话题后玩家表示抗议，则该策略不佳。

定义完维度，需要思考如何量化，因为只有量化才能做测评和算法优化。现在通用做法是使用GPT来评估对话加之人工的审核，同时也需要建立一个标注的评估标准。本文不过多叙述，后续有空再详细说说。

3. 用户画像建设和需求整理

闲聊对话场景是一个内容生产场景，内容消费对象的画像建设和需求是对话内容质量评估的重要维度。同一个四川人谈火锅和麻将，同一个追星者谈他喜欢的明星和最近现况总是一个好的对话策略，从此角度用户画像建设和个性化的内容推荐是闲聊产品的最高层级目标。

我们可以看到国内外「私有化部署」的AI陪伴型产品即是这个思路，例如心识宇宙的的个人大模型等。对话质量测评中，是否能够用用户画像调整对话内容是一个比较高级的质量评估维度。

同时不同于其他的互联网产品，获取用户反馈还需要通过问卷调研和埋点数据分析的方法。对话产品获取用户反馈的最好方法即是看看用户聊了什么，哪里不爽，什么要求NPC没有作出反馈等等。用户会直截了当地说出他们的诉求。

4. 基础对话能力的检测

所谓基础对话能力，即是该AI是否具有良好的语义理解能力，指令执行能力，如果身份和背景采用小说、影视或者动漫人物那么知识库和世界观背景是否符合，是否会有「出戏」的感觉。

这些能力需要基底LLM的调教效果，SFT和其他算法的加工效果，知识库的整理和RAG的水平等各个模块共同打磨。具体的质检维度则需要根据具体的产品场景具体分析了。

5. 特定任务的表现

闲聊能力是AI陪伴产品的核心但不是全部，所有的AI产品经理都在思考LLM的玩法，成语接龙、塔罗牌、AI算命以及AI小剧场都是提高用户黏性的不错选择，对于这些任务的表现也需要具体任务具体分析了。

以上是对闲聊陪伴型产品的对话内容质量检测的简单梳理，具体的量化和测评方法找时间再聊。

本文由 @新一原创发布于人人都是产品经理。未经许可，禁止转载

题图来自Unsplash，基于CC0协议