进击的人工智能 从产品角度深度解析对话机器人
今天,拥有对话能力的机器人逐渐成为智能的核心象征,其是否能够流畅地进行对话被视为衡量其智能水平的唯一标准。
从已有的历史资料来看,对话机器人(chat-bot)的雏形至少可以追溯到上世纪六十年代。经过近几十年的发展,如今我们在许多产品中都能见到对话机器人的影子,如微软的Cortana、小冰,苹果的Siri、Google Now,以及阿里小蜜、百度度秘、图灵机器人等等。
不可否认的是,对话机器人已经成为了一种行业时尚。越来越多的公司正试图通过这种全新的交互方式来优化或升级自己的产品,各种名为“小X机器人”的子产品如雨后春笋般涌现。
尽管市场上存在众多对话机器人产品,容易给人一种百花齐放、方兴未艾的感觉,但我们也不得不承认,许多对话机器人产品似乎还处于早期阶段,用户量相对较小,显得有些小众。
接下来,我将从产品的角度来分析对话机器人背后的需求和产品逻辑。
一、探索“对话”行为背后的需求
我们来探索“对话”这一行为的场景及其背后的需求。
在《人类简史》一书中,语言能力被认为是智人区别于其他猿类的重要特质和能力。因为语言能力,智人可以互相通过对话形成更丰富的交互,从而有协作和后来的文明。
人类有三种最直接的方式来使用语言:“一对零”、“一对多”和“一对一”。其中,“一对一”的对话是我们人与外界进行交互的最直接即时途径。
所谓对话,是一个双方交互行为,互为输入和输出的过程。现在,我们需要回答两个问题:对话为什么能够开始?以及对话为什么会持续?
对于第一个问题,我认为人在对话中存在三个层面的需求。
第一层是基础问答的需求,比如我有一个问题,需要对方回答。
第二层是任务流程协作的需求,比如我们需要帮助对方完成某项任务,或者共同完成某个目标。在这个过程中,我们会涉及到具体的细节和步骤的讨论和协商。第三层是共同的情感建立。无论是喜怒哀乐,我们都需要通过对话来表达和分享我们的情感状态。开启一段对话往往源自上述的某种需求。而对于开启对话的契机,则可能是一个相对明确的话题或者是某个具体的情境。至于如何表达这一契机启动的对话动机需求的问题并不涉及具体的产品或方法比较而更多的是对人性和人际互动的深层次理解所以在阐述中不涉及产品优劣的比较和对某一产品观或方法的讨论)更加重要的是在于了解用户的真实需求和期望从而设计出更符合用户需求的对话机器人产品以提供真正有价值的服务和用户建立良好的互动关系增强用户的参与感和忠诚度最终推动产品的成功和市场的发展二、对话为什么会持续?对话能够持续是基于两个层面的原因:一方面是至少一方的需求没有得到满足因此会促使对话继续下去;另一方面是双方相对平等的交流氛围能够维持对话的持续性如果一方总是以高姿态出现或者过分恭维拍马屁会让对话变得无聊乏味从而导致对话无法持续下去相反只有真正尊重对方平等交流才能保持对话的活跃度和深度从而建立起真正意义上的交流和沟通因此一款成功的对话机器人产品应该能够准确把握用户的需求和期望并与之建立起平等尊重的交流关系才能真正实现有效的交互和提升用户体验总的来说在分析对话机器人背后的需求和产品逻辑时我们需要深入理解用户的真实需求和期望并设计出真正符合用户需求的产品从而为用户提供更好的服务和体验推动产品的成功和市场的发展对话的终止,从感性角度来看,可以视为双方都觉得“疲惫”,对话的能耗已经消耗殆尽。就像情侣间的甜言蜜语,或者普通的日常闲聊,总会有一个自然的结束点。
再深入探讨一下对话终止的根本原因,我们可以从“对话机器人”产品的发展说起。这一产品的诞生源自搜索引擎的不断进化。我们接触一个新事物时,往往会与已有的背景知识进行类比,这是人类认知的固有方式。在问答需求方面,人类历史上始终存在即时问答的需求。从最早的向智者询问,到后来的群体间的对话辩论,都是为了解决问题。当我们使用搜索引擎时,通过输入框输入问题,搜索引擎会提供一个答案集合。但随着信息爆炸和用户需求的变化,人们对于搜索的精准度和效率要求越来越高。
这导致了搜索引擎逐渐向着对话机器人的方向演变。用户对精准答案的需求愈发旺盛,他们不再满足于简单的信息展示,而是需要得到直接的答案。从能耗体验的角度来看,搜索的输入过程相对繁琐,即使是同一话题的持续输入,相比对话聊天的体验也更容易产生疲劳感。回归对话的方式成为了一种体验优化的手段。
关于对话机器人的产品场景,我们可以将其分为封闭域对话和开放域对话。封闭域对话要求用户按照指定的语句输入才能继续对话,而开放域对话则更加自由,用户可以随时表达自己的意思。封闭域对话的关键特征在于其输入和输出的可归类性、可枚举性以及明确的对话始末和流程。这种类型的产品在问答和任务流程协作方面表现出色。
随着技术的不断进步和用户需求的变化,对话机器人产品将逐渐优化和完善,为用户提供更加高效、便捷的交流体验。无论是封闭域对话还是开放域对话,都将在这个过程中不断进化,满足用户的多样化需求。封闭域对话的设计理念,源于“IFTTT”(if this then that)的工作流逻辑,可以说是自动化交互行为的自然延伸。这一交互形式在当下的智能产品设计中显得尤为突出。
让我为你分享两个典型的封闭域对话案例。
首先是微软必应在十年前推出的“读心机器人”。这款机器人能在二十个问答中猜测用户心中的想法。用户只需通过简单的“是”或“不是”的回答,机器人就能持续进行对话,直至猜中或放弃。这是一个典型的封闭域对话实例,用户的回答被严格限制在特定的选择范围内,背后涉及大量的逻辑判断,流程相对固定,有明确的开始和结束。
另一个例子是Amazon的Echo音箱。Echo音箱之所以受到广大用户的喜爱,关键在于其内置的对话机器人Alexa在音箱的场景设计中运用了封闭域对话。音箱作为我们生活中除了遥控器之外最常见的高频交互式设备,Echo音箱的设计让用户可以轻松地输入指令,并快速得到反馈。在特定的居家场景中,用户的指令局限在“打开”、“关闭”等有限的操作上,这使得Echo音箱的对话成为了一种可枚举、有始有终的交互形式。
从这两个实例中,我们可以总结出封闭域对话在产品设计中的几个显著特点。
封闭域对话实际上是工作流程的一种自然延伸。在这个封闭的环境中,话题、输入和输出都是有限的集合,“封闭”意味着一种控制和预见性。正如workflow可以通过ifttt进行设计,封闭域对话也因其有限集合的特性,使得设计条理清晰、逻辑合理。
封闭域对话的场景是单一且可控的。它们通常具有特定的目的,在单一确定的场景内进行。例如百度度秘,它通过预设的各种封闭域场景,为用户提供服务。在这些场景中,用户的输入和系统的反馈都被严格控制在预设的范围内。
处理封闭域的边界情况至关重要。用户可能会跳出预设的输入规则,这就需要设计者考虑各种边界情况并进行额外处理。例如微软小冰的“小冰识狗”功能,用户可能发送非狗的照片,这就需要系统能够处理这种边界情况。
与封闭域对话相对应的是开放域对话。开放域对话的灵活性更高,用户可以选择任何话题进行交谈,这使得话题无法被穷举,并在多个场景间自由切换。这种交互形式更接近人类的自然交流方式。开放域对话的设计难度更大,需要对话机器人具备更高级的智能处理能力,以应对用户各种可能的输入和场景切换。
封闭域对话和开放域对话各有其特点和优势。封闭域对话在特定场景下能够提供更加精准、高效的服务,而开放域对话则更接近人类的自然交流方式,具有更高的灵活性和适应性。随着技术的不断发展,我们可以期待在未来看到更多优秀的产品设计中融合这两种交互形式,为用户提供更加优质的服务和体验。在人人网上崭露头角的“小黄鸡”对话机器人,可以说是国内早期开放域对话机器人的佼佼者,之后微软小冰的出现更是推动了这一领域的发展。这些对话机器人能够在无法预知的用户输入中,提供灵活多变的回复,展现了开放域对话的魅力。
对于开放域对话产品设计的基本原理,关键在于对话的平等性。微软小冰通过不断制造话题,延续聊天能量,解决了开放域聊天中的核心问题。这些机器人的制造基础主要来源于网络上的公开对话,如百度知道、知乎等,通过模仿人类对话的方式,使得人们在与机器人交流时,容易产生“对方也是人”的感觉。
开放域对话机器人也存在一些产品陷阱。首先是面向用户的机器学习误区,由于用户输入无法预期,采集的语料五花八门,清洗和使用都非常困难。其次是无人为引导的个性问题,机器人的回复语气难以控制,如果不加以干预,可能会导致用户无法明确描述机器人的性格,影响用户亲密感和信任感的建立。
那么,为什么需要开放域对话?对话机器人的用户价值是什么?仅仅是为了逗趣吗?实际上,开放域对话不仅增加了产品的趣味性,更重要的是,它使得机器人更像人,用户更愿意像与人一样交流。这带来了挑战,但也意味着机会。如同我们依赖高德地图、热爱腾讯视频一样,我们需要对话机器人有基础个性,能够拉近人与机器人之间的亲密感和信任感。解决需求可以通过封闭域对话完成,而开放域对话则不断制造惊喜,增强用户的粘性。问答、助理、聊天,这些功能都是刚需,但如何平衡需求和惊喜,是每一个对话机器人产品需要面对的问题。在解决用户需求的不断制造惊喜,才能赢得用户的信任和情感依赖。在对话机器人领域中,我们可以观察到一种普遍的产品划分趋势,即主要面向消费者(to C)和企业用户(to B再to C)。由于对话机器人的交互特性主要是面向终端用户,因此纯面向企业用户的产品场景相对较少。这些对话机器人主要解决的是终端个人用户的需求。
那么,这些面向终端用户的对话机器人,到底解决了哪些核心需求呢?
在我们所知的对话机器人产品中,有主打客服功能的问答机器人,有模拟秘书角色的助理机器人,还有以趣味为导向的聊天机器人。但背后是否真的都是刚需?这是一个值得深入探讨的问题。
事实上,聊天是一个容易被激发却迅速消退的场景,唯有情感依赖才可能形成长久的关系。以微软小冰为例,其最知名的功能之一是chit-chat(聊天)。但从用户活跃度和留存周期来看,用户的兴趣激发往往集中在特定时刻,如首次领养、每周更新或重大更新时。这引发了关于情感计算的深入思考:人与机器之间的对话聊天是基于趣味话题的,要想通过自然的情感依赖成为像《HER》中的Samantha那样,还有很长的路要走。情感计算不仅是计算机科学问题,更是一个产品设计问题。细微的产品设计,如给用户起外号、升级解锁等,都是断点式情感触达的方式,以期能够黏住用户。
我们需要思考一个问题:用户真的需要一个秘书机器人吗?助理型对话机器人的发展依赖于其他线上线下服务的完善,如Siri的助理功能发挥效用是建立在闹钟、提醒、打电话、搜索引擎等功能完善的基础上。尽管两年前,Magic等助理型机器人备受瞩目,但至今实际效果并不显著。我们不禁要问:普通人真的需要一个像秘书一样的对话机器人吗?
让我们通过两个例子来探讨这个问题。第一个是设定闹钟的例子。使用Siri来设定闹钟的操作明显比通过iPhone的闹钟程序更加简便快捷。但第二个例子是叫外卖的场景,通过Siri或秘书型机器人与通过专门的APP操作相比,步骤并没有显著减少。
让我们探讨两大核心话题——当助理机器人可以一步完成工作时,其带来的效率提升和体验升级将成为新的需求亮点;要实现这样的工作流程,机器人需要处理的数据信息极其庞大,这也是核心产品的技术难点。
想象一下这样的场景,无需考虑语音识别的准确率,只需一个指令,机器人就能为我们完成各种任务。无论是叫车、订外卖、交水电费还是预订机票,一切都能轻松搞定。这种体验简直让人惊叹不已。
让我们再看看另一个角度。以叫外卖的例子来说,如果仅需要一个指令就能完成,那么机器人需要处理的信息包括餐厅选择、餐食种类、价格、送餐时间、地点和支付信息等。其中,有些信息是动态的,需要机器人对用户的喜好和习惯有深入的了解,否则一旦推荐出现偏差,用户体验就会大打折扣。此时的助理机器人已经不仅仅是一个执行工具,而更像是一个强大的推荐引擎,蕴含着巨大的发展潜力。
接下来,我们深入探讨一下问答机器人的价值。以阿里小蜜为例,它能在常见的问题中提供快速答复,实现了效率的提升。为什么这些企业如此重视问答机器人呢?因为它们能够节约人工客服成本,提高沟通效率,更好地服务客户,从而增加利润。问答机器人在头部问题上实现了综合过滤,通过对话的形式反馈给用户,对于长尾问题也能有效处理。其核心目标是在满足用户九成以上问题的直接答复的提供其他如导购、订单管理等附加价值体验的优化。
至于对话机器人的分类,是否适合分为“聊天、助理、问答”这三类呢?这种分类更像是一种抽象场景下的视角。对话机器人作为一个综合体,不应被简单地划分为这三个类别。在移动互联网时代,每个App都有自己的专属定位和任务路径,而对话机器人则是一个打破这些壁垒的存在。我们生活在一个充满交互的江湖中,每天都需要与人打交道,无论是衣食住行。其实最大的流量并非完成具体任务,而是人与人之间的交互。对话机器人应该被看作是一个整合各种服务的平台,而不仅仅是单一的聊天或问答工具。在当今数字化时代,腾讯、百度等巨头通过流量漏斗策略实现了多元变现,而阿里则专注于通过吸引用户购买实现盈利。这种现象突显了不同产品策略的差异。尤其是社交产品,因其贴近“江湖社会”,活跃度极高,成为几乎所有互联网产品中最为活跃的源流量产品。
说到社交产品,不得不提即时社交与延时社交的区分,它们分别对应着聊天与朋友圈等基于语言对话的功能。社交产品的场景丰富多样,几乎可以涵盖任何活动。以微信“发现”页面为例,其功能的丰富性就体现出了社交产品的多元化特点。
当我们从用户视角看待对话机器人时,会发现用户并不关心其背后的技术分类,他们只关心对话的便捷性和体验。对话机器人具有社交产品的通性,其交互场景天然就是社交产品的交互场景。当用户在面对对话机器人时,他们可能会输入任何想要表达的自然语言,无论是闲聊、任务还是提问。这带来了开放域对话的挑战,要求产品设计者尽可能让用户输入可控,同时又要应对开放域下的智能挑战。
像朋友一样的伙伴是对话机器人的终局吗?这很难一概而论。对比与朋友在微信上的自然交流和对机器人的交互体验,我们可以看到,虽然机器人可以提供丰富的选择和建议,但朋友的陪伴和共鸣是无法替代的。对话机器人的存在意义在于协助人们解决问题,同时它也需要具备足够的智能和情商,以提供像朋友一样的陪伴。
关于对话机器人的产品价值,我们可以从商业视角出发进行探讨。对话机器人可以实现跨场景连接,成为连接不同服务场景的桥梁。交互方式的升级带来了流量的深度沉淀,尤其是语音交互带来的革命性变化。赋予所有智能硬件语音对话的能力,可以获取新的流量并实现深度交互和沉淀。在互联网的商业逻辑中,流量的获取和价值的提升是核心,对话机器人在这方面具有巨大的潜力。
对话机器人作为新一代智能产品,既需要实现用户交互体验的优化,又要深入挖掘其商业价值。未来,随着技术的不断进步和应用的深入,我们有理由期待对话机器人在更多领域发挥其巨大的潜力。随着交互方式的革新,对话机器人已成为一种现象级的存在,它的出现让流量获取和使用方式发生了翻天覆地的变化。相较于传统的互联网产品,对话机器人所引发的PV/UV增长呈现指数级趋势,轻松实现两位数乃至更高的对话频次。在家中向Echo音箱发出指令,这样的交互场景在过去难以实现,如今却通过对话机器人轻松实现。
这种高频次的交互带来了全新的挑战与机遇。对于设备端的计算能力提出了更高的要求,可能需要在客户端预加载强大的计算能力,无论是硬件还是软件。若网络能力无法同步增长,对端的计算能力需求则会更加凸显。这也解释了为何许多AI企业纷纷投入芯片研发的原因之一。
流量的深度沉淀是对话机器人的另一大特色,这使得每个用户的多维数据沉淀成为可能。当每个用户的平均数据量和维度增长十倍,商业价值也随之显现。对于搜索引擎等公司而言,这意味着广告费用的增长,可以为用户提供更加精准的服务和推荐。我在之前的文章《人工智能「风口」,先行者为什么是搜索引擎?》中已对此进行了深入分析。
对话机器人作为一种新兴产品,其发展前景广阔。虽然产品路径曲折漫长,但始终离不开用户需求的核心。它承载着全新的交互形式,为我们带来了全新的产品服务体验。我们都在期待着机器人时代的到来,或许它就在路上,未来已来。对话机器人所带来的变革令人兴奋,值得我们继续深入探讨和研究。