研究揭示 AI 对话方面的缺陷 不知道何时该插话
图夫茨大学研究人员近期发现大型语言模型在对话中的插话能力存在缺陷。这一发现在自然语言处理经验方法会议(EMNLP 2024)上得到了详细介绍,相关研究成果已同步至arXiv预印本服务器。
对话中的“插话”是一种重要的交流方式,涉及到对话中的轮流发言和倾听。人类通过评估多种输入线索来确定所谓的“话轮转换点”(TRP),但人工智能在理解这一关键交流时机方面却表现不佳。
一直以来,人们普遍认为副语言信息,如语调、单词和短语的延长、停顿以及视觉线索,是识别TRP的关键信号。图夫茨大学的JP de Ruiter教授及其团队发现,当去掉单词后,仅通过韵律来传达言语的旋律和节奏时,人类无法准确感知TRP。这表明对话中轮流发言的关键线索实际上在于语言内容本身,而非传统的副语言信息。
人工智能在处理语言内容方面表现出色,擅长检测内容中的模式,但在模仿人类的交流方式时却遇到了困难。原因在于这些大型语言模型主要基于互联网上的书面内容进行训练,而缺乏真实的口语对话数据。这使得AI在模拟对话时无法捕捉到人类交流的自然和人性化方式。
尽管研究人员尝试通过微调模型并使用一小部分对话内容进行额外训练,以改善AI的自然对话能力,但仍存在一些限制。研究人员警告称,AI可能无法理解对话的深层次语境和意图,因为它们只是基于肤浅的统计相关性来预测下一个单词。
为了克服这些限制,研究人员建议对大型语言模型进行预训练,使其在更大规模的自然口语语料库上进行训练。收集足够数量的口语对话数据仍然是一个巨大的挑战。尽管面临这些挑战,研究人员仍持续努力提升AI的对话能力,以期在未来实现更为自然和人性化的交流方式。