为了绕过这些限制
Posted: Thu Dec 26, 2024 4:51 am
我们最终编写了一个内部防御性解析器。 通过对各种调用参数()的分析,我们确定了常犯的错误,并编写了代码来在解析之前检测和适当修补这些错误。
我们还修改了提示词,以便在这些常见错误周围注入提示词,以提高我们修补的准确性。最终,我们将这些错误的发生率降低到了约.%。
(注:这其实是用规则补足模型的不足,降低成本) 还在死磕的事是:构建一个统一的技能注册机制,以便在我们的生成式产品中动态发现和调用封装为友好技能的智能体。
(注:可以想象是个技能商店,智能音箱那种能够动态 约旦 telegram 手机号码列表 添加天气、音乐技能的机制) . 保持统一的质量 团队在首月内实现了我们目标体验的%,随后又额外花费了四个月时间,致力于将我们的全面体验完成度提升至%以上——我们勤勉地工作,对各个方面进行精细化调整、优化和改进。
然而,我们低估了检测和减轻幻觉现象的挑战,以及质量评分提升的难度(注:原文是速度应该是笔误)——起初迅速攀升,随后便迅速达到瓶颈期。
对于那些容忍一定错误率的产品而言,采用生成式进行构建无疑是一种令人耳目一新的直接方法。但这也带来了不切实际的期望,初期的快速进展营造了一种“即将达成”的错觉,而随着后续每%提升的改进速度显著放缓,这种快速改进的错觉变得令人沮丧。
构建该助手感觉像是偏离了“原则性”的机器学习,而更像是在专家系统中调整规则。因此,尽管我们的评估变得越来越复杂,但我们的“训练”却主要是提示词工程,这更像是一门艺术而非科学。
还在死磕的事:对大语言模型()进行微调,以使我们的流程更加数据驱动。(注:其实是肯定会出问题,所以修的要快) . 容量与延迟 容量和成员感知到的延迟始终是我们最关心的问题。
我们还修改了提示词,以便在这些常见错误周围注入提示词,以提高我们修补的准确性。最终,我们将这些错误的发生率降低到了约.%。
(注:这其实是用规则补足模型的不足,降低成本) 还在死磕的事是:构建一个统一的技能注册机制,以便在我们的生成式产品中动态发现和调用封装为友好技能的智能体。
(注:可以想象是个技能商店,智能音箱那种能够动态 约旦 telegram 手机号码列表 添加天气、音乐技能的机制) . 保持统一的质量 团队在首月内实现了我们目标体验的%,随后又额外花费了四个月时间,致力于将我们的全面体验完成度提升至%以上——我们勤勉地工作,对各个方面进行精细化调整、优化和改进。
然而,我们低估了检测和减轻幻觉现象的挑战,以及质量评分提升的难度(注:原文是速度应该是笔误)——起初迅速攀升,随后便迅速达到瓶颈期。
对于那些容忍一定错误率的产品而言,采用生成式进行构建无疑是一种令人耳目一新的直接方法。但这也带来了不切实际的期望,初期的快速进展营造了一种“即将达成”的错觉,而随着后续每%提升的改进速度显著放缓,这种快速改进的错觉变得令人沮丧。
构建该助手感觉像是偏离了“原则性”的机器学习,而更像是在专家系统中调整规则。因此,尽管我们的评估变得越来越复杂,但我们的“训练”却主要是提示词工程,这更像是一门艺术而非科学。
还在死磕的事:对大语言模型()进行微调,以使我们的流程更加数据驱动。(注:其实是肯定会出问题,所以修的要快) . 容量与延迟 容量和成员感知到的延迟始终是我们最关心的问题。