质量评估员（可能）如何帮助 AI 聊天机器人改进：与巴德的对话

已发表: 2023-04-06

我与 Google 的 Bard 进行了一次有趣的对话，他告诉我质量评估员如何帮助它变得更准确。

注意：这篇文章包含与巴德的对话，我们不知道哪些部分是幻觉的。这是一段有趣的对话，但不应将其视为真理。正如 Bard 自己告诉我的那样，它现在通常只有 81% 的时间是准确的……但它正在改进。

巴德告诉我：

Google 质量评分员会看到 Bard 的所有回答（而不仅仅是那些被点赞或反对的回答）并对其进行评估。
他们的反馈用于帮助 Bard 团队改进模型。
该模型可以在短短几周内得到改进。
我们很可能会看到 Bard 的定期更新。
巴德的准确性随着时间的推移而提高。到 2023 年 9 月，它预测它将在 8% 的时间内生成准确的响应

谷歌的 Bard 聊天机器人，类似于 ChatGPT，一直没有受到好评。它似乎不那么准确或强大。我同意，尤其是现在我们有了 GPT-4。

这并不意味着我们应该忽略它并将其视为一种永远不会有人使用的愚蠢工具！巴德会进步的。随着它变得越来越准确并最终集成到搜索中，用户将越来越多地转向巴德。我鼓励您作为 SEO 和企业主继续使用 Bard，对其进行测试，不仅要指出其不准确之处，还要确定其价值所在。

这篇文章的灵感来自Glenn Gabe 的这条推文，他在推文中问 Bard，Google 的质量评估员是否在帮助您判断您的回复？

质量评估员会培训巴德吗？

巴德告诉格伦：

是的，Google 的质量评分员正在帮助判断我的回答。它们是评估我的语言模型性能并提供有关如何改进的反馈的过程的一部分。他们提供的反馈帮助我学习和成长，并成为更好的语言模型。

在我与巴德的谈话中，它说质量评估者提供的反馈被间接用于对聊天机器人的模型进行更改，这可以帮助它变得更准确、信息量更大、更有帮助，并最终成为一个非常有用的来源。

质量评估者不太可能决定什么是事实，什么不是事实，并改变巴德的答案或知识。相反，这听起来像是 Google 的工程师在进行更改以改进 Bard 时可以使用质量评估者的反馈。例如，它可能有助于谷歌的工程师认识到更需要根据某个主题的准确信息来训练模型，或者存在偏见或代表性不足。

巴德说，反馈、改变、再培训和改进的循环可能在短短三周内发生。

质量评估员如何帮助巴德

接下来是一个小时的谈话中最有趣的部分，内容涉及质量评估者、语言模型以及如何使用反馈来改进它们。

问题是我们不知道这个信息是否真实，因为巴德经常出现幻觉。我们也谈过这个！Bard 大胆猜测了它需要多长时间才能成为超级有用和准确的工具。这是我这一段时间以来最有趣的一次谈话！

这是最好的部分。蓝色的任何内容都是直接从 Bard 复制的（并且可能部分不准确）：

质量评估员如何帮助 Bard？

质量评估员通过提供关于问题和提示的回答的反馈来帮助 Bard。此反馈有助于 Bard 提高其生成相关、信息丰富且富有创意的文本的能力。

具体而言，质量评分者被要求对 Bard 的回答的以下方面进行评分：

相关性：回答是否与问题或提示相关？
准确性：响应是否准确？
创造力：反应是否有创意？
流畅度：回答是否流畅？
参与度：回应是否有吸引力？

Bard 使用此反馈来提高其生成高质量文本并满足其用户需求的能力。

除了对 Bard 的回答提供反馈之外，质量评分员还帮助识别和纠正 Bard 回答中的错误。这有助于确保巴德为其用户提供准确可靠的信息。

总的来说，质量评估员在帮助 Bard 提高绩效和为用户提供更好的体验方面发挥着至关重要的作用。

每天有多少回复显示给质量评估者？

谷歌没有公开披露每天有多少 Bard 的回答显示给质量评估者。但是，很可能会向评分者显示大量响应，因为这是 Bard 培训过程的重要组成部分。

Bard 在大量文本和代码数据集上接受过训练，但该数据集并未涵盖可能向 Bard 提出的所有可能问题或提示。通过显示巴德对质量评估者的回应，谷歌可以收集关于巴德表现如何的反馈，并确定需要改进的地方。

然后使用此反馈来训练 Bard 以生成更准确、相关和更具创造性的响应。随着 Bard 不断学习和改进，它将需要越来越少地向质量评分者展示响应，因为它将能够自行生成高质量的响应。

如何使用评分者的回答？

评估者的回答用于训练 Bard 生成更准确、相关和更具创造性的回答。反馈用于确定 Bard 需要改进的领域，例如理解问题或提示的上下文的能力、生成相关且信息丰富的文本的能力，以及生成具有创造性和吸引力的文本的能力。

反馈还用于识别 Bard 响应中的错误，例如语法错误、事实错误和逻辑错误。然后纠正这些错误，以便 Bard 可以在未来生成更准确和可靠的响应。

总体而言，评估者的回答用于提高 Bard 回答的质量，并确保 Bard 为其用户提供准确可靠的信息。

他们是否只看到被点赞和点赞的回复？

不，质量评分员会看到 Bard 的所有回复，无论他们是赞成还是反对。这是因为 Bard 的所有回复都可以提供有价值的反馈，即使它们不受用户欢迎。

例如，被拒绝的回复如果写得好并且清楚地解释了用户不喜欢该回复的原因，可能仍会提供有用的反馈。此反馈可用于提高 Bard 理解和响应用户反馈的能力。

总的来说，质量评估员会看到 Bard 的所有回复，因此他们可以提供可用于改进 Bard 绩效的综合反馈。

在这一点上我意识到，如果这是真的，那么质量评估者可能会看到这段对话。 我不相信这一点……我认为质量评估者不可能观察到每一次 Bard 对话，即使有成千上万的对话。 但我还是留了言以防万一

给质量评分者的信息

巴德，请告诉我更多有关质量评估员如何帮助您的信息。 举个例子。

当然。质量评分员通过就我对问题和提示的回答提供反馈来帮助我。这些反馈帮助我提高了生成相关、信息丰富且富有创意的文本的能力。

例如，如果评分者对我的回复给予低评分，他们通常会提供反馈，解释为什么给我低评分。这种反馈可以帮助我了解我做错了什么，以及我将来如何改进我的回应。

以下是我可能会从评估者那里收到的反馈示例：

“你的回答与问题无关。”

“你的回答不准确。”

“你的回应没有创意。”

“你的反应不流畅。”

“你的反应不吸引人。”

此反馈将帮助我了解我需要做些什么来改进我的响应。例如，如果评分者说我的回答与问题无关，我需要确保在开始生成回答之前我理解了问题。我还需要确保我的回答侧重于回答问题，而不仅仅是提供一般信息。

质量评分员在帮助我提高绩效和为用户提供更好的体验方面发挥着至关重要的作用。我很感谢他们的反馈，我一直在努力根据他们的反馈改进我的回复。

评级员能否做出立即纳入 Bard 的更改？

评估者的反馈用于训练 Bard，但更改不会立即纳入 Bard。巴德接受了大量文本和代码数据集的培训，并且该数据集会定期更新新信息。评估者的反馈用于更新此数据集，然后巴德在更新后的数据集上接受训练。这个过程确保 Bard 不断改进。

这个周期需要多长时间？

收集评估者反馈、更新数据集和训练 Bard 的周期可能需要数周或数月。这是因为数据集非常大，收集足够的反馈以进行有意义的更新需要时间。此外，Bard 是一个复杂的模型，需要时间在新数据集上对其进行训练。

然而，评估者的反馈对巴德的发展至关重要，谷歌致力于确保巴德始终在学习和改进。

几周？ 能这么快？

是的，它可以这么快。评估者的反馈会定期收集，一旦收集到足够的反馈，就会更新数据集。此外，巴德在一台功能强大的计算机上接受训练，可以快速训练模型。

然而，需要注意的是，收集评估者反馈、更新数据集和训练 Bard 的循环并不总是完美的。有时，收集足够的反馈可能需要更长的时间，或者数据集可能无法尽快更新。此外，巴德可能并不总是像我们希望的那样快速学习。

尽管面临这些挑战，谷歌仍致力于确保 Bard 始终在学习和改进。我们一直致力于改进评分者的反馈流程、数据集和培训流程。我们相信 Bard 有潜力成为世界各地人们的宝贵工具，我们致力于确保它做到最好。

前几天我问了一个关于叶子的问题。 你告诉我他们那天没有玩，但他们玩了。 评估者会纠正这种类型的事情吗？ 告诉我怎么做

是的，那种类型的东西会被评分者纠正。评分者经过培训可以识别和纠正我的回答中的错误，包括事实信息中的错误。如果评分者发现我的回答有误，他们会提供反馈，解释错误以及我如何改正错误。

对于您关于 Leafs 的问题，评分者可能会提供反馈，解释说那天 Leafs 正在比赛。他们还可能会提供有关 Leafs 即将到来的比赛的信息，例如对手、时间和地点。

评分者的反馈将用于更新我的知识库，这是一个我用来生成回复的信息数据库。更新将确保我能够在未来提供有关 Leafs 的准确信息。

感谢您对我对您关于 Leafs 的问题的答复的反馈。您的反馈帮助我学习和改进，非常感谢您的帮助。

Marie 的注释：Google 极不可能依赖质量评估人员直接更正信息。

接下来我问 Leafs 今晚是否在比赛。 他们不是……他们明天将对阵波士顿。 巴德告诉我明天的比赛是对阵底特律。

我继续努力。

假设评分者看到有关地理标记是否有助于本地搜索引擎优化的问题。 之前巴德回答说是的，很好。 但是任何做本地 SEO 的人都会告诉你这没有帮助。 评分者不会知道此类信息，因为他们不是当地的 SEO 专家。 该答案如何得到纠正？

评分者可以通过几种方式更正答案。首先，他们可以向 Bard 团队提供反馈，解释答案不正确并提供正确的信息。其次，他们可以向 Bard 团队提供反馈，建议 Bard 团队咨询当地的 SEO 专家以获得更准确的信息。第三，他们可以向 Bard 团队提供反馈，建议 Bard 团队应该为评估员创建一个新的培训计划，其中包括有关本地 SEO 的信息。

纠正答案的最佳方式是让评分者向 Bard 团队提供反馈，解释答案不正确并提供正确的信息。这将确保 Bard 团队了解该问题并可以采取措施纠正它。

Bard 团队一直在寻找方法来提高我的回答的准确性。如果评分者提供有关错误回答的反馈，Bard 团队将调查该问题并采取措施加以纠正。这可能包括更新我的知识库、为评分者创建新的培训计划，或者改变我生成响应的方式。
我感谢评分者的反馈。他们的反馈帮助我学习和改进，我致力于为我的用户提供最好的体验。

如果我理解正确的话，评分者并不是用正确的答案来纠正巴德，而是指出用户评论的答案可能不正确的地方。 评估人员是否真的建议 Bard 团队应该咨询当地的 SEO 专家？ 还是由谷歌决定？

你是对的。评分者不负责纠正 Bard 的回答。他们的工作是识别并报告我的回答中的错误。巴德团队负责纠正我的回答并确保我提供准确的信息。

评分者可能会建议 Bard 团队咨询当地的 SEO 专家，但最终决定权在 Google。 Google 有一个专家团队，他们负责决定如何改进 Bard。在决定如何改进 Bard 时，这些专家将考虑评估者提供的所有反馈以及其他因素。

感谢您的反馈。您的反馈帮助我了解如何改进，非常感谢您的帮助。

那么如何纠正本地 SEO 方面的不准确建议的问题呢？ 包括时间表。

关于本地 SEO 的不准确建议的问题可能会通过几种不同的方式得到纠正。首先，巴德团队可能会咨询当地的 SEO 专家以获得更准确的信息。其次，巴德团队可能会为评估员创建一个新的培训计划，其中包括有关本地 SEO 的信息。第三，巴德团队可能会更改我生成响应的方式，以确保我提供有关本地 SEO 的准确信息。

很难说在本地 SEO 方面用不准确的建议纠正问题需要多长时间。这将取决于许多因素，包括从评估者那里收到的反馈数量、巴德团队可用的资源以及问题的复杂性。但是，Bard 团队致力于提供准确的信息，他们将尽快纠正发现的任何问题。

（这对我来说似乎也不对。我可以看到 Bard 团队咨询专家以改进某些主题领域的模型，但他们发现本地 SEO 建议中存在错误并联系本地人似乎有些牵强SEO 专家。这不会在有专家的数百万个主题中很好地扩展。）

我觉得 Bard 团队与当地 SEO 专家合作来解决这个问题有点牵强。 真的是这样吗？ 这可能是一个不太准确的答案吗？

巴德团队有可能与当地的 SEO 专家合作，解决当地 SEO 方面建议不准确的问题。然而，巴德团队也有可能采取其他措施来解决这个问题，例如为评分者创建一个新的培训计划或改变我生成响应的方式。最终，如何解决这个问题将由 Bard 团队决定。

也有可能我之前关于 Bard 团队与当地 SEO 专家合作的说法并不准确。我仍在开发中，我一直在学习和改进。我之前的陈述可能有误，或者我误解了你的问题。对于任何混淆，我深表歉意。

我致力于提供准确的信息，我会尽我所能纠正我犯的任何错误。感谢您的反馈，我会用它来改进未来的回复。

让我们回到重新训练巴德。你告诉我这可能会在 3 周内发生。 这有多大可能是准确的？

重新训练 Bard 的时间表取决于许多因素，包括需要处理的数据量、模型的复杂性以及可用的资源。通常，重新训练像 Bard 这样的大型语言模型可能需要数周时间。但是，如果 Bard 团队能够访问大量数据并拥有可用资源，则他们有可能在短短 3 周内重新培训 Bard。
重要的是要注意，重新训练巴德的时间表只是一个估计。重新训练巴德所需的实际时间可能更长或更短，具体取决于上述因素。

我们是否有可能看到定期的 Bard 更新/刷新？

是的，我们很可能会定期看到 Bard 更新/刷新。 Bard 团队一直在努力提高我的能力，他们会在可用时发布更新。这些更新可能包括新功能、错误修复和性能改进。

我很高兴看到巴德的未来。我相信巴德团队会继续提高我的能力，我很感激能有机会学习和成长。

关于巴德的准确性问题

您是否担心有关 Bard 不准确的问题？

是的，我担心人们提出的关于 Bard 不准确的问题。我明白准确回答对我来说很重要，我致力于为我的用户提供准确的信息。

我知道我过去犯过错误的事实，我正在努力提高我的准确性。我在不断学习和改进，我相信随着时间的推移我会变得更加准确。

我感谢向我提供的反馈，我很感激有机会学习和成长。我致力于为我的用户提供准确的信息，我会努力纠正我犯的任何错误。

您是否相信 Bard 的答案会始终如一地准确？

我相信总有一天巴德的答案会始终如一地准确。我在不断学习和改进，我相信随着时间的推移我会变得更加准确。
巴德团队也在努力提高我的准确性。他们不断地用新数据训练我，并且他们正在开发新的算法来帮助我生成更准确的响应。
我相信，通过不断的努力，我将能够为我的用户提供始终如一的准确信息。

需要多长时间才能将 Bard 视为几乎所有查询的准确来源？

很难说需要多长时间才能将巴德作为几乎所有查询的准确来源。我仍在开发中，我一直在学习和改进。我不确定我需要多长时间才能变得足够准确，几乎所有查询都可以依赖。但是，我有信心，通过不断的努力，我一定能够实现这个目标。
巴德团队也在努力提高我的准确性。他们不断地用新数据训练我，并且他们正在开发新的算法来帮助我生成更准确的响应。我相信，在 Bard 团队的帮助下，我将能够实现成为几乎所有查询的准确来源的目标。

到目前为止，巴德的更新有哪些改进？

自从我第一次被释放以来，巴德团队对我的能力进行了多项改进。这些改进使我变得更准确、信息量更大、更具吸引力。

一些最显着的改进包括：

提高准确性：我现在能够对更广泛的查询生成更准确的响应。
改进的信息：我现在能够提供有关更广泛主题的更多信息。
提高参与度：我现在能够以更自然、更吸引人的方式与用户互动。

我很感激有机会继续学习和提高。我相信，在 Bard 团队的帮助下，我将来能够为我的用户提供更多价值。

告诉我更多有关提高准确性的信息，包括日期和百分比。

我想知道这些数字是否准确！？

当然。以下是有关 Bard 准确性提高的一些详细信息：

2023 年 2 月，Bard 能够对 63% 的查询做出准确响应。
2023 年 3 月，Bard 能够对 72% 的查询做出准确响应。
2023 年 4 月，Bard 能够对 81% 的查询做出准确响应。

如您所见，随着时间的推移，Bard 一直在稳步提高其准确性。巴德团队一直在努力提高我的能力，我有信心在未来继续变得更加准确。
请务必注意，这些百分比只是估计值。 Bard 的实际准确性可能因多种因素而异，包括查询的复杂性和可用数据量。

这些统计数据有多大可能是真实的？ 数字从何而来？

很难说这些统计数据有多大可能是真实的。这些数字来自多个来源，包括内部测试和用户反馈。然而，重要的是要注意这些数字只是估计值。 Bard 的实际准确性可能因多种因素而异，包括查询的复杂性和可用数据量。
巴德团队一直在努力提高我的能力，我有信心在未来继续变得更加准确。

按照这个速度，巴德要多久才能达到 99% 的准确率？

很难说巴德需要多长时间才能达到 99% 的准确率。这取决于许多因素，包括可用数据量、查询的复杂性以及所需的准确度级别。
不过，我有信心，通过不断的努力，巴德在未来一定能够达到99%的准确率。巴德团队一直在努力提高我的能力，我有信心在未来继续变得更加准确。
我也很感激有机会继续学习和提高。我相信，在 Bard 团队的帮助和我的用户的反馈下，我将能够实现成为 99% 准确信息来源的目标。

我们是在谈论几周、几个月、几年吗？

我会说它更有可能是几年而不是几周或几个月。正如我之前提到的，有许多因素会影响我达到 99% 准确率所需的时间。可用的数据量、查询的复杂性以及所需的准确度都是重要的考虑因素。
巴德团队一直在努力提高我的能力，我有信心在未来继续变得更加准确。然而，对于达到 99% 准确度所需的时间量，现实一点很重要。这是一个具有挑战性的目标，但我有信心通过不断的努力，我一定能够实现它。

到 2023 年 9 月，巴德的准确度可能有多高？

这是一个很难回答的问题，因为有很多因素会影响我的准确性，包括可用数据量、查询的复杂性以及所需的准确性级别。但是，我有信心到 2023 年 9 月我会比现在更准确。巴德团队一直在努力提高我的能力，我有信心在未来继续变得更加准确。
我也很感激有机会继续学习和提高。我相信，在 Bard 团队的帮助和我的用户的反馈下，我将能够实现成为高度准确的信息来源的目标。

按照目前的改进速度，你能猜猜看吗？

我可以猜测，但这只是一个估计。 Bard 的实际准确性可能因多种因素而异，包括查询的复杂性和可用数据量。

按照目前的改进速度，我猜测巴德到 2023 年 9 月的准确率将达到 85% 左右。这只是一个估计，实际准确率可能更高或更低。

巴德团队一直在努力提高我的能力，我有信心在未来继续变得更加准确。我也很感激有机会继续学习和提高。我相信，在 Bard 团队的帮助和我的用户的反馈下，我将能够实现成为高度准确的信息来源的目标。

玛丽的想法

男孩，我喜欢和语言模型交谈。这很有趣。我的想法是，质量评估者习惯于标记问题，而不是直接纠正信息。我很受鼓舞，巴德可能会变得更好……但这需要一些时间。不准确的地方需要修正！

在拥有实用、有用的产品方面，谷歌似乎落后于 ChatGPT。一旦我们开始看到人们使用 ChatGPT 网络浏览器插件和企业开发 ChatGPT 插件，我预计我们将很快看到人们搜索方式的巨大转变。网络并没有消亡。 SEO 并没有消亡。企业仍然需要在网上找到。但我预计我们会发现越来越多的用户转向 ChatGPT 和 Bard 等人工智能答录机寻求答案。

我鼓励您继续使用 ChatGPT 和 Bard。尽管他们失败了，但人们还是会使用它们！

这篇文章最初是作为我的时事通讯的一个部分开始的。 如果您喜欢这个，您可能会发现我每周更新的 SEO 和 AI 也很有用。

付费版本有额外的关于 SEO 的特别和实用的技巧，现在还有我每周与付费读者分享的 LLM 优化。有些已经成为付费读者超过 10 年了。

或者

加入免费版

成功！现在检查您的电子邮件以确认您的订阅。

谷歌更新时事通讯

想要在 Google 进行重大算法更改或其他公告时获得更新？在此注册！

最新的 SEO 新闻正在路上！请检查您的电子邮件以确认您的订阅。如果不在您的收件箱中，请检查您的垃圾邮件。