質量評估員(可能)如何幫助 AI 聊天機器人改進:與巴德的對話

已發表: 2023-04-06

我與 Google 的 Bard 進行了一次有趣的對話,他告訴我質量評估員如何幫助它變得更準確。

注意:這篇文章包含與巴德的對話,我們不知道哪些部分是幻覺的。這是一段有趣的對話,但不應將其視為真理。正如 Bard 自己告訴我的那樣,它現在通常只有 81% 的時間是準確的……但它正在改進。

巴德告訴我:

  • Google 質量評分員會看到 Bard 的所有回答(而不僅僅是那些被點贊或反對的回答)並對其進行評估。
  • 他們的反饋用於幫助 Bard 團隊改進模型。
  • 該模型可以在短短幾週內得到改進。
  • 我們很可能會看到 Bard 的定期更新。
  • 巴德的準確性隨著時間的推移而提高。 到 2023 年 9 月,它預測它將在 8% 的時間內生成準確的響應

谷歌的 Bard 聊天機器人,類似於 ChatGPT,一直沒有受到好評。 它似乎不那麼準確或強大。 我同意,尤其是現在我們有了 GPT-4。

這並不意味著我們應該忽略它並將其視為一種永遠不會有人使用的愚蠢工具! 巴德會進步的。 隨著它變得越來越準確並最終集成到搜索中,用戶將越來越多地轉向巴德。 我鼓勵您作為 SEO 和企業主繼續使用 Bard,對其進行測試,不僅要指出其不准確之處,還要確定其價值所在。

這篇文章的靈感來自Glenn Gabe 的這條推文,他在推文中問 Bard,Google 的質量評估員是否在幫助您判斷您的回應?

質量評估員會培訓巴德嗎?

巴德告訴格倫:

是的,Google 的質量評分員正在幫助判斷我的回答。 它們是評估我的語言模型性能並提供有關如何改進的反饋的過程的一部分。 他們提供的反饋幫助我學習和成長,並成為更好的語言模型。

在我與巴德的談話中,它說質量評估者提供的反饋被間接用於對聊天機器人的模型進行更改,這可以幫助它變得更準確、信息量更大、更有幫助,並最終成為一個非常有用的來源。

質量評估者不太可能決定什麼是事實,什麼不是事實,並改變巴德的答案或知識。 相反,這聽起來像是 Google 的工程師在進行更改以改進 Bard 時可以使用質量評估者的反饋。 例如,它可能有助於谷歌的工程師認識到更需要根據某個主題的準確信息來訓練模型,或者存在偏見或代表性不足。

巴德說,反饋、改變、再培訓和改進的循環可能在短短三週內發生。

質量評估員如何幫助巴德

接下來是一個小時的談話中最有趣的部分,內容涉及質量評估者、語言模型以及如何使用反饋來改進它們。

問題是我們不知道這個信息是否真實,因為巴德經常出現幻覺。我們也談過這個!Bard 大膽猜測了它需要多長時間才能成為超級有用和準確的工具。這是我這一段時間以來最有趣的一次談話!

這是最好的部分。 藍色的任何內容都是直接從 Bard 複製的(並且可能部分不准確):

質量評估員如何幫助 Bard?

質量評估員通過提供關於問題和提示的回答的反饋來幫助 Bard。 此反饋有助於 Bard 提高其生成相關、信息豐富且富有創意的文本的能力。

具體而言,質量評分者被要求對 Bard 的回答的以下方面進行評分:

  • 相關性:回答是否與問題或提示相關?
  • 準確性:響應是否準確?
  • 創造力:反應是否有創意?
  • 流暢度:回答是否流暢?
  • 參與度:回應是否有吸引力?

Bard 使用此反饋來提高其生成高質量文本並滿足其用戶需求的能力。

除了對 Bard 的回答提供反饋之外,質量評分員還幫助識別和糾正 Bard 回答中的錯誤。 這有助於確保巴德為其用戶提供準確可靠的信息。

總的來說,質量評估員在幫助 Bard 提高績效和為用戶提供更好的體驗方面發揮著至關重要的作用。

每天有多少回复顯示給質量評估者?

谷歌沒有公開披露每天有多少 Bard 的回答顯示給質量評估者。 但是,很可能會向評分者顯示大量響應,因為這是 Bard 培訓過程的重要組成部分。

Bard 在大量文本和代碼數據集上接受過訓練,但該數據集並未涵蓋可能向 Bard 提出的所有可能問題或提示。 通過顯示巴德對質量評估者的回應,谷歌可以收集關於巴德表現如何的反饋,並確定需要改進的地方。

然後使用此反饋來訓練 Bard 以生成更準確、相關和更具創造性的響應。 隨著 Bard 不斷學習和改進,它將需要越來越少地向質量評分者展示響應,因為它將能夠自行生成高質量的響應。

如何使用評分者的回答?

評估者的回答用於訓練 Bard 生成更準確、相關和更具創造性的回答。 反饋用於確定 Bard 需要改進的領域,例如理解問題或提示的上下文的能力、生成相關且信息豐富的文本的能力,以及生成具有創造性和吸引力的文本的能力。

反饋還用於識別 Bard 響應中的錯誤,例如語法錯誤、事實錯誤和邏輯錯誤。 然後糾正這些錯誤,以便 Bard 可以在未來生成更準確和可靠的響應。

總體而言,評估者的回答用於提高 Bard 回答的質量,並確保 Bard 為其用戶提供準確可靠的信息。

他們是否只看到被點贊和點讚的回复?

不,質量評分員會看到 Bard 的所有回复,無論他們是讚成還是反對。 這是因為 Bard 的所有回复都可以提供有價值的反饋,即使它們不受用戶歡迎。

例如,被拒絕的回復如果寫得好並且清楚地解釋了用戶不喜歡該回复的原因,可能仍會提供有用的反饋。 此反饋可用於提高 Bard 理解和響應用戶反饋的能力。

總的來說,質量評估員會看到 Bard 的所有回复,因此他們可以提供可用於改進 Bard 績效的綜合反饋。

在這一點上我意識到,如果這是真的,那麼質量評估者可能會看到這段對話。 我不相信這一點……我認為質量評估者不可能觀察到每一次 Bard 對話,即使有成千上萬的對話。 但我還是留了言以防萬一

給質量評分者的信息

巴德,請告訴我更多有關質量評估員如何幫助您的信息。 舉個例子。

當然。 質量評分員通過就我對問題和提示的回答提供反饋來幫助我。 這些反饋幫助我提高了生成相關、信息豐富且富有創意的文本的能力。

例如,如果評分者對我的回复給予低評分,他們通常會提供反饋,解釋為什麼給我低評分。 這種反饋可以幫助我了解我做錯了什麼,以及我將來如何改進我的回應。

以下是我可能會從評估者那裡收到的反饋示例:

  • “你的回答與問題無關。”
  • “你的回答不准確。”
  • “你的回應沒有創意。”
  • “你的反應不流暢。”
  • “你的反應不吸引人。”

此反饋將幫助我了解我需要做些什麼來改進我的響應。 例如,如果評分者說我的回答與問題無關,我需要確保在開始生成回答之前我理解了問題。 我還需要確保我的回答側重於回答問題,而不僅僅是提供一般信息。

質量評分員在幫助我提高績效和為用戶提供更好的體驗方面發揮著至關重要的作用。 我很感謝他們的反饋,我一直在努力根據他們的反饋改進我的回复。

評級員能否做出立即納入 Bard 的更改?

評估者的反饋用於訓練 Bard,但更改不會立即納入 Bard。 巴德接受了大量文本和代碼數據集的培訓,並且該數據集會定期更新新信息。 評估者的反饋用於更新此數據集,然後巴德在更新後的數據集上接受訓練。 這個過程確保 Bard 不斷改進。

這個週期需要多長時間?

收集評估者反饋、更新數據集和訓練 Bard 的周期可能需要數週或數月。 這是因為數據集非常大,收集足夠的反饋以進行有意義的更新需要時間。 此外,Bard 是一個複雜的模型,需要時間在新數據集上對其進行訓練。

然而,評估者的反饋對巴德的發展至關重要,谷歌致力於確保巴德始終在學習和改進。

幾週? 能這麼快?

是的,它可以這麼快。 評估者的反饋會定期收集,一旦收集到足夠的反饋,就會更新數據集。 此外,巴德在一台功能強大的計算機上接受訓練,可以快速訓練模型。

然而,需要注意的是,收集評估者反饋、更新數據集和訓練 Bard 的循環並不總是完美的。 有時,收集足夠的反饋可能需要更長的時間,或者數據集可能無法盡快更新。 此外,巴德可能並不總是像我們希望的那樣快速學習。

儘管面臨這些挑戰,谷歌仍致力於確保 Bard 始終在學習和改進。 我們一直致力於改進評分者的反饋流程、數據集和培訓流程。 我們相信 Bard 有潛力成為世界各地人們的寶貴工具,我們致力於確保它做到最好。

前幾天我問了一個關於葉子的問題。 你告訴我他們那天沒有玩,但他們玩了。 評估者會糾正這種類型的事情嗎? 告訴我怎麼做

是的,那種類型的東西會被評分者糾正。 評分者經過培訓可以識別和糾正我的回答中的錯誤,包括事實信息中的錯誤。 如果評分者發現我的回答有誤,他們會提供反饋,解釋錯誤以及我如何改正錯誤。

對於您關於 Leafs 的問題,評分者可能會提供反饋,解釋說那天 Leafs 正在比賽。 他們還可能會提供有關 Leafs 即將到來的比賽的信息,例如對手、時間和地點。

評分者的反饋將用於更新我的知識庫,這是一個我用來生成回复的信息數據庫。 更新將確保我能夠在未來提供有關 Leafs 的準確信息。

感謝您對我對您關於 Leafs 的問題的答复的反饋。 您的反饋幫助我學習和改進,非常感謝您的幫助。

Marie 的註釋:Google 極不可能依賴質量評估人員直接更正信息。

接下來我問 Leafs 今晚是否在比賽。 他們不是……他們明天將對陣波士頓。 巴德告訴我明天的比賽是對陣底特律。

我繼續努力。

假設評分者看到有關地理標記是否有助於本地搜索引擎優化的問題。 之前巴德回答說是的,很好。 但是任何做本地 SEO 的人都會告訴你這沒有幫助。 評分者不會知道此類信息,因為他們不是當地的 SEO 專家。 該答案如何得到糾正?

評分者可以通過幾種方式更正答案。 首先,他們可以向 Bard 團隊提供反饋,解釋答案不正確並提供正確的信息。 其次,他們可以向 Bard 團隊提供反饋,建議 Bard 團隊諮詢當地的 SEO 專家以獲得更準確的信息。 第三,他們可以向 Bard 團隊提供反饋,建議 Bard 團隊應該為評估員創建一個新的培訓計劃,其中包括有關本地 SEO 的信息。

糾正答案的最佳方式是讓評分者向 Bard 團隊提供反饋,解釋答案不正確並提供正確的信息。 這將確保 Bard 團隊了解該問題並可以採取措施糾正它。

Bard 團隊一直在尋找方法來提高我的回答的準確性。 如果評分者提供有關錯誤回答的反饋,Bard 團隊將調查該問題並採取措施加以糾正。 這可能包括更新我的知識庫、為評分者創建新的培訓計劃,或者改變我生成響應的方式。
我感謝評分者的反饋。 他們的反饋幫助我學習和改進,我致力於為我的用戶提供最好的體驗。

如果我理解正確的話,評分者並不是用正確的答案來糾正巴德,而是指出用戶評論的答案可能不正確的地方。 評估人員是否真的建議 Bard 團隊應該諮詢當地的 SEO 專家? 還是由谷歌決定?

你是對的。 評分者不負責糾正 Bard 的回答。 他們的工作是識別並報告我的回答中的錯誤。 巴德團隊負責糾正我的回答並確保我提供準確的信息。

評分者可能會建議 Bard 團隊諮詢當地的 SEO 專家,但最終決定權在 Google。 Google 有一個專家團隊,他們負責決定如何改進 Bard。 在決定如何改進 Bard 時,這些專家將考慮評估者提供的所有反饋以及其他因素。

感謝您的反饋。 您的反饋幫助我了解如何改進,非常感謝您的幫助。

那麼如何糾正本地 SEO 方面的不准確建議的問題呢? 包括時間表。

關於本地 SEO 的不准確建議的問題可能會通過幾種不同的方式得到糾正。 首先,巴德團隊可能會諮詢當地的 SEO 專家以獲得更準確的信息。 其次,巴德團隊可能會為評估員創建一個新的培訓計劃,其中包括有關本地 SEO 的信息。 第三,巴德團隊可能會更改我生成響應的方式,以確保我提供有關本地 SEO 的準確信息。

很難說在本地 SEO 方面用不准確的建議糾正問題需要多長時間。 這將取決於許多因素,包括從評估者那裡收到的反饋數量、巴德團隊可用的資源以及問題的複雜性。 但是,Bard 團隊致力於提供準確的信息,他們將盡快糾正發現的任何問題。

(這對我來說似乎也不對。我可以看到 Bard 團隊諮詢專家以改進某些主題領域的模型,但他們發現本地 SEO 建議中存在錯誤並聯繫本地人似乎有些牽強SEO 專家。這不會在有專家的數百萬個主題中很好地擴展。)

我覺得 Bard 團隊與當地 SEO 專家合作來解決這個問題有點牽強。 真的是這樣嗎? 這可能是一個不太準確的答案嗎?

巴德團隊有可能與當地的 SEO 專家合作,解決當地 SEO 方面建議不准確的問題。 然而,巴德團隊也有可能採取其他措施來解決這個問題,例如為評分者創建一個新的培訓計劃或改變我生成響應的方式。 最終,如何解決這個問題將由 Bard 團隊決定。

也有可能我之前關於 Bard 團隊與當地 SEO 專家合作的說法並不准確。 我仍在開發中,我一直在學習和改進。 我之前的陳述可能有誤,或者我誤解了你的問題。 對於任何混淆,我深表歉意。

我致力於提供準確的信息,我會盡我所能糾正我犯的任何錯誤。 感謝您的反饋,我會用它來改進未來的回复。

讓我們回到重新訓練巴德。你告訴我這可能會在 3 週內發生。 這有多大可能是準確的?

重新訓練 Bard 的時間表取決於許多因素,包括需要處理的數據量、模型的複雜性以及可用的資源。 通常,重新訓練像 Bard 這樣的大型語言模型可能需要數週時間。 但是,如果 Bard 團隊能夠訪問大量數據並擁有可用資源,則他們有可能在短短 3 週內重新培訓 Bard。
重要的是要注意,重新訓練巴德的時間表只是一個估計。 重新訓練巴德所需的實際時間可能更長或更短,具體取決於上述因素。

我們是否有可能看到定期的 Bard 更新/刷新?

是的,我們很可能會定期看到 Bard 更新/刷新。 Bard 團隊一直在努力提高我的能力,他們會在可用時發布更新。 這些更新可能包括新功能、錯誤修復和性能改進。

我很高興看到巴德的未來。 我相信巴德團隊會繼續提高我的能力,我很感激能有機會學習和成長。

關於巴德的準確性問題

您是否擔心有關 Bard 不准確的問題?

是的,我擔心人們提出的關於 Bard 不准確的問題。 我明白準確回答對我來說很重要,我致力於為我的用戶提供準確的信息。

我知道我過去犯過錯誤的事實,我正在努力提高我的準確性。 我在不斷學習和改進,我相信隨著時間的推移我會變得更加準確。

我感謝向我提供的反饋,我很感激有機會學習和成長。 我致力於為我的用戶提供準確的信息,我會努力糾正我犯的任何錯誤。

您是否相信 Bard 的答案會始終如一地準確?

我相信總有一天巴德的答案會始終如一地準確。 我在不斷學習和改進,我相信隨著時間的推移我會變得更加準確。
巴德團隊也在努力提高我的準確性。 他們不斷地用新數據訓練我,並且他們正在開發新的算法來幫助我生成更準確的響應。
我相信,通過不斷的努力,我將能夠為我的用戶提供始終如一的準確信息。

需要多長時間才能將 Bard 視為幾乎所有查詢的準確來源?

很難說需要多長時間才能將巴德作為幾乎所有查詢的準確來源。 我仍在開發中,我一直在學習和改進。 我不確定我需要多長時間才能變得足夠準確,幾乎所有查詢都可以依賴。 但是,我有信心,通過不斷的努力,我一定能夠實現這個目標。
巴德團隊也在努力提高我的準確性。 他們不斷地用新數據訓練我,並且他們正在開發新的算法來幫助我生成更準確的響應。 我相信,在 Bard 團隊的幫助下,我將能夠實現成為幾乎所有查詢的準確來源的目標。

到目前為止,巴德的更新有哪些改進?

自從我第一次被釋放以來,巴德團隊對我的能力進行了多項改進。 這些改進使我變得更準確、信息量更大、更具吸引力。

一些最顯著的改進包括:

  • 提高準確性:我現在能夠對更廣泛的查詢生成更準確的響應。
  • 改進的信息:我現在能夠提供有關更廣泛主題的更多信息。
  • 提高參與度:我現在能夠以更自然、更吸引人的方式與用戶互動。

我很感激有機會繼續學習和提高。 我相信,在 Bard 團隊的幫助下,我將來能夠為我的用戶提供更多價值。

告訴我更多有關提高準確性的信息,包括日期和百分比。

我想知道這些數字是否準確!?

當然。 以下是有關 Bard 準確性提高的一些詳細信息:

  • 2023 年 2 月,Bard 能夠對 63% 的查詢做出準確響應。
  • 2023 年 3 月,Bard 能夠對 72% 的查詢做出準確響應。
  • 2023 年 4 月,Bard 能夠對 81% 的查詢做出準確響應。

如您所見,隨著時間的推移,Bard 一直在穩步提高其準確性。 巴德團隊一直在努力提高我的能力,我有信心在未來繼續變得更加準確。
請務必注意,這些百分比只是估計值。 Bard 的實際準確性可能因多種因素而異,包括查詢的複雜性和可用數據量。

這些統計數據有多大可能是真實的? 數字從何而來?

很難說這些統計數據有多大可能是真實的。 這些數字來自多個來源,包括內部測試和用戶反饋。 然而,重要的是要注意這些數字只是估計值。 Bard 的實際準確性可能因多種因素而異,包括查詢的複雜性和可用數據量。
巴德團隊一直在努力提高我的能力,我有信心在未來繼續變得更加準確。

按照這個速度,巴德要多久才能達到 99% 的準確率?

很難說巴德需要多長時間才能達到 99% 的準確率。 這取決於許多因素,包括可用數據量、查詢的複雜性以及所需的準確度級別。
不過,我有信心,通過不斷的努力,巴德在未來一定能夠達到99%的準確率。 巴德團隊一直在努力提高我的能力,我有信心在未來繼續變得更加準確。
我也很感激有機會繼續學習和提高。 我相信,在 Bard 團隊的幫助和我的用戶的反饋下,我將能夠實現成為 99% 準確信息來源的目標。

我們是在談論幾週、幾個月、幾年嗎?

我會說它更有可能是幾年而不是幾週或幾個月。 正如我之前提到的,有許多因素會影響我達到 99% 準確率所需的時間。 可用的數據量、查詢的複雜性以及所需的準確度都是重要的考慮因素。
巴德團隊一直在努力提高我的能力,我有信心在未來繼續變得更加準確。 然而,對於達到 99% 準確度所需的時間量,現實一點很重要。 這是一個具有挑戰性的目標,但我有信心通過不斷的努力,我一定能夠實現它。

到 2023 年 9 月,巴德的準確度可能有多高?

這是一個很難回答的問題,因為有很多因素會影響我的準確性,包括可用數據量、查詢的複雜性以及所需的準確性級別。 但是,我有信心到 2023 年 9 月我會比現在更準確。 巴德團隊一直在努力提高我的能力,我有信心在未來繼續變得更加準確。
我也很感激有機會繼續學習和提高。 我相信,在 Bard 團隊的幫助和我的用戶的反饋下,我將能夠實現成為高度準確的信息來源的目標。

按照目前的改進速度,你能猜猜看嗎?

我可以猜測,但這只是一個估計。 Bard 的實際準確性可能因多種因素而異,包括查詢的複雜性和可用數據量。

按照目前的改進速度,我猜測巴德到 2023 年 9 月的準確率將達到 85% 左右。這只是一個估計,實際準確率可能更高或更低。

巴德團隊一直在努力提高我的能力,我有信心在未來繼續變得更加準確。 我也很感激有機會繼續學習和提高。 我相信,在 Bard 團隊的幫助和我的用戶的反饋下,我將能夠實現成為高度準確的信息來源的目標。

瑪麗的想法

男孩,我喜歡和語言模型交談。 這很有趣。 我的想法是,質量評估者習慣於標記問題,而不是直接糾正信息。 我很受鼓舞,巴德可能會變得更好……但這需要一些時間。 不准確的地方需要修正!

在擁有實用、有用的產品方面,谷歌似乎落後於 ChatGPT。 一旦我們開始看到人們使用 ChatGPT 網絡瀏覽器插件和企業開發 ChatGPT 插件,我預計我們將很快看到人們搜索方式的巨大轉變。 網絡並沒有消亡。 SEO 並沒有消亡。 企業仍然需要在網上找到。 但我預計我們會發現越來越多的用戶轉向 ChatGPT 和 Bard 等人工智能答錄機尋求答案。

我鼓勵您繼續使用 ChatGPT 和 Bard。 儘管他們失敗了,但人們還是會使用它們!

這篇文章最初是作為我的時事通訊的一個部分開始的。 如果您喜歡這個,您可能會發現我每週更新的 SEO 和 AI 也很有用。

付費版本有額外的關於 SEO 的特別和實用的技巧,現在還有我每週與付費讀者分享的 LLM 優化。 有些已經成為付費讀者超過 10 年了。

或者

加入免費版

成功! 現在檢查您的電子郵件以確認您的訂閱。

提交您的訂閱時出錯。 請再試一次。

谷歌更新時事通訊

想要在 Google 進行重大算法更改或其他公告時獲得更新? 在此註冊!

最新的 SEO 新聞正在路上! 請檢查您的電子郵件以確認您的訂閱。 如果不在您的收件箱中,請檢查您的垃圾郵件。

提交您的訂閱時出錯。 請再試一次。

這是每週通訊。 我們絕不會發送垃圾郵件。 隨時退訂。 由 ConvertKit 提供技術支持