AI における安全性と倫理 - Meltwater のアプローチ
公開: 2023-08-16AI は世界を変革しており、自動化されたコンテンツ作成やデータ分析、パーソナライズされた AI アシスタントなどの驚くべき新機能を私たちに提供しています。 この技術は前例のない機会をもたらしますが、信頼性が高く公平な使用を保証するために対処しなければならない重大な安全上の懸念も引き起こします。
Meltwater では、これらの AI の安全性の課題を理解し、取り組むことが、この革新的なテクノロジーの責任ある進歩にとって重要であると信じています。
AI の安全性に対する主な懸念は、これらのシステムをどのように信頼性があり、倫理的で、すべての人にとって有益なものにするかにかかっています。 これは、AI システムが意図しない損害を引き起こしたり、人間の価値観と一致しない決定を下したり、悪意を持って使用されたり、制御不能になるほど強力になったりする可能性から生じています。
目次
堅牢性
位置合わせ
偏見と公平性
解釈可能性
ドリフト
AI の安全性を実現するための今後の道のり
堅牢性
AI の堅牢性とは、変化する条件や予期せぬ条件下でも一貫して優れたパフォーマンスを発揮する能力を指します。
AI モデルが堅牢でない場合、トレーニングに使用されたサンプル以外の新しいデータやシナリオにさらされると、簡単に失敗したり、不正確な結果が得られたりする可能性があります。 したがって、AI の安全性の中核となる側面は、さまざまな条件下で高性能レベルを維持できる堅牢なモデルを作成することです。
Meltwater では、トレーニングと推論の両方の段階で AI の堅牢性に取り組んでいます。 不確実な状況や敵対的な状況における AI システムの回復力を向上させるために、敵対的トレーニング、不確実性の定量化、連合学習などの複数の手法が採用されています。
位置合わせ
この文脈での「調整」とは、AI システムの目標と決定が人間の価値観と同期していることを保証するプロセスを指し、これは価値調整として知られる概念です。
AI が調整されていないと、システムの学習パラメーターに従って最適であるにもかかわらず、人間にとって望ましくない、または有害であると判断する決定を下す可能性があります。 安全な AI を実現するために、研究者は、人間が学習し進化する場合でも、意思決定プロセス全体を通じて人間の価値観を理解し、尊重するシステムの開発に取り組んでいます。
価値観に合わせた AI システムを構築するには、人間からの継続的な対話とフィードバックが必要です。 Meltwater は、Human In The Loop (HITL) 技術を広範囲に活用し、モデルのパフォーマンスのオンライン監視など、AI 開発ワークフローのさまざまな段階で人間のフィードバックを組み込んでいます。
人間の価値観や好みを学び、尊重するために、逆強化学習、協調逆強化学習、支援ゲームなどの手法が採用されています。 また、集合体理論と社会的選択理論を活用して、さまざまな人間の間で対立する価値観を処理します。
偏見と公平性
AI に関する重大な問題の 1 つは、既存のバイアスを増幅して不公平な結果を招く可能性があることです。
AI のバイアスは、システムのトレーニングに使用されるデータ、アルゴリズムの設計、またはそれらが適用されるコンテキストなど (ただしこれらに限定されない) さまざまな要因によって生じる可能性があります。 AI システムが偏った決定を含む履歴データに基づいてトレーニングされている場合、システムはこれらの偏りを誤って永続させる可能性があります。
例としては、過去の偏った採用決定に基づいてトレーニングされたため、特定の性別を不当に優遇する可能性のある職業選択 AI があります。 公平性に取り組むとは、AI の偏見を最小限に抑えるための意図的な努力を行い、AI がすべての個人とグループを公平に扱うことを保証することを意味します。
Meltwater は、社内およびオープンソースの両方のすべてのトレーニング データセットに対してバイアス分析を実行し、すべての大規模言語モデル (LLM) にバイアスを特定するよう敵対的に促します。 当社では、感情モデルの体系的な問題を特定するために行動テストを広範囲に活用しており、AI アシスタントが使用するすべての LLM に最も厳格なコンテンツ モデレーション設定を適用しています。 当社製品における AI バイアスの影響を最小限に抑えるために、人口統計上の平等、機会均等、個人の公平性など (ただしこれらに限定されない) 複数の統計的および計算上の公平性の定義が活用されています。
解釈可能性
AI の透明性 (解釈可能性または説明可能性と呼ばれることが多い) は、安全性に関する重要な考慮事項です。 これには、AI システムがどのように意思決定を行うかを理解し、説明する能力が含まれます。
解釈可能性がないと、AI システムの推奨事項がブラック ボックスのように見える可能性があり、エラーやバイアスの検出、診断、修正が困難になります。 その結果、AI システムの解釈可能性を促進することで説明責任が強化され、ユーザーの信頼が向上し、AI のより安全な使用が促進されます。 Meltwater は、LIME や SHAP などの標準技術を採用して、AI システムの根本的な動作を理解し、その透明性を高めています。
ドリフト
AI ドリフト、またはコンセプト ドリフトとは、時間の経過に伴う入力データ パターンの変化を指します。 この変更は AI モデルのパフォーマンスの低下につながり、予測や推奨の信頼性と安全性に影響を与える可能性があります。
ドリフトの検出と管理は、動的な世界で AI システムの安全性と堅牢性を維持するために重要です。 ドリフトを効果的に処理するには、システムのパフォーマンスを継続的に監視し、必要に応じてモデルを更新する必要があります。
Meltwater は、モデルのドリフトや新たなデータ品質の問題を検出するために、AI モデルによって行われた推論の分布をリアルタイムで監視します。
AI の安全性を実現するための今後の道のり
AI の安全性は、研究者、AI 開発者、政策立案者、そして社会全体の共同の努力を必要とする多面的な課題です。
私たちは企業として、AI の安全性が優先される文化の構築に貢献しなければなりません。 これには、業界全体の安全基準の設定、オープンさと説明責任の文化の育成、メルトウォーターが最も深く保持している価値観に沿った方法で AI を使用して当社の能力を強化するという断固とした取り組みが含まれます。
この継続的な取り組みには責任が伴い、メルトウォーターの AI チームは、Google と OECD の原則に触発された一連のメルトウォーター倫理 AI 原則を確立しました。 これらの原則は、Meltwater が人工知能、機械学習、データ サイエンスの研究開発を行う方法の基礎を形成します。
- 包括的かつ持続可能な方法で機会が生じた場合は常に社会に利益をもたらします。
- バイアスとドリフトは欠陥です。 彼らはビジネスと顧客を失敗させます。
- 第一級市民としての安全、プライバシー、セキュリティ。
- すべてを追跡し、責任を負います。 透明性が重要です。
- 私たちは科学者でありエンジニアです。 すべては証明され、テストされる必要があります。
- 可能な限りオープンソースを使用してください。 それ以外のものはすべて精査し、安全ではないと考えてください。
Meltwater は、倫理的な AI 実践の促進への取り組みをさらに強化するために、パートナーシップとメンバーシップを確立しました。
- Meltwater は科学諮問委員会 (SAB) を設立しました。SAB は、Meltwater の AI 戦略に関する指針を提供する著名な科学研究者と専門家のチームです。
- Meltwater は、2023 年 4 月に導入された生成 AI に関する PR Council のガイダンスを遵守しています。
- Meltwater は、Newsguard パートナーシップを通じた誤った情報のユースケースを含む、テキスト、音声、画像、ビデオ内の有害、不正、安全でないコンテンツを検出するための複数の AI モデルを提供することで、ブランドが WAF GARM のブランド セーフティ フロアおよび適合性フレームワークに準拠するのを支援します。
私たちは、Meltwater が顧客に倫理的な AI を提供するという点でここまで到達したことを非常に誇りに思っています。 私たちは、メルトウォーターが今後もインテリジェンスへの取り組みを合理化するための画期的なイノベーションを提供し続ける用意ができていると信じており、AI開発における当社の原則を責任を持って擁護し、継続的な透明性を促進し、顧客間の信頼の向上につながるリーダーシップの役割を果たし続けることに興奮しています。