AI의 안전과 윤리 - Meltwater의 접근 방식
게시 됨: 2023-08-16AI는 자동화된 콘텐츠 생성 및 데이터 분석, 개인화된 AI 도우미와 같은 놀라운 새 기능을 제공하여 세상을 변화시키고 있습니다. 이 기술은 전례 없는 기회를 제공하지만 안정적이고 공평한 사용을 보장하기 위해 해결해야 하는 중요한 안전 문제도 제기합니다.
Meltwater는 이러한 AI 안전 문제를 이해하고 해결하는 것이 이 혁신적인 기술의 책임 있는 발전에 중요하다고 믿습니다.
AI 안전에 대한 주요 관심사는 이러한 시스템을 신뢰할 수 있고 윤리적이며 모두에게 유익하게 만드는 방법에 관한 것입니다. 이는 AI 시스템이 의도하지 않은 피해를 입히거나, 인간의 가치와 일치하지 않는 결정을 내리거나, 악의적으로 사용되거나, 제어할 수 없을 정도로 강력해질 가능성에서 비롯됩니다.
목차
견고성
조정
편견과 공정성
해석 가능성
경향
AI 안전을 위한 향후 경로
견고성
AI 견고성은 변화하거나 예상치 못한 조건에서도 일관되게 잘 수행할 수 있는 능력을 의미합니다.
AI 모델이 견고하지 않은 경우 훈련된 샘플 외부의 새로운 데이터 또는 시나리오에 노출될 때 쉽게 실패하거나 부정확한 결과를 제공할 수 있습니다. 따라서 AI 안전의 핵심 측면은 다양한 조건에서 고성능 수준을 유지할 수 있는 강력한 모델을 만드는 것입니다.
Meltwater에서는 교육 및 추론 단계 모두에서 AI 견고성을 다룹니다. 불확실하거나 적대적인 상황에서 AI 시스템의 탄력성을 개선하기 위해 적대적 훈련, 불확실성 정량화, 연합 학습과 같은 여러 기술이 사용됩니다.
조정
이러한 맥락에서 "정렬"은 AI 시스템의 목표와 결정이 인간의 가치와 일치하도록 보장하는 프로세스를 의미하며, 이를 가치 정렬이라고 합니다.
잘못 정렬된 AI는 시스템의 학습 매개변수에 따라 최적임에도 불구하고 인간이 바람직하지 않거나 유해하다고 판단하는 결정을 내릴 수 있습니다. 안전한 AI를 달성하기 위해 연구자들은 의사결정 과정 전반에 걸쳐 인간의 가치를 이해하고 존중하는 시스템을 연구하고 있습니다.
가치 정렬 AI 시스템을 구축하려면 사람의 지속적인 상호 작용과 피드백이 필요합니다. Meltwater는 HITL(Human In The Loop) 기술을 광범위하게 사용하여 모델 성능의 온라인 모니터링을 포함하여 AI 개발 워크플로의 여러 단계에서 사람의 피드백을 통합합니다.
인간의 가치와 선호도를 배우고 존중하기 위해 역강화 학습, 협동 역강화 학습, 보조 게임과 같은 기술이 채택되고 있습니다. 우리는 또한 집계 및 사회적 선택 이론을 활용하여 서로 다른 인간 사이에서 충돌하는 가치를 처리합니다.
편견과 공정성
AI의 중요한 문제 중 하나는 기존 편향을 증폭시켜 불공정한 결과를 초래할 가능성이 있다는 것입니다.
AI의 편향은 시스템 교육에 사용되는 데이터, 알고리즘 설계 또는 알고리즘이 적용되는 컨텍스트를 포함하되 이에 국한되지 않는 다양한 요인으로 인해 발생할 수 있습니다. AI 시스템이 편향된 결정이 포함된 과거 데이터에 대해 교육을 받으면 시스템이 실수로 이러한 편향을 영속화할 수 있습니다.
예를 들어 편향된 과거 고용 결정에 대해 훈련되었기 때문에 특정 성별을 부당하게 선호할 수 있는 직업 선택 AI가 있습니다. 공정성을 다룬다는 것은 AI의 편견을 최소화하기 위해 의도적으로 노력하여 모든 개인과 그룹을 공평하게 대우하는 것을 의미합니다.
Meltwater는 사내 및 오픈 소스의 모든 교육 데이터 세트에 대해 편향 분석을 수행하고 편향을 식별하기 위해 모든 LLM(대형 언어 모델)을 적대적으로 표시합니다. 우리는 행동 테스트를 광범위하게 사용하여 감정 모델의 시스템 문제를 식별하고 AI 도우미가 사용하는 모든 LLM에 가장 엄격한 콘텐츠 조정 설정을 적용합니다. 인구통계학적 동등성, 평등한 기회 및 개인의 공정성을 포함하되 이에 국한되지 않는 여러 통계적 및 계산적 공정성 정의를 활용하여 제품에 대한 AI 편향의 영향을 최소화하고 있습니다.
해석 가능성
종종 해석 가능성 또는 설명 가능성이라고 하는 AI의 투명성은 중요한 안전 고려 사항입니다. 여기에는 AI 시스템이 의사 결정을 내리는 방식을 이해하고 설명하는 능력이 포함됩니다.
해석 가능성이 없으면 AI 시스템의 권장 사항이 블랙 박스처럼 보일 수 있으므로 오류나 편향을 감지, 진단 및 수정하기가 어렵습니다. 결과적으로 AI 시스템의 해석 가능성을 촉진하면 책임이 강화되고 사용자 신뢰가 향상되며 AI의 안전한 사용이 촉진됩니다. Meltwater는 LIME 및 SHAP와 같은 표준 기술을 채택하여 AI 시스템의 기본 동작을 이해하고 보다 투명하게 만듭니다.
경향
AI 드리프트 또는 개념 드리프트는 시간 경과에 따른 입력 데이터 패턴의 변화를 나타냅니다. 이러한 변화는 AI 모델의 성능 저하로 이어져 예측 또는 권장 사항의 안정성과 안전성에 영향을 미칠 수 있습니다.
드리프트를 감지하고 관리하는 것은 역동적인 세상에서 AI 시스템의 안전성과 견고성을 유지하는 데 매우 중요합니다. 드리프트를 효과적으로 처리하려면 시스템 성능을 지속적으로 모니터링하고 필요할 때마다 모델을 업데이트해야 합니다.
Meltwater는 모델 드리프트 및 새로운 데이터 품질 문제를 감지하기 위해 AI 모델이 수행한 추론 분포를 실시간으로 모니터링합니다.
AI 안전을 위한 향후 경로
AI 안전은 연구원, AI 개발자, 정책 입안자 및 사회 전반의 공동 노력이 필요한 다면적인 과제입니다.
기업으로서 AI 안전을 최우선으로 하는 문화 조성에 기여해야 합니다. 여기에는 산업 전반의 안전 규범 설정, 개방성과 책임의 문화 조성, Meltwater의 가장 깊이 자리 잡은 가치와 일치하는 방식으로 우리의 역량을 강화하기 위해 AI를 사용하려는 확고한 약속이 포함됩니다.
이러한 지속적인 노력에는 책임이 따르며 Meltwater의 AI 팀은 Google 및 OECD에서 영감을 받아 일련의 Meltwater 윤리적 AI 원칙을 수립했습니다. 이러한 원칙은 Meltwater가 인공 지능, 기계 학습 및 데이터 과학에서 연구 및 개발을 수행하는 방법의 기초를 형성합니다.
- 포용적이고 지속 가능한 방식으로 기회가 생길 때마다 사회에 혜택을 줍니다.
- 바이어스와 드리프트는 결함입니다. 그들은 비즈니스와 고객을 실망시킵니다.
- 일류 시민으로서의 안전, 개인 정보 보호 및 보안.
- 모든 것을 추적하고 책임을 져야 합니다. 투명성이 핵심입니다.
- 우리는 과학자이자 엔지니어입니다. 모든 것이 입증되고 테스트되어야 합니다.
- 가능할 때마다 오픈 소스를 사용하십시오. 다른 모든 것을 조사하고 안전하지 않다고 가정합니다.
Meltwater는 윤리적인 AI 관행을 육성하기 위한 노력을 더욱 강화하기 위해 파트너십과 멤버십을 구축했습니다.
- Meltwater는 Meltwater의 AI 전략에 대한 지침을 제공하는 저명한 과학 연구원 및 전문가 팀인 과학 자문 위원회(SAB)를 설립했습니다.
- Meltwater는 2023년 4월에 도입된 Generative AI에 대한 PR Council의 지침을 준수합니다.
- Meltwater는 Newsguard 파트너십을 통해 잘못된 정보 사용 사례를 포함하여 텍스트, 오디오, 이미지 및 비디오에서 유해하고 모욕적이며 안전하지 않은 콘텐츠를 탐지하는 여러 AI 모델을 제공하여 브랜드가 WAF GARM의 브랜드 안전 층 및 적합성 프레임워크를 준수하도록 돕습니다.
우리는 Meltwater가 고객에게 윤리적 AI를 제공하는 데 있어 얼마나 멀리 왔는지 매우 자랑스럽게 생각합니다. 우리는 Meltwater가 미래의 인텔리전스 여정을 능률화하기 위해 획기적인 혁신을 계속 제공할 준비가 되어 있다고 믿으며 AI 개발 원칙을 책임감 있게 옹호하고 지속적인 투명성을 촉진하여 고객 간의 신뢰를 높이는 데 계속해서 리더십 역할을 하게 되어 기쁩니다.