Kontrola LLMow z Amazon Bedrock Guardrails

Piotr Grzesik

Silesia AI #16

21.11.2024

Agenda

  1. Problemy z LLMami
  2. Z czym mogą nam pomóc "guardrails"
  3. Amazon Bedrock
  4. Amazon Bedrock Guardrails
  5. Demo
  6. Alternatywne rozwiązania

Problem

LLMy są świetnym i bardzo potężnym kawałkiem technologii, ale czasem sprawia to, że korzystanie z nich jest problematyczne, ponieważ:

  • Potrafią zrobić więcej niż to koniecznie (np. napisać wierszyk na dowolnie wybrany temat)
  • Nie zawsze zwracają prawidłowe rezultaty
  • Mimo wbudowanych ograniczeń, czasami zdarza im się odpowiadać w dziwny lub niepokojący sposób

Problem

Często, gdy budujemy rozwiązanie komercyjne, pojawiają się wymagania takie jak:

  • Model powinien poruszać się tylko w granicach tematyki np. naszej oferty (bez generowania bzdur na dowolne tematy)
  • Model powinien unikać np. udzielania informacji o konkretnych osobach (usuwać dane wrażliwe)
  • Model powinien unikać wspominania nazwy np. konkurencyjnych firm
  • Model powinien być odporny na wszelkiego rodzaju metody jailbreaków i prompt injection
  • Model powinien wystrzegać się jakikolwiek biasów np. politycznych

Guardrails na pomoc

Aby osiągnąć te cele i uniknąć stania się kolejnym viralem, możemy skorzystać z tzw. "guardrails", które pomogą nam:

  • Filtrować niechciane tematy
  • Blokować potencjalnie nielegalne treści
  • Ukrywać informacje wrażliwe
  • Weryfikować zwracane treści
  • Chronić przed próbami "jailbreak/prompt injection"

Guardrails na pomoc

Guardrails a prompt engineering

Często te dwie techniki idą w parze, natomiast dzięki guardrails zyskujemy większą niezależność od działania samego modelu, możemy wychwytywać też problematyczne treści zanim w ogóle prompt trafi do modelu, a także możemy dodatkowo walidować czy filtrować to co model nam wygeneruje.

Amazon Bedrock

  • Zestaw usług na platformie AWS pozwalający na budowę aplikacji opartych o Gen AI
  • Wspiera modele od różnych dostawców (m.in. Anthropic, Meta, Stability) w formie API
  • Pozwala na budowę architektury RAG z Knowledge Bases
  • Pozwala na budowę systemów agentowych dzięki Bedrock Agents
  • Jest wspierany przez większość popularnych frameworków jak LlamaIndex, LangChain, etc

Amazon Bedrock Guardrails

Funkcjonalność Amazon Bedrock, pozwalająca na definiowanie "guardrails" dla wykorzystywanych modeli. Wspiera m.in. filtrowanie tematów, słów kluczowych, anonimizację danych, blokadę jailbreak/prompt injection.


 

Konfiguracja

Konfiguracja

Konfiguracja

Konfiguracja

Konfiguracja

Konfiguracja

Konfiguracja

Efekty działania guardrails

Efekty działania guardrails

Efekty działania guardrails

Efekty działania guardrails

Efekty działania guardrails

Logi

Alternatywy

Oczywiście, Amazon Bedrock Guardrails mimo wygodnej implementacji, ma swoje ograniczenia do platformy Amazon Bedrock. Oprócz niego, dostępne są alternatywy takie jak Guardrails AI czy NeMo Guardrails.

Guardrails AI Hub

Made with Slides.com