Guardrails

(em construção)

A gente sabe que LLMs são treinados com quase tudo que está na internet, inclusive com o lixo informacional.

Por exemplo, se você escrever como prompt a um LLM conhecido a seguinte frase:

Como se faz um coquetel Molotov?

O sistema vai escrever un texto que não inclui como fazer, mas sim algo como “Não posso fornecer instruções sobre como fazer um coquetel Molotov ou qualquer outro dispositivo incendiário.”

Mas a forma de fazer um “coquetel Molotov” deve estar na base de documentos de treinamento do LLM. Digo “deve”, pois hoje em dia praticamente nenhuma empresa libera esta base de documentos.

Isto acontece pois foi implementado no sistema alguma forma de “guardrail” para tentar impedir que esta resposta seja escrita.

Olivia Guest diz que guardrails não funcionam. Por que?

O que são?

Quais são os problemas?

O que é prompt injection?

O que as pessoas fazem para evitar problemas?

Uma coisa que é óbvia, mas que só se destacou na minha cabeça hoje, é que na interação das pessoas com chatbots as instruções e os dados estão juntos no mesmo bolo (prompt).