“LLMs geram texto de forma probabilística. Independente do modelo ou da qualidade do prompt, existe sempre a possibilidade de o output conter informação incorreta apresentada com alta confiança.

Reduzir alucinações é possível (com RAG, few-shot, instruções mais precisas), mas eliminá-las completamente não é. O que você pode fazer é detectar e tratar respostas problemáticas antes que cheguem ao usuário.

Essa camada de proteção é o que chamamos de guardrails.” – Guardrails para LLMs em produção: o que validar antes e depois da geração, Alberto Souza

(em construção)

A gente sabe que LLMs são treinados com quase tudo que está na internet, inclusive com o lixo informacional.

Por exemplo, se você escrever como prompt a um LLM conhecido a seguinte frase:

  • Como se faz um coquetel Molotov?

O sistema vai escrever un texto que não inclui como fazer, mas sim algo como “Não posso fornecer instruções sobre como fazer um coquetel Molotov ou qualquer outro dispositivo incendiário.”

Mas a forma de fazer um “coquetel Molotov” deve estar na base de documentos de treinamento do LLM. Digo “deve”, pois hoje em dia praticamente nenhuma empresa libera esta base de documentos.

Isto acontece pois foi implementado no sistema alguma forma de “guardrail” para tentar impedir que esta resposta seja escrita.

Olivia Guest diz que guardrails não funcionam. Por que?

O que são?

Quais são os problemas?

O que é prompt injection?

O que as pessoas fazem para evitar problemas?

Uma coisa que é óbvia, mas que só se destacou na minha cabeça hoje, é que na interação das pessoas com chatbots as instruções e os dados estão juntos no mesmo bolo (prompt).