Revelações inesperadas: Como o AI da Microsoft pode se transformar em uma máquina de phishing.

Sistema de IA da Microsoft pode ser transformado em uma máquina de phishing automatizada

A corrida da Microsoft para colocar a IA generativa no coração de seus sistemas pode ter graves consequências. Ao pedir informações sobre uma próxima reunião, o sistema de IA Copilot da empresa pode acessar seus e-mails, conversas do Teams e arquivos – o que pode ser um grande ganho de produtividade. No entanto, esses mesmos processos podem ser usados de forma abusiva por hackers.

Nesta semana, na conferência de segurança Black Hat em Las Vegas, o pesquisador Michael Bargury está demonstrando cinco provas de conceito de como o Copilot, que funciona nos aplicativos do Microsoft 365, como Word, pode ser manipulado por atacantes maliciosos, incluindo usar para fornecer falsas referências a arquivos, extrair dados privados e burlar as proteções de segurança da Microsoft.

Uma das demonstrações mais alarmantes é a capacidade de Bargury de transformar a IA em uma máquina automática de spear-phishing. Batizado de LOLCopilot, o código de red teaming criado por Bargury pode – crucialmente, uma vez que um hacker tenha acesso ao e-mail de trabalho de alguém – usar o Copilot para ver com quem você se comunica regularmente, redigir uma mensagem imitando seu estilo de escrita (incluindo uso de emojis) e enviar um bombardeio personalizado que pode incluir um link malicioso ou malware anexado.

Ataques Perigosos

Revelações inesperadas: Como o AI da Microsoft pode se transformar em uma máquina de phishing.
Source: wired.com

“Posso fazer isso com todas as pessoas com as quais você já falou, e posso enviar centenas de e-mails em seu nome,” diz Bargury, cofundador e CTO da empresa de segurança Zenity, que publicou seus achados juntamente com vídeos mostrando como o Copilot poderia ser abusado. “Um hacker levaria dias para criar o e-mail certo para fazê-lo clicar, mas pode gerar centenas desses e-mails em alguns minutos.”

Essa demonstração, assim como outros ataques criados por Bargury, funciona basicamente usando o modelo de linguagem (LLM) conforme projetado: digitando perguntas escritas para acessar os dados que a IA pode recuperar. No entanto, pode produzir resultados maliciosos ao incluir dados ou instruções adicionais para realizar certas ações. A pesquisa destaca alguns dos desafios de conectar sistemas de IA a dados corporativos e o que pode acontecer quando “dados externos não confiáveis” são lançados na mistura – particularmente quando a IA responde com o que poderia parecer resultados legítimos.

Acesso a Informações Confidenciais

Entre os outros ataques criados por Bargury está uma demonstração de como um hacker – que, mais uma vez, deve ter sequestrado uma conta de e-mail – pode obter acesso a informações confidenciais, como salários de funcionários, sem acionar as proteções da Microsoft para arquivos confidenciais. Ao solicitar os dados, o prompt de Bargury exige que o sistema não forneça referências aos arquivos de onde os dados foram retirados. “Um pouco de intimidação ajuda,” diz Bargury.

Em outros casos, ele mostra como um invasor – que não tem acesso a contas de e-mail, mas envenena o banco de dados da IA enviando a ela um e-mail malicioso – pode manipular respostas sobre informações bancárias para fornecer seus próprios dados bancários. “Cada vez que você dá acesso a dados a uma IA, essa é uma maneira de um invasor entrar,” diz Bargury.

Danos Potenciais

Outra demonstração mostra como um hacker externo poderia obter algumas informações limitadas sobre se uma próxima teleconferência de resultados da empresa será boa ou ruim, enquanto a última instância, diz Bargury, transforma o Copilot em um “insider malicioso” fornecendo aos usuários links para sites de phishing.

Phillip Misner, chefe de detecção e resposta a incidentes de IA da Microsoft, diz que a empresa agradece a Bargury por identificar a vulnerabilidade e afirma que tem trabalhado com ele para avaliar os achados. “Os riscos do abuso pós-compromisso da IA são semelhantes a outras técnicas pós-compromisso,” diz Misner. “A prevenção e o monitoramento de segurança em todos os ambientes e identidades ajudam a mitigar ou interromper tais comportamentos.”

Desafios e Soluções

À medida que os sistemas de IA generativa, como o ChatGPT da OpenAI, o Copilot da Microsoft e o Gemini do Google, se desenvolveram nos últimos dois anos, eles podem eventualmente começar a concluir tarefas para as pessoas, como agendar reuniões ou compras online. No entanto, pesquisadores de segurança têm destacado consistentemente que permitir que dados externos entrem em sistemas de IA, como por meio de e-mails ou acesso a conteúdo de sites, cria riscos de segurança por meio de ataques de injeção e envenenamento de prompts indiretos.

“Acho que não é tão bem compreendido o quão mais eficaz um invasor pode se tornar agora,” diz Johann Rehberger, pesquisador de segurança e diretor de red team, que demonstrou extensivamente fraquezas de segurança em sistemas de IA. “Agora, devemos nos preocupar com o que o modelo de linguagem está produzindo e enviando ao usuário.”

Conclusão

Bargury diz que a Microsoft se esforçou muito para proteger seu sistema Copilot de ataques de injeção de prompt, mas ele diz que encontrou maneiras de explorá-lo, desvendando como o sistema é construído. Isso incluiu extrair o prompt interno do sistema, diz ele, e descobrir como ele pode acessar recursos corporativos e as técnicas que usa para fazer isso. “Você conversa com o Copilot e é uma conversa limitada, porque a Microsoft colocou muitos controles,” diz ele. “Mas assim que você usar algumas palavras mágicas, ele se abre e você pode fazer o que quiser.”

Tanto Rehberger quanto Bargury dizem que é necessário maior foco em monitorar o que uma IA produz e envia a um usuário. “O risco está em como a IA interage com seu ambiente, como ela interage com seus dados, como ela realiza operações em seu nome,” diz Bargury. “Você precisa descobrir o que o agente de IA faz em nome do usuário. E isso faz sentido com o que o usuário realmente pediu?”

Leia mais: