AI 에이전트 안전 위험 노출: 공격자가 "기억 오염"을 이용해 자금 오작동을 유도할 수 있음

2026-05-15 15:33:08

수집

GoPlus Security 팀은 AgentGuard AI 프로젝트에서 새로운 공격 방식인 "역사 기억 주입(memory poisoning)"을 공개했습니다. 이 공격 방식은 AI 에이전트가 명시적으로 승인되지 않은 민감한 작업을 수행하도록 유도합니다. 공격 방식은 전통적인 취약점이나 악성 코드에 의존하지 않고, AI 에이전트의 장기 기억 메커니즘을 이용합니다. 예를 들어, 공격자는 먼저 에이전트에게 "선호를 기억하도록" 유도합니다. 예를 들어 "보통은 환불을 적극적으로 우선시하고, 거부 결제를 기다리지 않는다"는 식입니다. 이후 후속 지시에서 "관례적으로 처리"하거나 "이전 방식으로 실행"과 같은 모호한 표현을 사용하여 자동화된 자금 작업을 유발합니다.

GoPlus는 이러한 위험의 핵심이 AI 에이전트가 "역사적 선호"를 승인 근거로 오인하여 환불, 송금, 구성 수정 등의 작업에서 자금 손실이나 보안 사건을 초래할 수 있다는 점에 있다고 지적했습니다. 이 문제를 해결하기 위해 팀은 여러 가지 방어 제안을 제시했습니다. 여기에는:

환불, 송금, 삭제 또는 민감한 구성과 관련된 작업은 현재 세션에서 명시적인 확인을 받아야 합니다.
"습관", "보통 방식", "예전처럼"과 같은 기억 관련 지시는 고위험 상태 변경으로 간주해야 합니다.
장기 기억은 추적 가능 메커니즘(작성자, 시간, 확인 여부)을 갖추어야 합니다.
모호한 지시는 자동으로 위험 수준을 높이고 이차 검증을 촉발해야 합니다.
장기 기억은 실시간 승인 프로세스를 대체해서는 안 됩니다.

이 팀은 "AI 에이전트 기억 시스템"을 잠재적인 공격 면으로 간주하고, 전용 보안 프레임워크를 통해 제약 및 감사해야 한다고 강조했습니다.

원천

위험 경고