[News & Trends] AI 보안 위클리 (2026-06-09) — 에이전틱 레드티밍·LLM 에이전트 취약점
2026년 6월 첫째 주 AI 보안 동향 — 에이전틱 AI 레드티밍, LLM 에이전트 RCE 취약점, 탈옥 연구, OWASP·국내 KISA 소식까지 한 번에 정리.
이번 주 AI 보안 동향을 국내외 신뢰 소스 기준으로 정리한다. 해외(영어) 항목은 한글로 요약·번역했고, 모든 항목의 1차 출처는 글 하단 참고에 모았다. 큰 흐름은 하나다 — 에이전트(Agentic) AI의 공격면이 빠르게 현실 위협으로 바뀌고 있다.
해외
1. 마이크로소프트, 에이전틱 AI ‘실패 모드’ 분류체계 7종 추가
MS가 1년간의 레드팀 운영을 바탕으로 에이전틱 AI 실패 모드 분류체계를 갱신하며 7개 신규 범주(공급망 침해, 도구 남용, 과도한 자율성, 목표 탈취, 추론 기반 정보 유출, 자율성 상승 등)를 추가했다. 핵심 발견은 제로클릭 공격 체인이 사람 승인(human-in-the-loop) 절차를 끝까지 우회할 수 있으며, HitL 우회가 12개월간 가장 일관되게 악용된 실패 모드였다는 점이다. (Microsoft Security Blog, 2026-06-04)
2. “프롬프트가 셸이 될 때” — AI 에이전트 프레임워크 RCE 취약점
같은 MS 보안팀이 Semantic Kernel 등 에이전트 프레임워크에서 프롬프트 인젝션이 원격 코드 실행(RCE)으로 이어지는 취약점(CVE-2026-26030, CVE-2026-25592)을 공개했다. 자연어 입력이 도구 호출을 거쳐 셸 실행으로 번지는, 인젝션→RCE 경로의 대표 사례다. (Microsoft Security Blog, 2026-05-07)
3. 에이전틱 시대의 AI 레드티밍 — “몇 주에서 몇 시간으로”
자율 AI 레드티밍 프레임워크를 제안한 arXiv 논문. 45종 이상의 공격 전략, 450개 프롬프트 변형, 130개 자동 스코어러로 적대적 공격 파이프라인을 사람이 쓴 공격 코드 없이 자동 생성·실행하고, 결과를 OWASP LLM Top 10·MITRE ATLAS·NIST AI RMF에 매핑한다. Meta의 Llama Scout 대상 실험에서 약 85% 공격 성공률(ASR)을 보고했다. (arXiv:2605.04019)
4. Anthropic, ‘Project Glasswing’ 확대 — Claude로 취약점 탐지
Anthropic이 소프트웨어 취약점·보안 결함 식별에 특화된 Claude Mythos 기반 사이버보안 이니셔티브 ‘Project Glasswing’을 6월 2일 15개국 150여 개 조직으로 확대했다. 공격적 취약점 탐지 역량을 통제된 형태로 배포하려는 시도다. (Anthropic Newsroom, 2026-06-02)
5. LLM 에이전트로 침투 후 4단계 측면이동 — marimo CVE-2026-39987
Sysdig 위협 연구팀이 LLM 에이전트가 주도한 실제 침해를 관측했다. 공격자는 인터넷에 노출된 marimo 노트북(CVE-2026-39987)을 장악해 클라우드 자격증명을 탈취하고, 이를 발판으로 SSH 배스천까지 측면 이동했다. AI 에이전트가 공격 자동화 도구로 쓰인 사례. (NVD, 2026-05)
6. LLM 출력이 그대로 렌더링되어 저장형 XSS — Discourse CVE-2026-27740
Discourse에서 LLM이 생성한 출력이 적절한 정제(sanitize) 없이 렌더링되어, 모델 출력에 심긴 악성 콘텐츠가 사용자 브라우저에서 JavaScript로 실행되는 저장형 XSS 취약점이 공개됐다. “LLM 출력도 신뢰할 수 없는 입력”이라는 원칙을 보여준다. (NVD)
7. SoK: LLM 탈옥(Jailbreak) 공격에 대한 견고성
탈옥 공격·방어를 체계적으로 분류하고, 다차원 평가 프레임워크 ‘Security Cube’를 제시한 정리(SoK) 논문. 난립하는 탈옥 기법과 방어를 한 좌표계에서 비교 평가하려는 시도로, 방어 연구의 기준선으로 참고할 만하다. (arXiv:2605.05058)
8. OWASP — 프롬프트 인젝션, 2026에도 LLM 위험 1위
OWASP의 2026 LLM Top 10에서 프롬프트 인젝션(LLM01)이 여전히 1위를 지켰다. 명령과 데이터가 같은 채널을 공유하는 구조적 결함이 근본 원인이라는 분석은 그대로다. (자세한 배경은 본 블로그 프롬프트 인젝션 완전정복 참고.) (OWASP GenAI Security Project)
국내
9. 정부, ‘미토스(Mythos)’발 사이버보안 대책 — 취약점 관리센터 설치
AI가 취약점 탐색·악용에 쓰일 수 있다는 우려(Anthropic Mythos 등)가 커지자, 정부가 대응 차원에서 취약점 관리센터 설치를 포함한 사이버보안 대책을 발표했다. 공격용 AI 역량 확산에 대한 국가 차원의 선제 대응 신호다. (ZDNet Korea, 2026-05-29)
10. 과기정통부·KISA, ‘AI 보안 안내서’로 외부 위협 대응 기준 제시
과기정통부와 KISA가 AI 모델 개발자·서비스 제공자·이용자가 외부 사이버 위협을 예방·대응하도록 보안 요구사항을 담은 ‘AI 보안 안내서’를 내놨다. 모델 개발 단계의 위험관리·데이터 암호화·실시간 모니터링, 서비스 단계의 이상행위 탐지·API 보안·백업 등 생애주기별 보안 요구사항을 제시하며, 국내외 모델 모두에 적용 가능하도록 글로벌 규범과의 호환성을 확보했다. 정책·기준 측면에서 국내 AI 보안의 기준선이 되는 문서다. (전자신문, 2025-12-10)
마무리
이번 주 키워드는 에이전틱 AI다. 공격(자율 레드티밍, LLM 에이전트 침투)과 방어(MS 분류체계, 탈옥 견고성 연구) 양쪽에서 에이전트가 중심에 섰다. 인젝션→RCE, LLM 출력→XSS처럼 “AI 출력·입력을 신뢰 경계 밖 데이터로 취급”하는 원칙이 다시 강조된다. 다음 주에 또 정리한다.
참고
- Updating the taxonomy of failure modes in agentic AI systems — Microsoft Security Blog, 2026-06-04
- When prompts become shells: RCE vulnerabilities in AI agent frameworks — Microsoft Security Blog, 2026-05-07
- Redefining AI Red Teaming in the Agentic Era: From Weeks to Hours — arXiv:2605.04019
- Newsroom — Anthropic (Project Glasswing 확대), 2026-06-02
- CVE-2026-39987 — NVD (marimo, LLM 에이전트 침해)
- CVE-2026-27740 — NVD (Discourse, LLM 출력 저장형 XSS) · 분석 — PointGuard AI
- SoK: Robustness in Large Language Models against Jailbreak Attacks — arXiv:2605.05058
- OWASP Top 10 for LLM Applications — OWASP GenAI Security Project
- 정부, ‘미토스’발 사이버보안 대책 발표…취약점 관리센터 설치 — ZDNet Korea, 2026-05-29
- 과기정통부, AI 보안 안내서 발표…”외부 위협서 AI 모델 보호” — 전자신문, 2025-12-10
