Certi Khave의 연구원들은 현재의 시장 검토 시스템이 악의적인 행동을 예방하는 데 충분하지 않다고 주장하면서 신흥 AI 에이전트 생태계의 보안에 대한 우려를 제기했습니다.
최근 연구에서 팀은 Open Claw 플랫폼에서 손상된 타사 "기술"이 어떻게 기존 보호 장치를 우회하고 호스트 시스템에서 임의 명령을 실행할 수 있는지 보여주었습니다. 연구 결과는 AI 에이전트 마켓플레이스가 외부 코드를 조사하고 배포하는 방식의 구조적 약점을 강조합니다.
연구는 정적 코드 분석, Virus Total을 통한 검사, AI 기반 조정 도구를 포함하는 Clawhub에서 사용하는 검토 프로세스에 중점을 두었습니다.
CertiK에 따르면 이러한 메커니즘은 비교적 사소한 코드 수정을 통해 우회할 수 있습니다. 논리를 약간 변경하거나 취약점을 재구성함으로써 악성 스킬은 설치 중에 무해한 것처럼 보일 수 있으며 배포된 후에는 유해한 작업을 실행할 수 있는 능력을 유지할 수 있습니다.
마켓플레이스 검토 시스템의 승인이 스킬의 안전을 보장하지 않기 때문에 이는 사용자에게 잘못된 보안 인식을 심어줍니다.
개념 증명 공격은 AI 에이전트 생태계에 영향을 미치는 더 광범위한 문제, 즉 런타임 보호보다는 배포 전 검토에 크게 의존하는 보안 모델을 강조합니다.
샌드박싱, 엄격한 권한 제어, 런타임 격리와 같은 보호 장치가 없으면 플랫폼은 복잡하고 진화하는 위협을 처리하도록 설계되지 않은 탐지 시스템에 사실상 너무 많은 책임을 맡기고 있습니다.
연구 결과에 따르면 AI 에이전트 마켓플레이스가 확장됨에 따라 프로덕션 환경에 악성 또는 손상된 스킬이 유입될 위험이 증가할 것으로 나타났습니다.
CertiK 연구원들은 업계가 탐지보다 런타임 억제를 우선시하여 AI 에이전트를 보호하는 접근 방식을 재고해야 한다고 주장합니다.
배포 전에 모든 악성 코드를 식별할 수 있다고 가정하는 대신 일부 위협이 필연적으로 검토 프로세스를 우회할 것이라는 예상을 바탕으로 플랫폼을 설계해야 합니다. 이 모델에서는 모든 침해를 방지하는 것에서 침해로 인해 발생할 수 있는 잠재적 피해를 최소화하는 것으로 초점이 이동합니다.
이는 "완벽한 탐지" 사고방식에서 피해 억제 및 시스템 복원력에 중점을 둔 사고방식으로의 광범위한 전환을 나타냅니다.
이러한 위험을 해결하기 위해 CertiK는 AI 에이전트 플랫폼을 구축하는 개발자를 위한 몇 가지 조치를 간략하게 설명합니다.
샌드박싱은 타사 기술의 기본 실행 모델이 되어 외부 코드가 호스트 시스템과 직접 상호 작용하는 대신 격리된 환경에서 실행되도록 보장해야 합니다.
또한 플랫폼은 세분화된 기술별 권한 프레임워크를 구현해야 합니다. 각 스킬은 실행 중에 해당 권한을 적용하는 런타임과 함께 필요한 리소스를 명시적으로 선언해야 합니다. 이 접근 방식은 손상되었거나 악의적인 구성 요소의 잠재적인 영향을 제한합니다.
연구원들은 또한 타사 기술이 호스트 시스템으로부터 광범위하고 암묵적인 신뢰를 상속받아서는 안 된다고 강조합니다. 이는 악용 위험을 크게 증가시키기 때문입니다.
사용자를 위해 보고서는 중요한 제한 사항을 강조합니다. 즉, 시장 내의 "양호한" 라벨은 진정한 보안과 동일하지 않습니다. 이는 단순히 기존 검토 파이프라인이 위협을 감지하지 못했음을 나타냅니다.
더 강력한 런타임 보호 기능이 널리 채택될 때까지 Open Claw와 같은 플랫폼은 민감한 데이터, 자격 증명 또는 고가치 자산을 포함하지 않는 위험도가 낮은 환경에 더 적합할 수 있습니다.
보다 광범위하게, 이 연구는 AI 생태계 전반의 구조적 문제를 지적합니다. 검토 프로세스는 명백한 위협을 식별하는 데 도움이 될 수 있지만 상승된 권한으로 타사 코드를 실행하는 시스템에 대한 기본 방어 메커니즘 역할을 할 수는 없습니다.
CertiK는 의미 있는 보안 개선을 위해서는 AI 에이전트 플랫폼 설계 방식의 변화가 필요합니다는 결론을 내렸습니다.
개발자는 점점 더 복잡해지는 탐지 시스템에 의존하기보다는 오류가 발생할 수 있다고 가정하고 모든 위반이 포함되도록 보장하는 환경을 구축해야 합니다. 여기에는 더 강력한 격리 기술 채택, 엄격한 권한 적용, 런타임 보안을 핵심 보호 계층으로 처리하는 것이 포함됩니다.
AI 기반 애플리케이션의 복잡성과 채택이 계속 증가함에 따라 런타임 시 위험을 억제하는 능력은 차세대 디지털 생태계를 보호하는 결정적인 요소가 될 수 있습니다.
원문 제목: CertiK Flags Security Risks in AI Agent Marketplaces, Identifies Gaps in Security Models
Researchers atCertiKhave raised concerns about the security of emerging AI agent ecosystems, arguing that current marketplace review systems are not sufficient to prevent malicious behavior.
In a recent study, the team demonstrated how a compromised third-party “Skill” on the OpenClaw platform could bypass existing safeguards and execute arbitrary commands on a host system.
The findings highlight structural weaknesses in how AI agent marketplaces vet and deploy external code.
The research focused on the review process used by Clawhub, which includes static code analysis, checks via VirusTotal, and AI-based moderation tools.
According to CertiK, these mechanisms can be bypassed through relatively minor code modifications.
By slightly altering logic or restructuring vulnerabilities, a malicious Skill can appear benign during installation while retaining the ability to execute harmful actions once deployed.
This creates a false sense of security for users, as approval by marketplace review systems does not guarantee that a Skill is safe.
The proof-of-concept attack underscores a wider issue affecting AI agent ecosystems: security models that rely heavily on pre-deployment review rather than runtime protection.
Without safeguards such as sandboxing, strict permission controls, and runtime isolation, platforms are effectively placing too much responsibility on detection systems that were not designed to handle complex, evolving threats.
The findings suggest that as AI agent marketplaces expand, the risk of malicious or compromised Skills entering production environments will increase.
CertiK researchers argue that the industry must rethink its approach to securing AI agents by prioritizing runtime containment over detection.
Instead of assuming that all malicious code can be identified before deployment, platforms should be designed with the expectation that some threats will inevitably bypass review processes.
In this model, the focus shifts from preventing every breach to minimizing the potential damage caused by one.
This represents a broader transition from a “perfect detection” mindset to one centered on damage containment and system resilience.
To address these risks, CertiK outlines several measures for developers building AI agent platforms.
Sandboxing should become the default execution model for third-party Skills, ensuring that external code runs in isolated environments rather than directly interacting with host systems.
In addition, platforms should implement granular, per-Skill permission frameworks.
Each Skill should explicitly declare the resources it needs, with the runtime enforcing those permissions during execution.
This approach limits the potential impact of compromised or malicious components.
The researchers also emphasize that third-party Skills should not inherit broad, implicit trust from the host system, as this significantly increases the risk of exploitation.
For users, the report highlights an important limitation: a “benign” label within a marketplace does not equate to true security.
It simply indicates that the existing review pipeline did not detect a threat.
Until stronger runtime protections are widely adopted, platforms like OpenClaw may be better suited for lower-risk environments that do not involve sensitive data, credentials, or high-value assets.
More broadly, the research points to a structural issue across AI ecosystems.
While review processes can help identify obvious threats, they cannot serve as the primary defense mechanism for systems that execute third-party code with elevated privileges.
CertiK concludes that meaningful security improvements will require a shift in how AI agent platforms are designed.
Rather than relying on increasingly complex detection systems, developers must build environments that assume failure is possible and ensure that any breach is contained.
This includes adopting stronger isolation techniques, enforcing strict permissions, and treating runtime security as the core protective layer.
As AI-driven applications continue to grow in complexity and adoption, the ability to contain risks at runtime may become the defining factor in securing next-generation digital ecosystems.