인공지능은 소프트웨어 개발 방식을 혁신하고 있지만, 현재의 평가 방법은 이러한 변화에 발맞추지 못하고 있습니다. 구글 연구팀은 코드 정확성 평가에서 벗어나 AI 에이전트가 협업 환경에서 어떻게 행동하는지 이해하는 데 초점을 맞춘 획기적인 연구를 진행했습니다. 이 연구는 바람직한 에이전트 행동에 대한 기본 분류 체계를 구축하고, 표준 준수, 코드 품질, 효과적인 문제 해결, 사용자 협업이라는 네 가지 핵심 기대치를 제시합니다.
## 기능적 정확성을 넘어선 AI 평가
AI 평가 분야는 AI가 생성한 코드가 제대로 작동하는지 확인하는 것에서 벗어나 가독성, 유지보수성, 보안, 협업 가능성 등 더 광범위한 측면을 평가하는 방향으로 나아가고 있습니다. 이를 위해서는 다차원적인 벤치마크와 실제 적용 가능성이 필수적입니다. AI 에이전트 평가는 가독성과 같은 주관적인 특성에 대한 표준화된 측정 기준의 부족, 그리고 LLM(Learning Leadership Model)이 거의 작동하는 코드를 생성하지만 상당한 수준의 인간 수정이 필요한 “라스트 마일 문제” 등 여러 가지 어려움을 수반합니다.
또한, 반복적인 대화에 참여하는 에이전트를 평가하고, 특히 편향 및 잠재적 위해와 관련된 책임 있는 AI 개발에 대한 우려를 해소하기 위해서는 새로운 평가 프레임워크가 필요합니다. 연구원들은 버그 재현 및 수정, 코드 가독성 평가, AI 에이전트가 복잡한 소프트웨어 엔지니어링 작업을 자율적으로 완료하는 방법 탐구 등 다양한 작업에서 LLM(Learning Leadership Model)을 적극적으로 테스트하고 있습니다. 개발자가 AI 도구와 상호 작용하는 방식, 개발자가 AI 도구로부터 실시간으로 학습하는 방식, 나아가 LLM을 테스터로 활용하는 것까지, 이 모든 것이 중요한 연구 분야입니다.
## 인간 중심 AI 에이전트 행동 분류 체계
연구원들은 소프트웨어 엔지니어링 분야에서 AI 에이전트를 평가하는 새로운 프레임워크를 개척했습니다. 이 프레임워크는 코드 정확성을 넘어 협업 행동까지 평가합니다. 91개의 사용자 정의 에이전트 규칙 세트를 분석하여 효과적인 성능을 위한 핵심 기대치를 추출하고, 이를 바탕으로 네 가지 중요한 행동(표준 준수, 코드 품질 보장, 효과적인 문제 해결, 사용자 협업)을 정의하는 분류 체계를 개발했습니다. 이는 팀워크 역학에 초점을 맞춘 인간 중심적인 평가 방식을 제공합니다.
에이전트 행동에 대한 기대치가 고정되어 있지 않다는 점을 인식하여, 연구원들은 상황 적응형 행동(Context-Adaptive Behavior, CAB) 프레임워크를 개발했습니다. 이 접근 방식은 상황에 따라 기대치가 어떻게 변화하는지를 이해하며, 즉각적인 요구 사항부터 장기적인 목표까지 아우르는 “시간 범위(Time Horizon)”와 기업 생산과 신속 프로토타이핑을 구분하는 “작업 유형(Type of Work)”을 모두 고려합니다. 이러한 축은 전문가 인터뷰와 프로토타이핑 에이전트 분석을 통해 경험적으로 도출되었습니다.
## 소프트웨어 개발을 위한 AI 에이전트 행동
연구진은 91개의 사용자 정의 에이전트 규칙 세트를 분석하여 기업 소프트웨어 개발에 협업하는 AI 에이전트의 바람직한 행동에 대한 기본 분류 체계를 구축했습니다. 식별된 네 가지 핵심 기대치는 표준 준수, 코드 품질 보장, 문제 해결 효율성, 사용자 협업이며, 이는 인간 중심적인 평가 프레임워크를 제공합니다. LLM 기반 분류 시스템은 이 분류 체계를 정확하게 검증하여 F1 점수 83%(정밀도: 81%, 재현율: 85%)를 달성했습니다.
실험 결과, 표현 방식에는 차이가 있음에도 불구하고 기업 소프트웨어 개발과 신속 프로토타이핑 간의 행동 기대치에 상당한 유사점이 있는 것으로 나타났습니다. 사용자들은 에이전트가 모범 사례를 따르고 협업 계획에 참여할 것을 일관되게 기대합니다. 또한 에이전트가 상황적 지식을 활용하여 문제를 해결하고, 대화 기록이나 프로젝트 문서를 검토하며, 피드백을 적극적으로 검증하고 학습할 것을 기대합니다. 그러나 본 연구는 신속한 프로토타이핑에 특화된 기대치를 밝혀냈으며, 특히 전문가 역할과 UI/UX 품질에 대한 중요성이 더욱 강조됨을 보여줍니다.
## 소프트웨어 팀을 위한 상황 적응형 AI 행동
본 연구는 소프트웨어 엔지니어링 작업에서 협업하도록 설계된 AI 에이전트 평가의 중요한 공백을 메웁니다. 연구팀은 바람직한 에이전트 행동에 대한 기본 분류 체계를 구축하고, 네 가지 핵심 기대치(표준 준수, 코드 품질 보장, 효과적인 문제 해결, 사용자 협업)를 식별했습니다. 이는 성공적인 인간-AI 파트너십을 이해하기 위한 명확한 프레임워크를 제공합니다. 이를 바탕으로 연구팀은 에이전트 행동에 대한 기대치가 특정 작업과 프로젝트 기간에 따라 어떻게 변화하는지를 보여주는 상황 적응형 행동(CAB) 프레임워크를 제시합니다.
이 프레임워크는 즉각적인 생산 요구 사항부터 장기적인 목표, 일상적인 작업부터 신속한 프로토타이핑에 이르기까지 다양한 요소를 고려하여 인간과 AI 간의 상호 작용에 대한 심층적인 이해를 보여줍니다. 기업용 소프트웨어 엔지니어링 분야에서 그 효과가 입증되었지만, 임베디드 시스템이나 데이터 과학과 같은 다른 분야에서의 활용 가능성을 탐구하고 포괄적인 적용 범위를 강화하기 위해서는 추가적인 연구가 필요합니다.




