한국전자통신연구원, LLM 기반 ‘신뢰형 코드 생성’ 기술 공개 C/C 특화 데이터셋으로 품질 향상
임승환 2025-11-10 11:25:36

사진. 한국전자통신연구원

 

한국전자통신연구원(이하 ETRI)이 대규모 언어모델(LLM)을 활용해 소스코드를 자동 생성할 때 기능뿐 아니라 안정성·보안성 등 품질 요소까지 보장하는 핵심 기술을 개발했다고 지난 10월 29일(수) 서울 엘타워에서 열린 ‘PULSE 코드 자동화 오픈소스 기술 워크샵’에서 공개했다.

 

연구진은 기존 AI 코드 생성이 기능 구현에만 치중해 보안 취약점, 논리 오류, 유지보수성 저하 등 문제를 노출하던 한계를 극복하기 위해 구조적 코드 생성 기술을 제시했다. 이 기술은 자연어 요구사항을 단순 기능으로 번역하는 수준을 넘어 입력 검증, 예외 처리, 계정 잠금과 같은 품질 관리 요소를 자동으로 반영하는 방식으로 동작한다. 파일 처리 등 성능이 중요한 영역에서는 대용량 데이터 처리 효율과 메모리 관리 같은 비기능 요구사항이 코드 설계 단계부터 고려된다.

 

이번 연구는 AI·소프트웨어공학(SE)·프로그래밍언어(PL) 분야의 융합을 통해 진행됐으며, 서울대학교 연구진도 공동 참여했다. ETRI는 특히 C/C++ 언어에 특화된 대규모 학습 데이터셋을 자체 구축해 AI 코드 생성의 한계를 보완했다고 밝혔다. C/C++은 운영체제·반도체·임베디드 시스템 등 산업 핵심 분야에서 널리 쓰이나 학습용 데이터 부족으로 성능이 떨어지는 문제가 있었다.

 

연구진은 코드 수집에서 품질 평가, 명세 생성에 이르는 전 과정을 자동화한 데이터 구축 시스템을 개발해 약 4만 건의 고품질 C/C++ 특화 훈련 데이터셋을 확보했다. 확보된 데이터셋을 최신 AI 모델 4종에 적용한 결과 모든 모델에서 코드 품질이 향상됐으며, 훈련 데이터의 품질과 양이 AI 기반 코드 생성의 핵심 요인임을 입증했다.

 

ETRI는 워크샵에서 ▲오토코딩 공통 인프라 ▲프롬프트 최적화 기술 ▲C/C++ 데이터셋 구축 과정 ▲AI 모델 성능 개선 결과 등을 직접 소개했다. 아울러 범용 소프트웨어 개발을 넘어 로봇 제어, 차량용 소프트웨어 자동화 등 산업 도메인 특화 서비스로 기술을 확장하는 전략을 제시하고, 관련 기술 일부를 연구원 깃허브(GitHub)로 오픈소스로 공개했다고 전했다.

 

ETRI는 이번 과제를 통해 SCI급 논문 5편, ACL 등 국제 우수학술대회 논문 20편, 국내·외 특허 출원 11건, 기술이전 2건 등의 성과를 달성했다고 밝혔다. 또한 현재 국내 주요 기업들과 PoC(개념검증) 협력을 추진 중이며 향후 3~4년 내 상용화를 목표로 하고 있다.

 

ETRI 정영준 온디바이스AI연구본부장은 “향후 산업 현장에서 실제 검증을 거쳐 다양한 프로그래밍 언어와 산업 특화 영역으로 기술을 확대 적용할 계획이다”라며 “이를 통해 국내 소프트웨어 개발 생태계의 경쟁력 강화에 크게 기여할 것으로 기대된다”라고 말했다.

 

이번 연구는 과학기술정보통신부와 정보통신기획평가원(IITP)의 ‘자연어로 기술된 요구사항에서 전문 개발자 수준의 고품질 코드를 자동 생성하는 기술 개발’ 과제의 지원을 받아 수행됐다.

디지털여기에 news@yeogie.com <저작권자 @ 여기에. 무단전재 - 재배포금지>