OpenAI, CriticGPT 출시: GPT-4 출력에서 코드 오류를 발견하도록 훈련된 모델
2024년 7월 1일, OpenAI는 GPT-4를 기반으로 한 새로운 모델 CriticGPT를 발표했습니다. 이 모델은 “인간 트레이너가 인간 피드백(RLHF)으로부터 강화 학습 중에 실수를 발견할 수 있도록 ChatGPT 응답에 대한 비평을 작성”하도록 설계되었습니다.
OpenAI on X는 GPT-4 코드의 버그를 잡아내기 위해 모델 CriticGPT를 훈련시켰습니다. 이러한 모델을 RLHF 정렬 파이프라인에 통합하여 인간이 어려운 작업에서 AI를 감독할 수 있도록 지원하고 있습니다.”라고 설명합니다.
개발자 포럼인 스택 오버플로에서 “정확성, 일관성, 포괄성, 간결성”에 대해 ChatGPT를 평가한 결과 응답의 52%가 틀렸다고 답했습니다. 이 연구는 퍼듀 대학교의 연구원들이 코드에 대한 ChatGPT의 응답을 테스트한 것입니다. 그러나 연구진은 겉으로 보기에 “명료한” ChatGPT의 응답이 어디에서 실수를 범했는지 파악하기 어렵다는 사실을 발견했습니다.
CriticGPT는 OpenAI의 인간 트레이너가 “ChatGPT 코드 출력의 오류”를 찾아내는 데 도움을 줄 것입니다. OpenAI에 따르면, CriticGPT로 검토된 코드는 검토되지 않은 코드보다 60% 더 나은 성능을 발휘할 수 있다고 합니다. OpenAI는 블로그 게시물에서 “사람들이 CriticGPT의 도움을 받아 ChatGPT 코드를 검토할 때, 도움을 받지 않은 코드보다 60% 더 나은 성능을 보인다는 사실을 발견했습니다.”라고 말했습니다.
현재 OpenAI는 특정 AI 트레이너에게만 CriticGPT에 대한 액세스를 제한하고 있습니다. 이는 ChatGPT에서 생성된 응답을 평가하는 사람이 평가의 정확성을 보장하기 위해 인간의 피드백을 통한 강화 학습(RLHF)을 사용하는 CriticGPT의 지원을 받게 될 것임을 의미합니다. OpenAI는 CriticGPT가 인간 AI에게 제공되어 “사람이 혼자서 ChatGPT 답변을 검토할 때보다 더 포괄적인 비평을 하고 모델이 혼자 작업할 때보다 환각적인 버그가 줄어든다”고 말했습니다. 이 회사는 AI 모델이 더 발전할수록 AI 트레이너가 부정확한 답변을 발견하기가 더 어려워질 것이라는 점을 인정합니다.
더 큰 문제는 모델을 의도한 목표에 맞게 조정하는 것이 더 어려워질 수 있다는 점입니다. 이러한 모델은 점차 피드백을 제공할 수 있는 사람보다 더 많은 지식을 갖추게 되므로 이는 어려운 일이 될 것입니다.
CriticGPT의 작동을 설명하는 논문의 공동 저자 중 한 명인 Jane Lieke. 라이크는 지난 5월 개인 정보 보호 문제로 OpenAI를 그만두었는데, 당시 회사는 ChatGPT의 한계를 인정했습니다.
“이 논문이 공개되어 매우 기쁩니다. 우리는 LLM 비평가에게 코드의 버그를 찾도록 훈련시켰고, 이를 통해 사람이 아니면 놓쳤을 실제 프로덕션 작업에서 결함을 발견하는 데 도움이 됩니다. 확장 가능한 감독에 대한 유망한 신호입니다.”라고 Leike는 X 포스트에서 말했습니다.
OpenAI는 CriticGPT가 답변의 여러 섹션에 걸쳐 실제 오류를 분산시킬 수 있으며, 매우 복잡한 작업이나 답변을 평가할 수 없다는 점을 지적했습니다. 이 새로운 AI 모델은 인간 트레이너가 GPT-4를 위한 향상된 RLHF 데이터를 생성하는 데 도움이 될 것이며, OpenAI는 이 이니셔티브를 더욱 확장할 계획이라고 밝혔습니다.