태그: benchmark
다음 태그가 달린 모든 글: "benchmark"
-
AI 코딩 벤치마크의 새 기준: FrontierCode가 묻는 질문
테스트 통과율이 아니라 '메인테이너가 이 PR을 머지할 것인가'를 묻는 Cognition의 새 벤치마크 FrontierCode. Diamond 티어에서 1위 모델도 13.4%에 그친 이유와, 돌아가는 코드와 머지 가능한 코드의 간극을 짚어본다.
다음 태그가 달린 모든 글: "benchmark"
테스트 통과율이 아니라 '메인테이너가 이 PR을 머지할 것인가'를 묻는 Cognition의 새 벤치마크 FrontierCode. Diamond 티어에서 1위 모델도 13.4%에 그친 이유와, 돌아가는 코드와 머지 가능한 코드의 간극을 짚어본다.