DOSSIER №001 · WE-Meet 1st SEOUL · KR · 2025-2026

AI가 똑똑한 건 알겠는데, 내 과제는 잘 도와주나?

한국 대학생을 위한 AI 모델 벤치마크. 기존 벤치마크가 측정하지 못하는 "학생에게 실제로 도움이 되는가"를 평가하고, 내 상황에 맞는 적정 비용 · 적정 성능의 AI를 선택할 수 있도록 돕는다.

Program
SNU WE-Meet 1st Cohort
Host
SoonsoonFactory
Tracks
Academic · Learning Assistant
Stack
SAM Platform · Python · GH Actions
Status
collecting problems

두 가지 질문에서 출발한다.

Question · 01

이 AI는 대학 수준의 과제·프로젝트·논문에 실제로 도움이 되는가?

Question · 02

이 AI는 학생이 스스로 배우고 성장하도록 잘 지도하는가?

M/01

학생 중심 평가

"얼마나 똑똑한가"가 아니라 "나한테 얼마나 도움이 되는가"를 측정한다.

M/02

적정 비용, 적정 성능

가장 비싼 모델이 항상 최선은 아니다. 내 상황에 맞는 가성비 최선을 찾는다.

M/03

SAM으로 실증 검증

공개 벤치마크 점수와 실제 학생 체감의 괴리를 직접 비교하여 밝힌다.

M/04

학생이 만드는 공공재

내가 어려웠던 문제가 벤치마크에 반영되어 다른 학생에게도 도움이 된다.

M/05

한국 교육 맥락

한국어 학술 문체, 한국 교재, 한국 학생이 실제로 묻는 방식을 담는다.

M/06

살아있는 데이터셋

매 학기 새 문제가 유입되며 시대와 교육과정에 맞춰 진화한다.

기존 벤치마크는 비어있다.

난이도 스펙트럼 위에서 "학부 2~4학년" 구간이 구조적으로 비어 있다. 고등학교 문제와 PhD 연구 사이 — 학생들의 실제 학습 현장은 누구도 측정하지 않는다.

벤치마크 난이도 스펙트럼 — 학부 구간이 비어있음을 보여주는 일러스트

The Missing Gap

학부 수준의 벤치마크는 존재하지 않는다.

01

객관식만 있다.

실제 과제는 서술형·코딩 프로젝트·레포트인데 벤치마크는 4지선다 정답 고르기뿐이다.

02

답만 채점한다.

학생은 단계별 풀이와 설명을 원하는데, 벤치마크는 최종 답이 맞으면 끝이다.

03

영어뿐이다.

한국어 학술 문체와 한국 교재 맥락은 어떤 벤치마크도 측정하지 않는다.

04

"도움"을 안 묻는다.

맞는 답 ≠ 도움이 되는 답. 설명력·참고자료·오류 인정은 아무도 측정하지 않는다.

두 개의 트랙, 한 개의 질문.

학생에게 도움이 된다는 것은 두 차원에서 측정된다 — 결과물(Outcome)과 과정(Process).

Track / 01 NOW RECORDING

Academic Task Benchmark

대학 실전 과제 벤치마크

"이 AI는 내 과제에 쓸 수 있나?"

Outcome-Oriented
  • 전공 문제 풀이 정확도
  • 풀이 과정 설명력
  • 코딩 과제 해결력
  • 논문 요약·구조화
  • 레포트 작성 보조
  • 한국어 학술 문체
Track / 02 NEXT PHASE

Learning Assistant Benchmark

학습 어시스턴트 벤치마크

"이 AI는 내가 더 잘 배우게 도와주나?"

Process-Oriented
  • 개념을 쉽게 설명하는 능력
  • 수준에 맞춰 조절하는 능력
  • 스스로 생각하게 유도
  • 힌트 제공 (과도한 정답 방지)
  • 학습 계획 수립
  • 동기부여와 피드백

Score Architecture

Student Helpfulness Score 학생 도움도 종합 점수
Academic Task Score 대학 실전 도움 점수
Learning Assistant Score 학습 지도 도움 점수

SAM이란 무엇인가.

SAM(Smart AI Multiplexer)은 순순팩토리가 개발한 AI 라우팅 플랫폼이다. 단일 API로 GPT, Claude, Gemini, DeepSeek 등 30개 이상의 AI 모델을 호출하고, 목적·비용·성능에 따라 최적 모델을 자동으로 선택한다.

본 프로젝트는 SAM을 통해 모든 벤치마크 평가를 실행한다. 동일한 문제를 동일한 조건으로 여러 모델에 동시 제출하고, 결과를 비교·분석하는 것이 가능하다.

SAM 플랫폼 방문 ↗
F/01

단일 API, 30+ 모델

GPT · Claude · Gemini · DeepSeek · Kimi 등 주요 모델을 하나의 엔드포인트로 호출

F/02

자동 라우팅

요청의 성격(코딩·추론·창작)과 예산에 따라 최적 모델을 자동 선택

F/03

실시간 모델 랭킹

공개 벤치마크 기반 OVR·Chat·Code·Reason 점수를 지속 업데이트

F/04

비용 투명성

모델별 입력/출력 토큰 단가를 실시간 비교 — 학생 예산에 맞는 선택 가능

30+ Models
1 API Endpoint
4 Score Dimensions
실시간 Price Comparison

SAM 랭킹과 실제 체감의 괴리.

순순팩토리의 AI 라우팅 서비스 SAM을 통해 현존하는 대부분의 AI API를 직접 호출·평가한다. SAM에는 이미 공개 벤치마크 기반 랭킹이 존재하며, 우리는 그 점수와 학부 학생의 실제 체감 사이의 괴리를 측정한다.

30+ Models accessible via single API
# Model OVR Chat Code Reason Price / M tok
01 Claude Opus 4.7 94.0959693 $5.5 / 27.5
02 GPT-5.4 Pro 92.7949496 $15 / 120
04 Gemini 3.1 Pro 90.8949093 $2 / 12
07 Kimi K2.6 84.0879375 $0.6 / 2.5
10 DeepSeek V4 Flash 72.7777865 $0.14 / 0.28
12 DeepSeek V3.2 68.6727361 $0.62 / 1.85
SAM Platform 랭킹 기준 마지막 업데이트: 2025년 5월 12일 · sam.soonsoon.ai에서 최신 데이터 확인 ↗

Probe / 01

OVR 94점 모델이 정말 학부 과제에서도 1등인가?

Probe / 02

$0.14 모델이 간단한 과제에는 충분하지 않은가?

Probe / 03

CODE 93점이 실제 학부 코딩 과제에서도 그만큼 좋은가?

Core Question

내 상황에서 어떤 모델이 가성비 최선인가?

Student's first principle

자신의 목적에 맞는 리소스를 선택하여 '적절'한 비용으로 공부 및 연구를 할 수 있는가.

서울대학교 WE-Meet

WE-Meet 산학연계 프로그램 — 멘토와 학생이 함께 연구하는 장면

위밋(WE-Meet)은 기업과 대학이 협력하여 학생들이 실제 산업 현장의 문제를 해결하며 실무 역량을 기르고 학점을 인정받는 산학연계 프로젝트다.

Format
기업 재직자 멘토링 + 팀 프로젝트 수행 → 성과 평가(S/U)
Features
정규 교과목 학점 인정, 실무 멘토링, 산업 현장 문제 해결
Domains
차세대반도체 · 빅데이터 · 그린바이오 · AI
This Project
순순팩토리 × 서울대 — AI 활용 멘토링 및 SAM 서비스 연구 개선

1기 참여자.

멘토 1인 + 학생 연구원 2인. 모든 기록은 GitHub 이슈와 PR로 공개되며, 코호트 종료 시점에 데이터셋과 결과를 공개 벤치마크로 발표한다.

Mentor Lead · 01
송용성 프로필 01/03 · MENTOR

송용성 Song Yongsung

순순팩토리 대표

강원대학교 AI콘텐츠공학과 겸임교수

AI 서비스 개발 및 운영 경험을 바탕으로 학생들에게 실무 관점의 AI 활용 멘토링을 제공한다. SAM 플랫폼 개발을 주도하며, 본 프로젝트의 기술 자문과 방향 설정을 담당한다.

Student Researcher Cohort · 01
02/03 · STUDENT SNU · CSE · Y2

김태운 Kim Taewoon

서울대학교 컴퓨터공학과 2학년

Track — Academic Coding

벤치마크 조사, 실행 스크립트 개발, 코딩 카테고리 문제 설계를 담당한다.

Student Researcher Cohort · 01
03/03 · STUDENT SNU · MATSE · Y2

김호윤 Kim Hoyoon

서울대학교 재료공학과 2학년

Track — STEM / Visualization

벤치마크 조사, 이공계 문제 설계, 결과 분석 및 시각화를 담당한다.