이 가이드에서는 텍스트 데이터 수집부터 Transformer 모델 학습, 결과 확인까지 모든 과정을 쉽게 따라할 수 있도록 설명합니다.
"텍스트 분류"는 문장이나 글을 입력하면 AI가 그 내용을 분석하여 미리 정해진 카테고리로 분류하는 모델입니다.
내부적으로 GPT-5와 동일한 토크나이저(o200k_base)와 Transformer 모델을 사용하여 텍스트를 이해하고 분류합니다.
예를 들어, 영화 리뷰 텍스트를 입력하면 "긍정" 또는 "부정"으로 분류하거나, 고객 문의를 "배송", "환불", "제품 문의" 등으로 분류할 수 있습니다.
원인 데이터 (텍스트): 분류할 문장이나 글을 입력하는 열입니다. 최대 200자까지 입력할 수 있습니다.
결과 데이터 (0/1 라벨): 각 텍스트가 어느 카테고리에 속하는지 0 또는 1로 표시합니다. 1은 해당 카테고리에 속함을, 0은 속하지 않음을 나타냅니다.
텍스트(최대 200자)를 입력하면 Transformer 모델이 자동으로 분류합니다.
업로드된 파일명이 표시됩니다.
예: 영화리뷰.xlsx엑셀에서 작성한 텍스트 데이터를 업로드할 수 있습니다. 파일에는 원인(텍스트)과 결과(0/1) 두 개의 시트가 반드시 포함되어야 합니다.
표에서 작업한 내용을 엑셀 파일로 다운로드 받을 수 있습니다.
분류할 텍스트를 입력하는 표입니다. 각 행에 하나의 문장을 입력하며, 최대 200자까지 입력할 수 있습니다.
각 텍스트의 분류 결과를 0 또는 1로 입력하는 표입니다. 열 이름이 곧 분류 카테고리 이름이 됩니다.
행 추가, 삭제 버튼으로 데이터를 추가하거나 삭제할 수 있습니다. 원인 표와 결과 표의 행 수는 항상 동일해야 합니다.
수집된 텍스트 데이터를 기반으로 Transformer AI 모델을 학습시키는 버튼입니다.
학습 과정에서 필요한 다양한 설정을 조정할 수 있습니다.
텍스트(최대 200자)를 입력하면 Transformer 모델이 자동으로 분류합니다.
텍스트 분류 모델을 효과적으로 학습하려면 충분하고 균형 잡힌 텍스트 데이터를 수집하는 것이 중요합니다.
사이트에서 직접 입력
엑셀 파일 활용
텍스트 데이터를 기반으로 Transformer AI 모델이 학습하여 텍스트를 분류하는 과정입니다.
학습은 Web Worker를 통해 백그라운드에서 진행되므로 페이지를 계속 사용할 수 있습니다.
전체 데이터를 몇 번 반복 학습할지 설정합니다. 기본값은 10입니다. 데이터가 많을수록 적은 횟수로도 충분할 수 있습니다.
한 번에 학습할 데이터 수입니다. 기본값은 16입니다. 데이터가 많으면 32~64로 늘려도 됩니다.
모델이 얼마나 빠르게 학습할지 결정합니다. 기본값은 0.0003입니다. Transformer 모델은 너무 높은 학습률(0.001 이상)에서 학습이 불안정해질 수 있으므로 낮게 유지하는 것이 좋습니다.
텍스트를 수치 벡터로 변환할 때의 차원 크기입니다. 기본값은 64입니다. 클수록 표현력이 높아지지만 학습이 느려집니다.
Transformer 블록을 몇 겹 쌓을지 설정합니다. 기본값은 2입니다. 데이터가 적으면 1~2층이 적당합니다.
결과 UI를 보려면 학습하기 버튼을 클릭하세요.
분류할 텍스트를 입력하는 영역입니다. 최대 200자까지 입력할 수 있습니다.
입력한 텍스트가 GPT-5와 동일한 토크나이저(o200k_base)로 어떻게 분리되는지 시각적으로 확인할 수 있습니다.
AI 모델이 입력 텍스트를 각 카테고리로 분류한 확률을 막대 그래프로 보여줍니다.
학습된 모델을 저장하고 공유할 수 있습니다. 저장 후 공유 링크를 통해 다른 사람들도 내 AI 모델을 사용할 수 있습니다.
학습한 텍스트 분류 모델을 Python 환경(Google Colab)에서 직접 실행해볼 수 있습니다.