📘 텍스트 분류 사용 설명서

이 가이드에서는 텍스트 데이터 수집부터 Transformer 모델 학습, 결과 확인까지 모든 과정을 쉽게 따라할 수 있도록 설명합니다.

🖼️ 텍스트 분류 콘텐츠 소개

"텍스트 분류"는 문장이나 글을 입력하면 AI가 그 내용을 분석하여 미리 정해진 카테고리로 분류하는 모델입니다.

내부적으로 GPT-5와 동일한 토크나이저(o200k_base)와 Transformer 모델을 사용하여 텍스트를 이해하고 분류합니다.

예를 들어, 영화 리뷰 텍스트를 입력하면 "긍정" 또는 "부정"으로 분류하거나, 고객 문의를 "배송", "환불", "제품 문의" 등으로 분류할 수 있습니다.

원인 데이터 (텍스트): 분류할 문장이나 글을 입력하는 열입니다. 최대 200자까지 입력할 수 있습니다.

결과 데이터 (0/1 라벨): 각 텍스트가 어느 카테고리에 속하는지 0 또는 1로 표시합니다. 1은 해당 카테고리에 속함을, 0은 속하지 않음을 나타냅니다.

🖥️ UI 컴포넌트 구성 소개

텍스트 데이터를 입력하고 학습하기 버튼을 클릭하면 나만의 텍스트 분류 AI 모델이 만들어집니다.

텍스트 분류

텍스트(최대 200자)를 입력하면 Transformer 모델이 자동으로 분류합니다.

생성 / 다운로드한 엑셀 데이터셋을 업로드하세요.

시트는 "원인"(텍스트), "결과"(0/1) 두 개 탭을 반드시 포함해야 합니다.

원인 표

결과 표

파일명

업로드된 파일명이 표시됩니다.

예: 영화리뷰.xlsx

엑셀 파일 업로드

엑셀에서 작성한 텍스트 데이터를 업로드할 수 있습니다. 파일에는 원인(텍스트)과 결과(0/1) 두 개의 시트가 반드시 포함되어야 합니다.

현재 데이터 다운로드

표에서 작업한 내용을 엑셀 파일로 다운로드 받을 수 있습니다.

원인 표 (텍스트)

분류할 텍스트를 입력하는 표입니다. 각 행에 하나의 문장을 입력하며, 최대 200자까지 입력할 수 있습니다.

결과 표 (0/1 라벨)

각 텍스트의 분류 결과를 0 또는 1로 입력하는 표입니다. 열 이름이 곧 분류 카테고리 이름이 됩니다.

1 = 해당 카테고리에 속함
0 = 해당 카테고리에 속하지 않음
단일 분류: 각 행에서 1이 하나만 있어야 합니다.
다중 분류: 각 행에서 1이 여러 개일 수 있습니다.

행 추가 / 삭제

행 추가, 삭제 버튼으로 데이터를 추가하거나 삭제할 수 있습니다. 원인 표와 결과 표의 행 수는 항상 동일해야 합니다.

학습하기

수집된 텍스트 데이터를 기반으로 Transformer AI 모델을 학습시키는 버튼입니다.

학습 설정

학습 과정에서 필요한 다양한 설정을 조정할 수 있습니다.

텍스트 분류

텍스트(최대 200자)를 입력하면 Transformer 모델이 자동으로 분류합니다.

생성 / 다운로드한 엑셀 데이터셋을 업로드하세요.

시트는 "원인"(텍스트), "결과"(0/1) 두 개 탭을 반드시 포함해야 합니다.

원인 표

결과 표

📸 수집하기

텍스트 분류 모델을 효과적으로 학습하려면 충분하고 균형 잡힌 텍스트 데이터를 수집하는 것이 중요합니다.

하나의 주제 정하기

먼저 분류할 주제를 정합니다. 예를 들어, "영화 리뷰 감성 분류", "스팸 메일 분류", "고객 문의 분류" 등이 있습니다.
분류 카테고리를 결정합니다. (예: 긍정/부정, 스팸/정상 등)
각 카테고리별로 균형 있게 데이터를 수집합니다. 예를 들어 긍정 100개, 부정 100개처럼 비슷한 수의 데이터를 준비합니다.

데이터 입력 방법

사이트에서 직접 입력

원인 표의 텍스트 열에 문장을 직접 입력합니다.
결과 표에 해당 문장의 카테고리를 0/1로 입력합니다.

엑셀 파일 활용

엑셀에서 원인 시트와 결과 시트 두 개를 만듭니다.
원인 시트: 첫 번째 열은 "항목"(번호), 두 번째 열은 "텍스트"(문장)
결과 시트: 첫 번째 열은 "항목"(번호), 이후 열은 각 카테고리 이름 (0 또는 1 값)
작성 완료 후 .xlsx 파일로 저장하여 업로드합니다.

좋은 데이터를 위한 팁

카테고리별로 최소 20개 이상의 데이터를 준비하세요.
문장은 너무 짧거나 너무 길지 않게 작성하세요 (10~200자 권장).
각 카테고리의 데이터 수가 비슷할수록 더 좋은 모델이 만들어집니다.
실제로 구분이 명확한 문장들을 사용할수록 학습 성능이 올라갑니다.

📚 학습하기

텍스트 데이터를 기반으로 Transformer AI 모델이 학습하여 텍스트를 분류하는 과정입니다.

학습은 Web Worker를 통해 백그라운드에서 진행되므로 페이지를 계속 사용할 수 있습니다.

학습 횟수 (Epoch)

전체 데이터를 몇 번 반복 학습할지 설정합니다. 기본값은 10입니다. 데이터가 많을수록 적은 횟수로도 충분할 수 있습니다.

배치 크기 (Batch Size)

한 번에 학습할 데이터 수입니다. 기본값은 16입니다. 데이터가 많으면 32~64로 늘려도 됩니다.

학습률 (Learning Rate)

모델이 얼마나 빠르게 학습할지 결정합니다. 기본값은 0.0003입니다. Transformer 모델은 너무 높은 학습률(0.001 이상)에서 학습이 불안정해질 수 있으므로 낮게 유지하는 것이 좋습니다.

임베딩 차원 (Embed Dim)

텍스트를 수치 벡터로 변환할 때의 차원 크기입니다. 기본값은 64입니다. 클수록 표현력이 높아지지만 학습이 느려집니다.

Transformer 레이어 수 (Layers)

Transformer 블록을 몇 겹 쌓을지 설정합니다. 기본값은 2입니다. 데이터가 적으면 1~2층이 적당합니다.

📈 결과보기

결과 UI를 보려면 학습하기 버튼을 클릭하세요.

입력 텍스트

분류할 텍스트를 입력하는 영역입니다. 최대 200자까지 입력할 수 있습니다.

토크나이징 결과

입력한 텍스트가 GPT-5와 동일한 토크나이저(o200k_base)로 어떻게 분리되는지 시각적으로 확인할 수 있습니다.

예측 결과

AI 모델이 입력 텍스트를 각 카테고리로 분류한 확률을 막대 그래프로 보여줍니다.

저장하기

학습된 모델을 저장하고 공유할 수 있습니다. 저장 후 공유 링크를 통해 다른 사람들도 내 AI 모델을 사용할 수 있습니다.

코랩 보기

학습한 텍스트 분류 모델을 Python 환경(Google Colab)에서 직접 실행해볼 수 있습니다.