📘 텍스트 분류 사용 설명서

이 가이드에서는 텍스트 데이터 수집부터 Transformer 모델 학습, 결과 확인까지 모든 과정을 쉽게 따라할 수 있도록 설명합니다.

🖼️ 텍스트 분류 콘텐츠 소개

"텍스트 분류"는 문장이나 글을 입력하면 AI가 그 내용을 분석하여 미리 정해진 카테고리로 분류하는 모델입니다.

내부적으로 GPT-5와 동일한 토크나이저(o200k_base) Transformer 모델을 사용하여 텍스트를 이해하고 분류합니다.

예를 들어, 영화 리뷰 텍스트를 입력하면 "긍정" 또는 "부정"으로 분류하거나, 고객 문의를 "배송", "환불", "제품 문의" 등으로 분류할 수 있습니다.

원인 데이터 (텍스트): 분류할 문장이나 글을 입력하는 열입니다. 최대 200자까지 입력할 수 있습니다.

결과 데이터 (0/1 라벨): 각 텍스트가 어느 카테고리에 속하는지 0 또는 1로 표시합니다. 1은 해당 카테고리에 속함을, 0은 속하지 않음을 나타냅니다.

🖥️ UI 컴포넌트 구성 소개

텍스트 데이터를 입력하고 학습하기 버튼을 클릭하면 나만의 텍스트 분류 AI 모델이 만들어집니다.

텍스트 분류

텍스트(최대 200자)를 입력하면 Transformer 모델이 자동으로 분류합니다.

생성 / 다운로드한 엑셀 데이터셋을 업로드하세요.
시트는 "원인"(텍스트), "결과"(0/1) 두 개 탭을 반드시 포함해야 합니다.
원인 표
결과 표

파일명

업로드된 파일명이 표시됩니다.

예: 영화리뷰.xlsx

엑셀 파일 업로드

엑셀에서 작성한 텍스트 데이터를 업로드할 수 있습니다. 파일에는 원인(텍스트)과 결과(0/1) 두 개의 시트가 반드시 포함되어야 합니다.

현재 데이터 다운로드

표에서 작업한 내용을 엑셀 파일로 다운로드 받을 수 있습니다.

원인 표 (텍스트)

분류할 텍스트를 입력하는 표입니다. 각 행에 하나의 문장을 입력하며, 최대 200자까지 입력할 수 있습니다.

결과 표 (0/1 라벨)

각 텍스트의 분류 결과를 0 또는 1로 입력하는 표입니다. 열 이름이 곧 분류 카테고리 이름이 됩니다.

  • 1 = 해당 카테고리에 속함
  • 0 = 해당 카테고리에 속하지 않음
  • 단일 분류: 각 행에서 1이 하나만 있어야 합니다.
  • 다중 분류: 각 행에서 1이 여러 개일 수 있습니다.

행 추가 / 삭제

행 추가, 삭제 버튼으로 데이터를 추가하거나 삭제할 수 있습니다. 원인 표와 결과 표의 행 수는 항상 동일해야 합니다.

학습하기

수집된 텍스트 데이터를 기반으로 Transformer AI 모델을 학습시키는 버튼입니다.

학습 설정

학습 과정에서 필요한 다양한 설정을 조정할 수 있습니다.

텍스트 분류

텍스트(최대 200자)를 입력하면 Transformer 모델이 자동으로 분류합니다.

생성 / 다운로드한 엑셀 데이터셋을 업로드하세요.
시트는 "원인"(텍스트), "결과"(0/1) 두 개 탭을 반드시 포함해야 합니다.
원인 표
결과 표

📸 수집하기

텍스트 분류 모델을 효과적으로 학습하려면 충분하고 균형 잡힌 텍스트 데이터를 수집하는 것이 중요합니다.

하나의 주제 정하기

  • 먼저 분류할 주제를 정합니다. 예를 들어, "영화 리뷰 감성 분류", "스팸 메일 분류", "고객 문의 분류" 등이 있습니다.
  • 분류 카테고리를 결정합니다. (예: 긍정/부정, 스팸/정상 등)
  • 각 카테고리별로 균형 있게 데이터를 수집합니다. 예를 들어 긍정 100개, 부정 100개처럼 비슷한 수의 데이터를 준비합니다.

데이터 입력 방법

사이트에서 직접 입력

  • 원인 표의 텍스트 열에 문장을 직접 입력합니다.
  • 결과 표에 해당 문장의 카테고리를 0/1로 입력합니다.

엑셀 파일 활용

  • 엑셀에서 원인 시트와 결과 시트 두 개를 만듭니다.
  • 원인 시트: 첫 번째 열은 "항목"(번호), 두 번째 열은 "텍스트"(문장)
  • 결과 시트: 첫 번째 열은 "항목"(번호), 이후 열은 각 카테고리 이름 (0 또는 1 값)
  • 작성 완료 후 .xlsx 파일로 저장하여 업로드합니다.

좋은 데이터를 위한 팁

  • 카테고리별로 최소 20개 이상의 데이터를 준비하세요.
  • 문장은 너무 짧거나 너무 길지 않게 작성하세요 (10~200자 권장).
  • 각 카테고리의 데이터 수가 비슷할수록 더 좋은 모델이 만들어집니다.
  • 실제로 구분이 명확한 문장들을 사용할수록 학습 성능이 올라갑니다.

📚 학습하기

텍스트 데이터를 기반으로 Transformer AI 모델이 학습하여 텍스트를 분류하는 과정입니다.

학습은 Web Worker를 통해 백그라운드에서 진행되므로 페이지를 계속 사용할 수 있습니다.

학습 횟수 (Epoch)

전체 데이터를 몇 번 반복 학습할지 설정합니다. 기본값은 10입니다. 데이터가 많을수록 적은 횟수로도 충분할 수 있습니다.

배치 크기 (Batch Size)

한 번에 학습할 데이터 수입니다. 기본값은 16입니다. 데이터가 많으면 32~64로 늘려도 됩니다.

학습률 (Learning Rate)

모델이 얼마나 빠르게 학습할지 결정합니다. 기본값은 0.0003입니다. Transformer 모델은 너무 높은 학습률(0.001 이상)에서 학습이 불안정해질 수 있으므로 낮게 유지하는 것이 좋습니다.

임베딩 차원 (Embed Dim)

텍스트를 수치 벡터로 변환할 때의 차원 크기입니다. 기본값은 64입니다. 클수록 표현력이 높아지지만 학습이 느려집니다.

Transformer 레이어 수 (Layers)

Transformer 블록을 몇 겹 쌓을지 설정합니다. 기본값은 2입니다. 데이터가 적으면 1~2층이 적당합니다.

📈 결과보기

결과 UI를 보려면 학습하기 버튼을 클릭하세요.

입력 텍스트

분류할 텍스트를 입력하는 영역입니다. 최대 200자까지 입력할 수 있습니다.

토크나이징 결과

입력한 텍스트가 GPT-5와 동일한 토크나이저(o200k_base)로 어떻게 분리되는지 시각적으로 확인할 수 있습니다.

예측 결과

AI 모델이 입력 텍스트를 각 카테고리로 분류한 확률을 막대 그래프로 보여줍니다.

저장하기

학습된 모델을 저장하고 공유할 수 있습니다. 저장 후 공유 링크를 통해 다른 사람들도 내 AI 모델을 사용할 수 있습니다.

코랩 보기

학습한 텍스트 분류 모델을 Python 환경(Google Colab)에서 직접 실행해볼 수 있습니다.