Hugging Face의 Transformers 라이브러리

Hugging Face의 Transformers 라이브러리_인코딩, 디코딩

by 룰루랄라코알라 2024. 1. 21. 12:02

우선 이전 글과 같이 이제 Token 이란 개념은 어느정도 알수있다.

여기서는 기본적으로 텍스트를 토큰으로 분리 부터 디코딩 까지 알아볼것이다.

1. 텍스트를 토큰으로 분리하기

원본 텍스트를 모델이 처리할 수 있는 작은 단위로 토큰화 하는 과정이다.

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

text = "Hello, world!"
tokens = tokenizer.tokenize(text)
print(tokens)

bbu 를 사용해서 분리하면 ['hello', ',', 'world', '!'] 결과가 나올것이다.

2. 토큰을 ID로 변환하기

각 토큰은 모델이 이해할 수 있는 고유한 ID로 변환되어야 합니다. 이 과정을 통해 텍스트 데이터가 모델의 입력으로 사용될 수 있습니다.

input_ids = tokenizer.convert_tokens_to_ids(tokens)
print(input_ids)

3. 인코딩: 토큰화 + ID 변환

tokenizer.encode 함수는 텍스트를 토큰으로 분리하고, 각 토큰을 ID로 변환하는 과정을 수행

encoded = tokenizer.encode(text)
print(encoded)

4. 디코딩: ID를 텍스트로 변환하기

인코딩된 ID를 다시 텍스트로 변환할 수도 있습니다. 이 과정은 모델의 출력을 사람이 이해할 수 있는 텍스트로 변환

decoded = tokenizer.decode(encoded)
print(decoded)

'코딩하는코알라 > AI' 카테고리의 다른 글

AI 학습을 위한 기본지식_선형회귀 (0)	2024.02.01
AI학습을 위한 기본적인 환경세팅 (0)	2024.01.29
Tokenizers ?! (0)	2024.01.19
Huggingface 모델 사용법!? (1)	2024.01.19
HuggingFace Transformers 사용 하기 (0)	2024.01.17

심심한코알라

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

1. 텍스트를 토큰으로 분리하기

2. 토큰을 ID로 변환하기

3. 인코딩: 토큰화 + ID 변환

4. 디코딩: ID를 텍스트로 변환하기

'코딩하는코알라 > AI' 카테고리의 다른 글

관련글 더보기

추가 정보

인기글

최신글

티스토리툴바