상세 컨텐츠

본문 제목

Hugging Face의 Transformers 라이브러리_인코딩, 디코딩

코딩하는코알라/AI

by 룰루랄라코알라 2024. 1. 21. 12:02

본문

우선 이전 글과 같이 이제 Token 이란 개념은 어느정도 알수있다. 

 

여기서는 기본적으로 텍스트를 토큰으로 분리 부터 디코딩 까지 알아볼것이다. 

1. 텍스트를 토큰으로 분리하기

원본 텍스트를 모델이 처리할 수 있는 작은 단위로 토큰화 하는 과정이다. 

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

text = "Hello, world!"
tokens = tokenizer.tokenize(text)
print(tokens)

 

bbu 를 사용해서 분리하면 ['hello', ',', 'world', '!'] 결과가 나올것이다. 

 

2. 토큰을 ID로 변환하기

각 토큰은 모델이 이해할 수 있는 고유한 ID로 변환되어야 합니다. 이 과정을 통해 텍스트 데이터가 모델의 입력으로 사용될 수 있습니다.

input_ids = tokenizer.convert_tokens_to_ids(tokens)
print(input_ids)

3. 인코딩: 토큰화 + ID 변환

tokenizer.encode 함수는 텍스트를 토큰으로 분리하고, 각 토큰을 ID로 변환하는 과정을 수행 

encoded = tokenizer.encode(text)
print(encoded)

4. 디코딩: ID를 텍스트로 변환하기

인코딩된 ID를 다시 텍스트로 변환할 수도 있습니다. 이 과정은 모델의 출력을 사람이 이해할 수 있는 텍스트로 변환

 

decoded = tokenizer.decode(encoded)
print(decoded)

 

반응형

'코딩하는코알라 > AI' 카테고리의 다른 글

AI 학습을 위한 기본지식_선형회귀  (0) 2024.02.01
AI학습을 위한 기본적인 환경세팅  (0) 2024.01.29
Tokenizers ?!  (0) 2024.01.19
Huggingface 모델 사용법!?  (1) 2024.01.19
HuggingFace Transformers 사용 하기  (0) 2024.01.17

관련글 더보기