우선 이전 글과 같이 이제 Token 이란 개념은 어느정도 알수있다.
여기서는 기본적으로 텍스트를 토큰으로 분리 부터 디코딩 까지 알아볼것이다.
원본 텍스트를 모델이 처리할 수 있는 작은 단위로 토큰화 하는 과정이다.
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
text = "Hello, world!"
tokens = tokenizer.tokenize(text)
print(tokens)
bbu 를 사용해서 분리하면 ['hello', ',', 'world', '!'] 결과가 나올것이다.
각 토큰은 모델이 이해할 수 있는 고유한 ID로 변환되어야 합니다. 이 과정을 통해 텍스트 데이터가 모델의 입력으로 사용될 수 있습니다.
input_ids = tokenizer.convert_tokens_to_ids(tokens)
print(input_ids)
tokenizer.encode 함수는 텍스트를 토큰으로 분리하고, 각 토큰을 ID로 변환하는 과정을 수행
encoded = tokenizer.encode(text)
print(encoded)
인코딩된 ID를 다시 텍스트로 변환할 수도 있습니다. 이 과정은 모델의 출력을 사람이 이해할 수 있는 텍스트로 변환
decoded = tokenizer.decode(encoded)
print(decoded)
AI 학습을 위한 기본지식_선형회귀 (0) | 2024.02.01 |
---|---|
AI학습을 위한 기본적인 환경세팅 (0) | 2024.01.29 |
Tokenizers ?! (0) | 2024.01.19 |
Huggingface 모델 사용법!? (1) | 2024.01.19 |
HuggingFace Transformers 사용 하기 (0) | 2024.01.17 |