8월, 2022의 게시물 표시

From In-context learning to RLHF (Feat. ChatGPT)

이미지
TL;DR 거시적인 발전 과정 : In-context Learning -> Instruction Tuning -> RLHF -> RLAIF In-Context Learning은 Large Scale 언어모델을 tuning하지 않고 새로운 task에 적용할 수 있는 직관적인 방법을 제시함 Instruction Tuning은 다양한 task를 Instruction + example의 템플릿으로 캐스팅하여 Implicit하게 multi-task로 tuning하며 결과적으로 Unseen Task를 더 잘 수행함  RLHF는 인간의 선호도라는 애매한 척도를 모델링하는 Reward Model과 강화 학습을 활용하여 언어 모델을 개선하는 방법을 제시함 RLAIF는 Human Labeling Cost를 없애고 RLHF에서 추가적으로 helpfulness와 harmlessness를 모두 개선할 수 있는 자동화된 파이프라인을 제시함  In-Context Learning & Instruction Tuning 오늘은 요즘 핫한 ChatGPT와 관련된 이야기를 하려고 한다. 바로 zero-shot의 가능성을 보여준 In-context Learning의 시작과 그것을 더 개선시킨 Instruction Tuning, 마지막으로 화룡정점을 찍은 Reinforcement Learning From Human Feedback에 대한 내용이다. 이후 Anthropic에서 RLHF를 시스템적으로 개선한 RLAIF라는 방식을 추가적으로 제안하기도 했다.  In-context Learning In-context learning은 GPT3 에서 소개되면서 pretraining-finetuning paradigm의 대안을 제시했다. 언어모델이 충분히 크고(도표에 의하면 6B 이상) 다량의 corpus로 학습했다면 사람의 자연어 instruction을 이해하고 바람직한(의도에 맞는) 텍스트를 생성할 수 있는 능력을 가지고 있다는 것이다. 예를 들어 언어모델을 QA 태스크에 명시적으

lassl을 이용한 언어모델 사전학습 (Feat. T5, UL2)

이미지
업데이트 [22/10/4] 모두의말뭉치 + alpha로 학습한 KoUL2 모델을 huggingface hub 에 릴리즈했습니다! ---------------------------------------- 이 포스트에서는 lassl 오픈소스를 사용해서 실제로 한국어 코퍼스를 활용한 사전학습 모델을 만드는 법을 다룹니다. 제가 참여해서 구현한 T5와 UL2의 구현 방식, 고민한 내용들을 공유하고자 합니다. Lassl 소스코드는 여기 에서 확인하실 수 있습니다. TFRC 프로그램 소개 및 신청하기 1. 다음 사이트에 가서 TRC 프로그램의 form을 작성하고 신청합니다.  https://sites.research.google/trc/about/  2.  며칠 지나면 다음과 같은 메일이 옵니다. 3. console.cloud.google.com에서 프로젝트를 생성한 뒤 그 프로젝트 ID를 메일 내 링크를 통해 입력하면 됩니다. 그러면 다음과 같은 승인 메일이 며칠 내에 옵니다. 4. 이제 TPU instance를 무료로 사용할 수 있습니다! GCP TPU 인스턴스와 디스크 만들기 1. 첫 번째 단계로 gcloud cli를 설치해야 합니다. 해당 내용은 플랫폼 별로 자세하게 설명되어 있으니 여기 를 참조해주세요. 다만 아래에 설명하는 명령어들은 Unix 계열이기 때문에 Window를 사용하시는 경우 WSL이나 도커를 활용하시는 것이 따라하시기 편할 것 같습니다. 2. 다음 명령어로 디스크와 tpu 인스턴스를 생성합니다. 디스크는 선택사항이지만 편하게 쓰려면 붙이시면 좋습니다. 사용 시 경험상 매일 1000원 안팎으로 청구됩니다. 다만 기본 인스턴스에도 100GB가 있기 때문에 잘 아껴 쓰면 디스크를 붙이지 않아도 됩니다.  export GCP_DISK_NAME=lassl-disk export GCP_INSTANCE_NAME=lassl-tpu export GCP_PROJECT=<your_project_id> # i.e. fast-cascade-123456 exp