Research

ChatGPT는 실험에 불과, Attention mechanism도 데이터셋 특화된 계산법에 불과

지난해 11월 말에 ChatGPT가 출시되고 2개월만에 사용자가 1억명을 넘었다는 보도가 있었다. 이제 만 2개월이 좀 더 지난 시점인데, 수익화를 위해서 개발사인 OpenAI가 서두르는 것을 보면서, 게임 이상으로 현실 서비스를 뜯어 고칠 수 있을까는 의문을 던져봤다. 한 언론사 기자 지원을 했던 학생이 ChatGPT에서 정보를 얻어 기사 샘플을 작성했다며 제출했단다. 솔직히 밝혀줘서 고맙다면서 글을 읽어본 경력직 기자 분은 ‘XX위키 베꼈네요?’라고…

ChatGPT 시리즈 – ⑤’인간 피드백형 강화학습(RLwHF)’과 대형언어모델(LLM)의 미래

ChatGPT에 맞서 구글에서 Bard라는 LaMDA 기반의 대형언어모델(LLM) 모델을 내놨다. 이미 오래전부터 나왔던 이야기고, 모델 자체가 데이터 물량에 크게 의존하는만큼, 세계 최대 검색엔진을 갖고 있는 구글이 유사한 서비스를 못 내놓을 것이라는 생각은 하지 않았었다. 아직 준비 중이었을텐데, 워낙 ChatGPT가 여론의 관심을 받으니 출시일을 좀 앞당긴 것 같은데, 제임스 우주 웹 망원경(JWST)에 대한 설명 중에, 태양계 밖에서 우리 지구의…

20230207 13

ChatGPT 시리즈 – ④’인간 피드백형 강화학습(RLwHF)’과 GPT-3.5

ChatGPT의 모델 자체는 기존의 강화학습 모델들과 큰 차이가 없다. ChatGPT 측에서 직접 공개한 홈페이지 상의 설명이나, 공개된 논문에서도 기존의 강화학습을 일부 변형해 보상(Reward)를 주는 방식을 인간의 피드백으로 대체했다는 점을 지적하고, 해당 부분의 효과를 설명하는 실험으로 가득찬 전형적인 공학 논문이다. 위의 2번 식에서 볼 수 있듯, 기존의 강화학습(Reinforcement Learning, RL)을 놓고, Supervised Fine-Tuning(SFT)라는 작은 모델로 보정하는 작업을 거친다. SFT는…

20230207 11

ChatGPT 시리즈 – ③’인간 피드백형 강화학습(RLwHF)’의 한계

자, 이제 이 시리즈 글의 가장 본질적인 목적으로 돌아와보자. 그간 강화학습이라는 모델과 인간 피드백형 강화학습이 구성되는 논리를 이해했다면 굳이 ‘실험’에 의존하지 않고도 어떤 데이터와 어떤 목적일 때 RLHF가 효과적일 수 있을지 가늠이 될테니, 논리부터 한번 정리해보자. 8.RLHF로 할 수 있는 것과 할 수 없는 것 일반에 ‘강화학습’으로 알려진 계산법은, 고교 시절에 봤던 미분 최적화 + 수열의…

20230207 10

ChatGPT 시리즈 – ②’인간 피드백형 강화학습(RLwHF)’의 장점

가치함수를 정의하고 벨만 방정식을 풀어내는데까지는 우리가 수식을 찾아낼 수 있다고 가정했다. 근데, 현실적으로 우리가 수식을 알고 있는 경우는 과연 얼마나 될까? 사실 수식을 알아낼 수 있는 학문의 영역은 일부에 지나지 않는다. 그리고, 계산법을 배우는 것이 힘들지는 몰라도 배우고 나면 문제를 풀어내는 것은 전혀 어려운 일이 아니다. 계산기가 풀어줄 수도 있는만큼, 문제를 풀어내느냐 여부는 문제를 수식으로…

20230207 9

ChatGPT 시리즈 – ①강화학습(RL)과 ‘인간 피드백형 강화학습(RLwHF)’

요즘 ChatGPT가 엄청나게 많은 일을 할 수 있다며 말들이 많다. 모델을 봤을 때는 지난 2017년에 알파고가 나왔던 시절처럼 몇 가지 할 수 있는 것들만 말이 나오고는 Hype이 끝날 것 같은데, 몇 개의 시리즈 글로 ChatGPT가 왜 대단한지, 그럼에도 불구하고 뭔가 엄청난 일을 할 수 있는건 아닌지를 지적해 볼까 한다. ChatGPT의 명성을 이용하기 위해 그럴듯하게 자기네 회사 시스템을…

Close Up Photography of Pills

[논문이야기] 우리나라 제약업은 연구개발 중심일까 카피약 판매 중심일까? ③

가격 경쟁 구도 변화와 시장 점유율 구도 변화에서 핵심 논리는 산업별로 특이한 내재매몰비용이 있을 경우, 해당 비용에 대한 투입이 얼마나 많이 이뤄지느냐에 따라 상품의 품질에 영향을 받고, 결국 가격 경쟁 구도와 시장 점유율 구도가 변화한다는 논리가 아래에 깔려있다. 따라서 서튼(Sutton 1991, 1997, 1998)[1],[2],[3]의 논리가 실제로 한국 시장에 적용되는지 확인하기 위해서는 필수적으로 내재매몰비용(Endogenous sunk cost)이 있었는지…

리베이트 변화 그래프

[논문이야기] 우리나라 제약업은 연구개발 중심일까 카피약 판매 중심일까? ②

리베이트 철폐 대책 이후 연구개발비, 설비투자비 큰 폭으로 상승상위 30개사 시장 점유율도 연초대비 큰 폭으로 감소시장 상황이 변화되고 있음은 가시적으로 나타나 공정거래위원회는 2010년 11월에 리베이트를 제공한 제약사 뿐만 아니라 리베이트로 불법 이득을 수취한 의료진까지 양쪽을 모두 처벌하는 이른바 ‘리베이트 쌍벌제’로 처벌 수위를 올렸다. 리베이트를 받은 의료진은 1년 이내 자격정지, 2년 이하 징역 등의 처벌을 받게됐고,…

리베이트 처벌 변화과정

[논문이야기] 우리나라 제약업은 연구개발 중심일까 카피약 판매 중심일까? ①

한국 제약업계, 리베이트 관행에 후진국형 가격 경쟁 구도 이어져2009년 8월 리베이트 근절 선언 후 설비투자에 자금 투입 성향 나타나2010년말까지는 설비투자 효과 미비로 두드러진 시장 변화 없어 보건복지부가 지난해 12월에 제정된 리베이트 과징금 상향 조정안에 따른 세부운영지침을 발표했다. 지난 2018년 9월 약가인하 처분을 명시한 이른바 ‘남인순법’에 이어 지난해 12월의 ‘이용호법’이 반영된 세부 지침이다. 공정거래위원회는 지난 2009년…