챗GPT가 포문 연 생성형 AI 시대, 그 이면과 나아가야 할 길

오픈에이아이(OpenAI)의 AI 챗봇 ‘챗GPT(ChatGPT)’가 전 세계적 관심을 받고 있다. 각종 분야에서 챗GPT를 기반으로 한 서비스가 등장하는가 하면, 챗GPT 서비스를 실제 업무에 활용하는 사례도 점차 증가하는 추세다. 실제 챗GPT는 출시 두 달 만에 전 세계 월간 활성 사용자 수(MAU) 1억 명을 돌파, 인스타그램(2년 반), 틱톡(9개월) 등의 종전 기록을 단숨에 갈아치우며 그 저력을 입증한 바 있다.

챗GPT는 생성형 AI의 대중화 가능성을 증명하는 데 성공했다. 하지만 일각에서는 챗GPT 열풍과 함께 AI에 대한 불안감과 두려움도 커지고 있다. 아무렇지도 않게 거짓 정보를 전달하거나, 소름 끼치는 내용을 생성하는 ‘환각(hallucination)’ 사례들이 공유되면서다. 챗GPT가 포문을 연 생성형 AI 시대는 아직 혼란과 충돌로 가득하다. 이에 AI 시대 질서를 정립할 정부 차원 대책의 필요성이 대두되고 있다.

챗GPT, 기존 AI와 무엇이 다르길래?

흔히 챗GPT 또는 GPT-3.5를 ‘생성형 AI(generative AI)’라고 부른다. 이전 세대 AI 모델은 일반적으로 식별(recognition) 기능에 중점을 두어 판단을 하거나, 있는 정보를 분석해 주는 역할을 수행해왔다. 하지만 챗GPT는 언어 기반의 결과물을 ‘생성’하는 AI 모델로 기존에 없던 것을 만들어내거나, 있는 것들을 자연스럽게 조합해서 새로운 것을 보여주는 역할을 수행하고 있다. 챗GPT는 언어와 문자로 표현할 수 있는 것이라면 논문, 보고서, 문학, 코딩 등 분야를 가리지 않고 결과물을 생성할 수 있다. 챗GPT의 두뇌에 해당하는 GPT-3.5에 총 1,750억 개에 달하는 대량의 파라미터가 사용되었기 때문이다. 이처럼 대량의 파라미터를 적용하는 AI 모델을 ‘대규모 언어 모델(large language model: LLM)’ 또는 ‘초거대 AI’라고 한다.

초거대 AI의 장점은 소량의 학습 데이터로도 원하는 결과를 얻는 ‘퓨샷러닝(few-shot learning)’이 가능하다는 점이다. 이전 세대 AI는 일반적으로 개별 목적에 따라 각각 데이터셋을 학습시켜 전용 AI 모델을 만드는 미세조정(fine-tuning) 방식을 채택해왔다. 반면 초거대 AI의 기본 AI 모델은 대규모 데이터의 사전 학습을 통해 구축된다. 방대한 데이터를 기반으로 만들어진 기본 AI 모델에 소량의 데이터를 추가 학습시키면 정확도가 높은 결과가 도출되는 방식이다.

이용자가 챗GPT에게 ‘말을 거는’ 것이 ‘초거대 AI에 소량의 데이터를 추가 학습시키는 행위’라고 볼 수 있다. 이용자가 대화창에 간략한 지시어를 입력하면 챗GPT는 방대한 데이터와 지시어를 결합해 정리된 결과물을 생성하게 된다. 지시어가 효과적일 경우에는 추가적 설명과 학습 없이(zero-shot) 한 번의 채팅만으로 원하는 결과를 도출하는 것도 가능하다.

챗GPT가 불러온 AI 시장 선점 경쟁

챗GPT 등장 이후 글로벌 빅테크 기업들은 AI 시장 점유율 확보에 박차를 가하기 시작했다. 가장 적극적으로 대응하는 기업은 미국의 마이크로소프트다. 마이크로소프트는 자사의 검색엔진 ‘빙(bing)’과 챗GPT를 결합하여 새로운 검색 경험을 제공하는 한편, 클라우드 환경에서 AI를 사용할 수 있도록 클라우드서비스 ‘애저(Azure)’에 GPT-3.5를 탑재하는 방안을 모색하고 있다.

구글은 지금까지 AI 투자에 적극적인 태도를 보여왔으며, 이미 초거대 AI 모델인 람다를 보유하고 있다. 하지만 상용 AI 서비스인 ‘바드(Bard)’의 발표는 오픈AI의 챗GPT보다 뒤처진 상태다. 대중적인 AI 서비스 출시에는 신중할 필요가 있다는 내부 판단에 따른 것이다. 그러나 오픈AI가 챗GPT 서비스를 출시한 이후, 구글은 내부적으로 위기 상황임을 뜻하는 ‘코드 레드(Code Red)’를 선포하고 대응책을 찾는 데 총력을 기울이고 있다.

검색 포탈 서비스 1인자인 구글이 챗GPT를 의식하며 다급하게 움직이는 이유는 무엇일까. 챗GPT는 이용자의 요구 또는 질문에 대한 답을 제시하는 서비스로, 기존의 검색 서비스와 지향하는 바가 같다. 단 기존 검색 서비스가 정보의 출처를 제시하고 이용자가 직접 이를 비교·평가하도록 하는 반면, 챗GPT는 AI를 활용해 이용자 대신 정보 분별 및 정리 과정을 수행한다. 구글이 독점하던 기존 검색 서비스 시장에 큰 파장을 불러일으킬 만한 서비스인 셈이다.

한편 국내 기업들도 초거대 AI 열풍을 따라 움직이기 시작했다. 이들은 한글 서비스에 관해서는 우리 기업이 비교 우위가 있다는 판단 하에 대응 전략을 마련하고 있다. 네이버는 2021년 자체적으로 초거대 AI 모델인 하이퍼클로바를 개발했으며, 올 상반기에는 한국어에 특화된 생성형 AI 챗봇 ‘서치GPT’를 선보일 예정이다. 카카오는 초거대 AI 모델인 ‘KoGPT’를 챗봇 조르디, 카카오톡 채널 등과 결합하여 상용 AI 서비스를 제공하겠다는 방침이다.

일상 속에 스며든 챗GPT의 이면

챗GPT 이용자 대부분은 챗GPT의 능력에 대해 긍정적인 평가를 내놓고 있다. 미국에서는 챗GPT가 의사･변호사･MBA 시험을 통과하는 수준이라는 분석이 나오기도 했다. 챗GPT를 이용하여 보고서 초안을 만들거나, 챗GPT만을 이용해 작성한 책을 출판하는 등 기술을 실생활에 직접 활용하는 사례도 점차 증가하는 추세다.

하지만 일각에서는 신랄한 비판의 목소리가 흘러나온다. 특히 대학과 같은 교육기관에서는 챗GPT 사용에 대한 치열한 논쟁이 벌어지고 있다. 일부 대학은 모든 수업·과제·평가에 챗GPT 사용을 금지하고, 허가를 받지 않은 챗GPT 이용은 표절로 간주하고 있다. 하지만 일부 교수진은 AI 시대에 적합한 인재를 양성하기 위해 오히려 챗GPT 사용을 권장하기도 한다. 새로운 기술을 바라보는 다양한 시각과 의견이 부딪히고 있는 것이다.

단 하나 분명한 사실은 챗GPT가 생성한 결과물을 맹신해서는 안 된다는 점이다. 전문가들은 인공지능 챗봇이 내놓는 답은 일종의 ‘환각’이므로 무조건적으로 신뢰할 수 없다고 지적한다. 인공지능 챗봇은 논리나 진실에 관계없이 방대한 양의 텍스트를 학습하고 주어진 맥락에서 어떤 답변이 가장 적절할지 추론한다. 확률적으로 적절한 표현을 생성하는 것일 뿐 무조건 정확한 정보를 제공하는 것은 아니라는 뜻이다.

만약 현재 수준의 챗GPT가 법률과 같은 전문 분야에 활용된다면 어떨까. 표준화된 문서와 판례에 의존하는 법률 분야는 인공지능 사용으로 업무 효율성을 높일 수 있겠지만, 환각으로 인해 오류가 발생할 경우 사용자는 큰 실패 비용을 떠안아야 한다. 현 상황에서 챗GPT는 인간을 보완하는 역할을 수행할 수도 있지만 사회적 가치와 충돌하는 문제를 초래할 수도 있는 ‘양날의 검’인 셈이다.

다가오는 AI 시대, 수행해야 할 정책 과제는?

전 세계적으로 AI 기술의 영향력이 커지고 있다. 국가 경쟁력 강화와 혼란 최소화를 위해 정부의 조치가 시급한 상황인 셈이다. 초거대 AI 시대의 국가 경쟁력을 강화하기 위해서는 먼저 대규모 학습 데이터를 빠르게 처리하고 수많은 이용자 질문에 실시간으로 대답할 수 있는 컴퓨팅 파워(computing power)를 확보할 필요가 있다. 이를 위해 정부는 국가 슈퍼컴퓨터 자산을 확충하고, 민간이 이를 초거대 AI 개발에 활용할 수 있도록 ‘국가초고성능컴퓨팅 혁신 전략’에 반영해야 한다. 또한 민간이 컴퓨팅 파워 구축에 적극적으로 투자할 수 있도록 현재의 AI 사업 규제를 점검하고 과감하게 개선해야 할 것으로 보인다.

미래 경쟁력을 위해 자체적인 AI 반도체 역량도 확보할 필요가 있다. 현재 일반적으로 사용하는 GPU는 가격이 비싸고 전력 소모가 많은 고비용 방식으로, 컴퓨팅 파워를 확대하기에는 어려움이 있다. 향후 예상되는 컴퓨팅 파워 수요 증가에 대응하기 위해서는 정부 차원의 고성능 AI 반도체 연구개발 지원이 필요할 것으로 보인다.

학습 데이터 확보도 AI 시장 확대의 주요 관건 중 하나다. GPT-3.5와 같은 범용성을 갖춘 초거대 AI 모델을 만들기 위해서는 다양한 분야의 학습 데이터를 확보해야 한다. 정부는 이를 위해 지금까지 ‘데이터 댐’ 사업을 통해 AI 허브에 한국어 데이터 93종, 영상이미지 78종, 헬스케어 67종, 재난안전환경 59종, 농축수산 41종, 교통물류 46종의 AI 학습데이터를 구축한 바 있다. 하지만 이는 초거대 AI를 학습시키기에는 여전히 부족한 수준이다. 따라서 민간에서 직접 공급하기 어려운 데이터 수요를 파악하고, 정부와 공공기관이 보다 적극적으로 학습 데이터를 구축할 필요가 있다.

이와 함께 민·관의 다양한 분야에 축적되어 있는 방대한 데이터가 초거대 AI 모델 학습에 활용될 수
있도록 데이터 유통·거래를 활성화해야 한다. ‘데이터 산업진흥 및 이용촉진에 관한 기본법’상 민간 데이터 거래소의 역량을 강화하고, 웹사이트에 공개된 데이터에 대한 학습용 수집(크롤링) 허용 조
건을 명확히 하는 식이다.

하지만 이같은 데이터 수집 문제는 저작권 분쟁과 국민 불안감을 초래하고 있다. 따라서 정책을 통해 국민이 안심하고 AI를 이용할 수 있는 환경을 조성할 필요가 있다. 먼저 생성형 AI와 관련된 저작권 규정을 합리적으로 정비해야 한다. 특히 AI 학습에 사용된 데이터의 저작권 허용 범위, 생성형 AI가 만든 결과물의 저작권 보호 범위 확립이 우선시되어야 할 것으로 보인다.

더불어 이용자의 정보 보호 인식 개선도 중요하다. 생성형 AI에 입력한 정보는 어떠한 형태로든 기록에 남고 재생산될 수 있어 개인정보나 기업·기관의 기밀 등이 유출될 위험이 높아진다. 특히 디지털 소외 계층의 경우 이 같은 사실을 인지하지 못해 피해를 입을 가능성이 크다. 사회에서 AI의 영향력이 점차 커져가고 있는 만큼 기업 및 정부가 이에 대해 적극적으로 안내하고 교육할 필요가 있다.

초기 시장의 혼란

아직 챗GPT는 구체적인 수익 모델이 없다는 한계가 존재한다. 일각에서는 쏟아지는 관심에 비해 챗GPT의 실제 활용도가 부족하다는 비판도 제기된다. 이에 사용자의 데이터를 바탕으로 초개인화된 검색·추천 기능을 제공해주는 서제스트(Seargest, search+suggest) AI 등 새로운 기술이 시장의 주목을 받고 있다. 서제스트는 개인(소비자)의 데이터와 취향을 기반으로 상품이나 콘텐츠를 AI가 검색한 뒤 추천하는 기술이다.

이처럼 챗GPT 열풍 이후로 수많은 AI 기술 및 기업이 부상하고, 시장의 혼란이 끊이지 않고 있다. 초기 단계인 AI 시장은 수많은 갈등과 충돌 속에서 몸집을 불려가는 추세다. 시장의 장기적인 발전을 위해서는 결국 사회적 논의를 통한 상생이 필요하다. 차후 글로벌 AI 시장에서 우리나라가 입지를 다지기 위해서는 현 시기 정부의 역할이 무엇보다 중요할 것으로 보인다.

전수빈 연구원

[email protected] 독자 여러분과 ‘정보의 홍수’를 함께 헤쳐 나갈 수 있는 뗏목이 되고 싶습니다. 여행 중 길을 잃지 않도록 정확하고 친절하게 안내하겠습니다.