[해외 DS] 후가쿠 슈퍼컴퓨터 활용한 일본어 LLM 개발, 문화와 언어 장벽 넘어 기술 주권 확보 나선다

영어 GPT, 일본어 지원 비효율적 전반적인 성능은 GPT-4가 우수 일본 정부·기업 모두 AI 역량 강화

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


일본 슈퍼컴퓨터 후가쿠는 일본어 버전의 ChatGPT를 개발하기 위해 일본어 텍스트를 소화하는 작업에 투입되었다/사진=Scientific American

일본은 ChatGPT의 독자 버전을 구축하고 있다. 일본 정부와 NEC, 후지쯔, 소프트뱅크와 같은 대형 기술 기업들은 수억 달러를 투자해 대규모 언어 모델(Large Language Models, 이하 LLM)을 기반으로 영어판의 번역이 아닌 일본어를 사용하는 AI 시스템을 만들고 있다.

“현재 공개된 LLMs는 영어에서는 뛰어나지만 알파벳 체계의 차이, 제한된 데이터 및 기타 요인으로 인해 일본어에서는 종종 부족한 성능을 보인다”라고 자연어 처리를 전문으로 하는 일본 도호쿠대학의 연구원 사카구치 케이스케가 전했다.

학습 언어 편향

LLM은 방대한 양의 데이터로 자연스러운 음성 및 산문의 패턴을 학습한다. 해당 알고리즘은 텍스트의 이전 단어를 기반으로 다음 단어를 예측하도록 학습됐다. ChatGPT의 이전 모델 GPT-3가 학습한 텍스트의 대부분은 영어로 된 자료다.

사람처럼 대화할 수 있는 ChatGPT의 섬뜩한 능력은 연구자들에게 기쁨과 우려를 동시에 안겨주었다. 어떤 이들은 이 기술을 잠재적인 노동력 절감 도구로 보고 있고, 다른 이들은 과학 논문이나 데이터를 조작하는 데 사용될 수 있다고 우려하고 있다.

일본에서는 다른 언어를 학습한 AI 시스템이 일본의 언어와 문화의 복잡성을 파악하지 못할 수 있다는 우려가 있다. 일본어의 문장 구조는 영어와 완전히 다르다. 따라서 ChatGPT는 일본어 프롬프트를 영어로 번역하고 답을 찾은 다음 다시 일본어로 번역해서 답변을 주고 있다.

영어는 문자가 26개에 불과하지만, 일본어는 두 종류의 48개 기본 문자와 2,136개의 자주 사용되는 일본어 한자로 구성되어 있다. 대부분의 일어는 두 가지 이상의 발음이 있으며, 드물게 사용되는 일어는 5만 개 정도 더 존재한다. 이러한 복잡성을 고려할 때 영어 ChatGPT의 사용은 적절해 보이지 않는다. “사람들이 잘 모르는 극히 희귀한 문자나 이상한 단어가 생성되기도 한다”라고 사카구치가 말했다.

문화 적합성

LLM이 상업적으로 사용되고 유용한 도구로 인식되려면 언어뿐만 아니라 문화적 관행을 정확하게 반영해야 한다. 그렇지 않으면 ChatGPT에 일본어로 입사 지원 이메일을 작성하라고 명령하면 일반적인 예의 표현이 생략되고 영어를 번역한 것처럼 보이는 문제가 발생한다.

한 연구 그룹은 언어 모델들이 일본 관련 주제에 얼마나 잘 대답할 수 있는지를 평가하는 라쿠다(Rakuda) 순위를 발표했다. 라쿠다의 공동 창립자인 샘 파사글리아(Sam Passaglia)와 그의 동료들은 모델 간 답변의 유창함과 문화적 적합성을 비교하기 위해 ChatGPT에 질문했다. 6월에 발표된 출판 전 논문에 따르면 라쿠다를 사용하여 순위를 매긴 결과, GPT-4는 87%의 확률로 인간의 평가  일치하는 것으로 나타났다. 일본 오픈소스 LLM은 Rakuda에서 4위를 차지했으며, 1위는 대회 심사위원이기도 한 GPT-4가 차지했다. 어쩌면 당연한 결과다.

“확실히 일본어 LLM이 더 좋아지고 있지만 GPT-4에는 훨씬 뒤처져 있습니다.”라고 파사글리아가 밝혔다. 하지만 일본어 LLM이 향후 GPT-4와 동등하거나 능가하지 못할 이유는 없다고 그는 말한다. “이것은 기술적으로 극복할 수 없는 것이 아니라 자원의 문제일 뿐입니다.”

일본어 LLM을 만들기 위해 많은 공을 들였다. 세계에서 가장 빠른 슈퍼컴퓨터 중 하나인 후가쿠를 사용하여 모델을 학습시켰다. 도쿄공업대학, 도호쿠대학, 후지쯔, 이화학연구소(RIKEN) 그룹의 지원을 받아 완성된 LLM은 내년에 오픈소스로 출시될 예정이다. 이 프로젝트에 참여하고 있는 사카구치에 따르면 최소 300억개 이상의 파라미터를 가진 모델을 제공하고자 한다며 이를 목표로 하고 있다고 전했다.

한편 후가쿠 LLM은 더 큰 규모의 프로젝트에 의해 계승될 수도 있다. 일본 문부과학성(MEXT)은 과학적 요구에 맞춰 특화된 AI 프로그램 개발에 자금을 지원하고 있다. 발표된 연구 자료를 학습하여 과학적 가설을 생성하고 탐구 대상에 대한 정보를 빠르게 제공하기 위한 과학 AI 모델이다. 이 모델은 GPT-3의 절반이 조금 넘는 1,000억 개의 매개변수에서 시작해서 점차 확장될 것이다.

AI 프로그램으로 “과학 연구 주기를 획기적으로 가속화하고 검색 가능 범위를 확장하기를 희망한다”라고 이화학연구소 바이오시스템 역학연구센터의 마코토 타이지 부소장은 강조했다. LLM 개발에는 최소 300억 엔(2억4천만 달러)이 투입될 것으로 예상되며, 2031년에 공개될 예정이다.

역량 강화

다른 일본 기업들도 이미 자체 LLM 기술을 상용화했거나 상용화할 계획이다. 슈퍼컴퓨터 제조업체인 NEC는 지난 5월부터 일본어 기반의 생성형 AI를 사용하기 시작했으며, 이를 통해 내부 보고서 작성 시간을 50%, 내부 소프트웨어 소스 코드 작성 시간을 80% 단축할 수 있다고 주장했다. 7월에는 고객에게 맞춤형 생성형 AI 서비스를 제공하기 시작했다.

NEC 데이터 과학 연구소의 수석 연구원 마사후미 오야마다는 “금융, 운송, 물류, 유통, 그리고 제조와 같은 광범위한 산업에서 사용할 수 있다”라고 설명했다. 그는 연구자들이 코드 작성, 논문 작성 및 편집 지원, 기존에 발표된 논문 조사 등의 작업에 활용할 수 있다고 덧붙였다.

일본 통신 회사 소프트뱅크는 일본어 텍스트로 학습된 생성형 AI에 약 200억 엔을 투자하고 있으며, 내년에 자체 LLM을 출시할 계획이다. OpenAI 투자자인 Microsoft와 파트너십을 맺고 있는 소프트뱅크는 기업이 비즈니스를 디지털화하고 생산성을 높일 수 있도록 지원하는 것이 목표라고 밝혔다. 소프트뱅크는 대학, 연구 기관 및 기타 조직에서 자사 LLM을 사용할 것으로 예상한다.

일본 연구자들은 정확하고 효과적인 ‘메이드 인 재팬’ AI 챗봇이 과학을 가속화하고 일본과 다른 나라 간의 기술 격차를 해소하는 데 도움이 될 수 있기를 희망하고 있다.

도쿄 게이오대학교 의과대학의 의료 기술 연구원 키노시타 쇼타로는 “일본어판의 ChatGPT를 정확하게 만들 수 있다면 일본어를 배우거나 일본에 관해 연구하려는 사람들에게 더 나은 연구 환경을 제공할 것으로 기대한다”라고 말했다. “결과적으로 국제 공동 연구에도 긍정적인 영향을 미칠 수 있습니다.”


Japan is building its own versions of ChatGPT — the artificial intelligence (AI) chatbot made by US firm OpenAI that became a worldwide sensation after it was unveiled just under a year ago.

The Japanese government and big technology firms such as NEC, Fujitsu and SoftBank are sinking hundreds of millions of dollars into creating AI systems that are based on the same underlying technology, known as large language models (LLMs), but that use the Japanese language, rather than translations of the English version.

“Current public LLMs, such as GPT, excel in English, but often fall short in Japanese due to differences in the alphabet system, limited data and other factors,” says Keisuke Sakaguchi, a researcher at Tohoku University in Japan who specializes in natural language processing.

ENGLISH BIAS
LLMs typically use huge amounts of data from publicly available sources to learn the patterns of natural speech and prose. They are trained to predict the next word on the basis of previous words in a piece of text. The vast majority of the text that ChatGPT’s previous model, GPT-3, was trained on was in English.

ChatGPT’s eerie ability to hold human-like conversations, has both delighted and concerned researchers. Some see it as a potential labour-saving tool; others worry that it could be used fabricate scientific papers or data.

In Japan, there’s a concern that AI systems trained on data sets in other languages cannot grasp the intricacies of Japan’s language and culture. The structure of sentences in Japanese is completely different from English. ChatGPT must therefore translate a Japanese query into English, find the answer and then translate the response back into Japanese.

Whereas English has just 26 letters, written Japanese consists of two sets of 48 basic characters, plus 2,136 regularly used Chinese characters, or kanji. Most kanji have two or more pronunciations, and a further 50,000 or so rarely used kanji exist. Given that complexity, it is not surprising that ChatGPT can stumble with the language.

In Japanese, ChatGPT “sometimes generates extremely rare characters that most people have never seen before, and weird unknown words result”, says Sakaguchi.

CULTURAL NORMS
For an LLM to be useful and even commercially viable, it needs to accurately reflect cultural practices as well as language. If ChatGPT is prompted to write a job-application e-mail in Japanese, for instance, it might omit standard expressions of politeness, and look like an obvious translation from English.

To gauge how sensitive LLMs are to Japanese culture, a group of researchers launched Rakuda, a ranking of how well LLMs can answer open-ended questions on Japanese topics. Rakuda co-founder Sam Passaglia and his colleagues asked ChatGPT to compare the fluidity and cultural appropriateness of answers to standard prompts. Their use of the tool to rank the results was based on a preprint published in June that showed that GPT-4 agrees with human reviewers 87% of the time1. The best open-source Japanese LLM ranks fourth on Rakuda, while in first place, perhaps unsurprisingly given that it is also the judge of the competition, is GPT-4.

“Certainly Japanese LLMs are getting much better, but they are far behind GPT-4,” says Passaglia, a physicist at the University of Tokyo who studies Japanese language models. But there is no reason in principle, he says, that a Japanese LLM couldn’t equal or surpass GPT-4 in future. “This is not technically insurmountable, but just a question of resources.”

One large effort to create a Japanese LLM is using the Japanese supercomputer Fugaku, one of the world’s fastest, training it mainly on Japanese-language input. Backed by the Tokyo Institute of Technology, Tohoku University, Fujitsu and the government-funded RIKEN group of research centres, the resulting LLM is expected to be released next year. It will join other open-source LLMs in making its code available to all users, unlike GPT-4 and other proprietary models. According to Sakaguchi, who is involved in the project, the team hopes to give it at least 30 billion parameters, which are values that influence its output and can serve as a yardstick for its size.

However, the Fugaku LLM might be succeded by an even larger one. Japan’s Ministry of Education, Culture, Sports, Science and Technology is funding the creation of a Japanese AI program tuned to scientific needs that will generate scientific hypotheses by learning from published research, speeding up identification of targets for enquiry. The model could start off at 100 billion parameters, which would be just over half the size of GPT-3, and would be expanded over time.

“We hope to dramatically accelerate the scientific research cycle and expand the search space,” Makoto Taiji, deputy director at RIKEN Center for Biosystems Dynamics Research, says of the project. The LLM could cost at least ¥30 billion (US$204 million) to develop and is expected to be publicly released in 2031.

EXPANDING CAPABILITIES
Other Japanese companies are already commercializing, or planning to commercialize, their own LLM technologies. Supercomputer maker NEC began using its generative AI based on Japanese language in May, and claims it reduces the time required to create internal reports by 50% and internal software source code by 80%. In July, the company began offering customizable generative AI services to customers.

Masafumi Oyamada, senior principal researcher at NEC Data Science Laboratories, says that it can be used “in a wide range of industries, such as finance, transportation and logistics, distribution and manufacturing”. He adds that researchers could put it to work writing code, helping to write and edit papers and surveying existing published papers, among other tasks.

Japanese telecommunications firm SoftBank, meanwhile, is investing some ¥20 billion into generative AI trained on Japanese text and plans to launch its own LLM next year. Softbank, which has 40 million customers and a partnership with OpenAI investor Microsoft, says it aims to help companies digitize their businesses and increase productivity. SoftBank expects that its LLM will be used by universities, research institutions and other organizations.

Meanwhile, Japanese researchers hope that a precise, effective and made-in-Japan AI chatbot could help to accelerate science and bridge the gap between Japan and the rest of the world.

“If a Japanese version of ChatGPT can be made accurate, it is expected to bring better results for people who want to learn Japanese or conduct research on Japan,” says Shotaro Kinoshita, a researcher in medical technology at the Keio University School of Medicine in Tokyo. “As a result, there may be a positive impact on international joint research.”