[해외 DS] OpenAI 데이터 파트너십 요청, "아직도 데이터 부족해"

오픈 AI, 모델 성능 향상 위해 도메인별 데이터 공개 모집
도메인 특화 데이터로 모델 개인화 추진 및 만족도 향상 기대
학습 데이터 투명성 확보 전략, 그러나 학습된 개인정보는 그대로

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

데이터 파트너십 요청, 개인·기업 누구나 참여 가능

이미 인터넷 ‘공개’ 데이터로 ChatGPT를 훈련한 OpenAI는 모델의 지식을 더욱 향상하기 위해 도메인별 데이터를 찾고 있으며, 대중에게 도움을 요청하고 있다. OpenAI 데이터 파트너십을 통해 조직과 협력하여 공공 및 민간 데이터 세트를 구성하여 GPT-4와 GPT-4 터보와 같은 모델을 훈련할 것이라고 말했다.

OpenAI는 인간 사회를 반영하고 오늘날 대중이 온라인에서 쉽게 접근할 수 없는 대규모 데이터 세트를 큐레이팅하는 데 관심이 있다고 밝혔다. 또한 텍스트, 이미지, 오디오, 비디오를 포함한 모든 형식과 형태의 콘텐츠에 적용할 수 있다고 덧붙였고, 단절된 형태가 아닌 긴 형식의 글이나 대화와 같이 ‘인간의 의도를 드러내는’ 데이터를 원한다고 명시했다.

아이슬란드 정부 및 미데인드 에프(Miðeind ehf.)를 포함한 몇몇 기관과 협력하여, 특별히 선별된 데이터 세트를 사용하여 GPT-4의 아이슬란드어 말하기 능력을 향상하고 있다고 예를 들었다. 또한 OpenAI는 방대한 법률 문서 집을 학습에 포함해 법률 이해에 대한 접근성을 민주화하는 것을 목표로 하는 비영리 단체인 Free Law Project와 파트너십을 맺었습니다. 회사 블로그 게시물에 따르면 “데이터 파트너십은 더 많은 조직이 관심 있는 콘텐츠를 공유함으로써 더 유용한 모델의 혜택을 누릴 수 있도록 지원하기 위한 것입니다”라고 설명했다.

민감 정보 없는 오픈 소스 또는 비공개 데이터 세트 구축

그러나 민감한 정보나 개인 정보 또는 제삼자 소유의 정보가 포함된 데이터 세트에서 작업하고 싶지 않는다고 전했다. 대신 누구나 사용할 수 있는 모델 학습용 오픈 소스 데이터 세트를 구축하고자 하는 목표가 있고, 독점적인 AI 모델 학습을 위한 비공개 데이터 세트를 준비하는 데에도 관심이 있다고 한다.

OpenAI의 CEO인 샘 알트먼은 최근 주최한 첫 번째 개발자 컨퍼런스인 DevDay에서 데이터세트 외에도 기업 고객과 협력하여 맞춤형 AI 모델을 만들 것이라고 말했다. 하지만 알트먼은 OpenAI가 “많은 기업과 함께 시작하기는 어려울 것”이며 “초기에는 비용이 저렴하지 않을 것입니다. 하지만 현재 할 수 있는 한도까지 밀어붙인다면… 우리는 꽤 멋진 일을 할 수 있다고 생각합니다”라고 점진적인 서비스 확대를 예고했다.

알트먼은 이후 데브데이의 새로운 모델과 업데이트 발표에 대한 반응이 “우리의 예상을 훨씬 뛰어넘는다”라고 말하며 수요로 인한 서버의 서비스 불안정을 경고했다.

데이터 분쟁 방지 및 맞춤형 미세 조정으로 정확도 향상 기대

이번 OpenAI의 파트너십 요청은 AI 학습에 사용하는 데이터와 관련된 법적 분쟁을 피하기 위한 회사의 전략으로 보인다. 최근 저작권 침해 소송이 잇따르자, AP 통신과 콘텐츠 계약을 맺는 등 데이터 값 지급 의지를 표명하는 행보의 연장선이라는 분석이다. 여기에는 학습 데이터 투명성과 공정성에 기여하는 모습도 비칠 수 있어서 공짜 데이터도 얻을 수 있는 일거양득 효과를 보는 영리한 조치가 아닐 수 없다.

한편 각 기관에 맞는 미세 조정을 더욱 정밀하게 수행할 수 있어서, 향상된 정확도를 기대할 수 있을 거란 전망은 현실적이다. 특정 기관의 우선순위가 명확하게 반영된 데이터 세트로 ‘인간피드백형 강화학습’의 약점인 사용자 선호 이질성을 완화할 것으로 보이기 때문이다. 물론 일반 개인 사용자의 선호도를 충족하기 위해 커스텀 인스트럭션 옵션도 사용할 수 있으므로 개인과 법인 사용자 모두 점차 더 나은 서비스를 기대할 수 있을 것 같다.

하지만 LLM(거대언어모델) 기반 모델 구축에 이미 동원된 개인·민감 정보들에 대해선 아직 현실적인 해결 방안이 없는 실정이다. LLM 모델 학습에 흔히 사용되는 학습 데이터(예: LAION)에 한 번 노출된 정보들은 이미 각 회사 데이터 세트에 영구히 저장된 상태고 OpenAI에서도 모든 민감 정보를 하나하나 삭제하는 것이 불가능한 상태다. 프롬프트 답변 작성 시에 개인 정보 검열 기능을 추가로 제공하고 있으나 이마저도 우회하거나 해킹하는 방법이 많기 때문에 완전한 개인 정보 보호는 앞으로도 어려울 것으로 판단된다.

OpenAI Asks Public for More Data to Train Its AI Models

Having trained its AI models on the whole internet, OpenAI is now seeking domain-specific data – from you.

Having already trained its AI models on the entire internet, OpenAI is seeking domain-specific data to further sharpen these systems’ knowledge – and it is asking the public for help.

The maker of ChatGPT said it will work with organizations to produce public and private datasets under a new program, the OpenAI Data Partnerships, to train models like GPT-4 and the new GPT-4 Turbo.

OpenAI is interested in helping curate large-scale datasets that “reflect human society and that are not already easily accessible online to the public today.”

It said it can work with “any” modality or form of content including text, images, audio and video. The Microsoft-backed startup said it would like data that “expresses human intention” – like long-form writing or conversations rather than disconnected snippets.

OpenAI said it is already working with a few parties – including the Icelandic Government and Miðeind ehf. to improve GPT-4’s ability to speak Icelandic using a specially curated dataset.

OpenAI has also partnered with non-profit the Free Law Project, which aims to democratize access to legal understanding by including its large collection of legal documents in AI training.

“Data Partnerships are intended to enable more organizations to help steer the future of AI and benefit from models that are more useful to them, by including content they care about,” a company blog post reads.

No personal data, please
However, OpenAI does not want to work on datasets with sensitive or personal information or information that belongs to a third party.

Instead, OpenAI wants to build an open source dataset for training models which anyone can use. The company is also interested in preparing private datasets for training proprietary AI models.

To apply, click here.

Beyond datasets, OpenAI CEO Sam Altman said on Monday at the startup’s first developer conference, DevDay, that it would work with corporate clients to make custom AI models.

However, Altman warned that OpenAI “won’t be able to do this with many companies to start.”

“It’ll take a lot of work and in the interest of expectations, at least initially it won’t be cheap. But if you’re excited to push things as far as they can currently go, … we think we can do something pretty great.”

Altman later said the response to DevDay’s announcement of new models and updates is “far outpacing our expectations” and warned of “service instability” on its servers due to demand.

At around the same time, OpenAI confirmed that ChatGPT was the target of a DDoS attack by hackers. It was resolved in two days.

이시호 선임연구원

[email protected] 세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.