생성형 인공지능(AI) '챗GPT'와 이를 접목한 서비스들이 성행하고 있다. 이에 데이터 보안 이슈와 더불어 거대 기업들의 독점 현상에 우려하는 목소리가 나오고 있다. 데이터브릭스가 명령어 추종 대형언어모델(LLM) '돌리2.0'을 무료로 배포하는 이유다. 회사는 사회구성원들이 데이터에 소외되지 않도록, 전문가 뿐만 아니라 시민 데이터 사이언티스트로 커뮤니티를 확장시켜 나가겠다는 방침이다.
(사진=게티이미지뱅크)
데이터레이크하우스 기업 데이터브릭스가 소형 언어 모델(sLLM) '돌리(Dolly)'의 업그레이드 버전인 '돌리 2.0'을 공개했다. 이는 돌리를 공개하고 2주 만인데, 기존 버전에서 이용한 데이터 세트에 챗GPT등에서 나온 질의응답 결과가 포함돼 있어서다.
'알파카', '코알라', 'GPT4All', '비쿠나' 등도 학술적 이용 외 상업적 사용을 금지하고 있다. 돌리는 일루더AI(EleutherAI)의GPT-J와 미국 스탠포드 대학교의 '알파카'를 미세 조정해 만들었으며, 또한 알파카는 메타가 공개한 언어 모델 '라마'를 기반으로 하고 있다. 데이터브릭스가 자사 모델을 만들면서도 세계 최초의 복제 양 '돌리'에서 이름을 딴 이유이기도 하다.
데이터브릭스는 '오염'되지 않은 새로운 데이터 세트를 만드는 방법을 찾기 시작했고, 여기엔 데이터 전문가들인 데이터브릭스 직원들이 동원됐다. 직원들은 간단한 정보 요약부터 시나 소설과 같은 창작품까지 다양한 질문과 답 쌍(pair)을 만들어냈다. 콘테스트 형식으로 진행돼 데이터브릭스 직원 5000여명이 자발적으로 참여했다. 해당 데이터셋은 문법 검사와 검토를 거쳐 돌리2.0 트레이닝에 쓰였다.
데이터브릭스는 트레이닝 코드, 데이터 셋, 돌리 모델의 훈련된 가중치 등을 포함한 돌리 2.0의 모든 것을 상업적 용도로 사용할 수 있도록 오픈소스로 제공한다. 이를 통해 누구나API액세스 비용을 지불하거나 제3자에 데이터를 공유하지 않고도LLM을 생성하고 필요에 맞게 맞춤 제작(커스터마이징)할 수 있다.
한국을 찾은 크리스 디아고스티노(ChrisD'Agostino) 데이터브릭스 글로벌 필드CTO(사진=블로터)
데이터브릭스는 적은 데이터셋을 이용한 트레이닝으로도 챗GPT와 유사한 기능을 발휘할 수 있도록 입증하고자 했다고 설명했다.
크리스 디아고스티노 데이터브릭스CTO는 <블로터>에 "소수의 기업이 완전히 통제하게 되는 미래에 대해 우려스럽게 생각한다"며 "(돌리2.0은) 거대한 모델을 탄생시키고 훈련할 수 있는 리소스를 가지고 있는 거대 기업에게 굴복하는 것이 아니라, 내가(스스로, 개개인이) 여전히 통제력을 가지고 있다는 열의를 표명하는 것"이라고 말했다.
누구나 데이터에 접근할 수 있게 해 데이터 기반의 효율적인 의사결정을 돕는 '데이터 민주화'의 중요성을 강조한 것이다.
챗GPT의 경우 국내서만 220만명이 이용하는 '열풍'을 부른 가운데, 일종의 환각 현상이 발생된 것도 사실이다. 거짓 정보나 차별적인 답변 등을 내놓는 식이다. 이는 결국 챗GPT가 인간들이 만들어 낸 정보를 바탕으로 하고 있기 때문으로 보인다. 챗GPT는 언론사 기사와 학술 논문, 인터넷 상의 정보들을 토대로 학습한 것으로 알려져 있다.
LLM을 만드는 데 엄청난 양의 데이터가 필요한 것이 첫 번째 장애물으로 꼽히는데, 창작물에 대한 사용료를 두고 논란이 나오는 상황이다. 이탈리아를 시작으로,GDPR(유럽 연합 일반 데이터 보호 규칙)을 따르고 있는 유럽국가들을 중심으로 챗GPT이용을 금지하는 움직임도 보이고 있다.
일론 머스크는 마이크로소프트(MS)가 인공지능 언어 모델을 학습시키는 데 트위터의 데이터를 함부로 사용하고 있다며 소송을 제기하겠다고 말하기도 했다. 일론 머스크는 챗GPT를 만든 오픈AI의 창립자 중 하나로, 생성형AI로 인한 혼란스러운 현 상황을 잘 드러내주는 역설적인 발언이라는 평가다.
크리스 디아고스티노CTO는 "챗GPT처럼 데이터를 공유를 해야만 하는 구조라면 노하우나, 기업 내에 기밀도 공유가 될 수밖에 없고 경쟁력도 넘어가게 될 것"이라며 "당연히 오픈소스화돼 개별 기업들이 서비스를 직접 만들어내는 방향으로 가야한다"고 말했다.
아울러 그는 "지금까지 데이터브릭스는 경험이 많은 프로그래머나 엔지니어들을 지원하는 데 집중해 왔다. 이제는 '시민 데이터 과학자'를 지원하기 위한 노력과 투자도 할 것"이라며 "노코드·로코드 및 데이터 시각화 등 계속해서 새로운 기능들을 선보일 것"이라고 덧붙였다.