정보 !일반 상식 이야기

한국 AI 산업 성패, 데이터 확보에 달렸다

하나님아들 2025. 2. 19. 23:32

한국 AI 산업 성패, 데이터 확보에 달렸다

입력2025.02.19.  
양질의 데이터 확보·공유로 ‘AI 주권’ 획득해야
 
 
 
 
 
인공지능(AI) 산업이 급속히 발전하면서 AI 학습에 필요한 데이터의 공급이 수요를 따라가지 못하고 있다. [GettyImages]
데이터는 인공지능(AI)의 연료다. 연료가 없으면 기계가 돌아갈 수 없듯이 데이터가 없으면 AI는 학습할 수 없고 결국 무용지물이 된다. 인터넷과 스마트폰 덕분에 우리 일상 및 산업 현장 곳곳에서 데이터가 계측되고 축적되고 있다.

하지만 AI 기술이 급격히 발전하면서 AI 모델 학습을 위한 데이터가 부족한 상황에 직면했다. 특정 AI 모델 학습에 필요한 데이터 자체가 부족하거나 데이터 품질이 저하돼 이를 학습한 AI 모델 성능이 떨어지는 문제가 발생하고 있다. 글로벌 시장조사업체 포춘 비즈니스 인사이트에 따르면 최근 2년간 AI 학습에 사용된 데이터양은 빠르게 증가해 2024년부터 2032년까지 연평균 24.7% 성장률을 보일 것으로 예상된다. 이 많은 데이터를 어디에서 어떻게 확보할 수 있을까.

가상 데이터 만들어 AI 학습
새 데이터를 얻는 방법은 크게 네 가지다. 첫 번째는 데이터 측정 기술을 발전시켜 기존에 계측되지 않던 정보를 수집하는 것이다. 예를 들어 스마트폰을 넘어 스마트 TV, 웨어러블 기기 등을 활용하면 그동안 측정하지 못했던 바이오 헬스케어 데이터를 얻을 수 있다. 정밀 센서를 사용해 온도, 습도, 압력, 가속도 등 다양한 환경 정보를 수집할 수도 있다.

두 번째는 데이터 증강 기술을 이용하는 것이다. 데이터 증강은 기존 데이터를 변형해 새로운 데이터를 생성하는 기술이다. 이미지 회전, 크기 조정, 색상 변환 등으로 기존 데이터를 변형할 수 있다. 예를 들어 제한된 수의 의료 영상 데이터를 회전하거나 좌우 반전하면 새 데이터가 생성된다.

세 번째는 데이터 전이를 활용하는 것이다. 데이터 전이란 특정 분야 데이터를 다른 분야에 적용하는 것을 뜻한다. 이미 학습된 특정 분야 AI 모델을 다른 분야에 그대로 적용하는 것도 데이터 전이에 해당한다. 예를 들어 이미지넷(ImageNet)이라는 대규모 이미지 데이터로 학습시킨 이미지 인식 모델을 의료 영상 분석 분야에 활용하면 질병 진단의 정확도를 높일 수 있다.

마지막으로 AI가 자체 생성하는 합성 데이터(Synthetic Data)를 활용하는 것이다. 합성 데이터는 AI 모델이 학습을 위해 만드는 가상 데이터다. 윤리적 문제와 개인정보보호 문제를 해결할 대안으로 최근 주목받고 있다. 실제 정보를 수집하는 데 필요한 비용을 줄일 수 있다는 장점도 지닌다.

합성 데이터는 데이터 생성 모델이나 시뮬레이션을 통해 만든다. 생성 모델은 실제 데이터와 유사한 이미지, 텍스트, 음성 등을 생성한다. 시뮬레이션은 가상 환경을 활용하는 기술이다. 자율주행 시스템을 개발할 때 교통사고 같은 극단적인 상황을 실제 도로에 발생시키지 않고도 합성 데이터를 통해 AI를 학습시키는 식이다. 시뮬레이션으로 만들어진 합성 데이터는 자율주행자동차 훈련뿐 아니라 로봇 제어 등에도 활용된다. 엔비디아는 코스모스(COSMOS)라는 플랫폼에서 얻은 현실 세계 정보를 바탕으로 3D(3차원) 시뮬레이션 플랫폼 옴니버스(Omniverse)를 만들어 합성 데이터를 생성하고 있다.

AI 기술이 발전하고 요구되는 데이터양이 증가함에 따라 합성 데이터는 AI 학습의 주요 원천이 될 가능성이 크다. 하지만 합성 데이터는 명확한 한계와 위험성을 지닌다. 현실 세계에서 수집된 데이터를 기반으로 하는 만큼 근본적으로 원본 데이터가 가진 편향과 오류를 극복할 수 없다. 따라서 데이터를 보정하려는 노력은 합성 데이터를 생성하는 과정에서도 게을리해서는 안 된다.

데이터 시장 선점해야 AI 산업 발전
AI 시대에 데이터는 전략 자산이다. 기업은 데이터 자산화 전략을 수립하고 수집한 데이터의 가치를 극대화해야 한다. 데이터를 가공해 새로운 데이터 상품을 개발한 뒤 시장에서 거래해 수익을 창출할 기회도 모색해야 한다.

양질의 데이터 확보를 위해 기업들이 협력해 데이터 공유 플랫폼을 구축할 필요도 있다. 기업이 자체적으로 보유한 데이터를 API(응용프로그램 인터페이스) 형태로 공유하는 방안을 고려해볼 수 있을 것이다.

정부는 ‘AI 소버린(AI Sovereignty)’을 획득할 방안을 찾아야 한다. AI 소버린이란 특정 국가나 기업이 AI 기술과 데이터를 독립적으로 개발·운영·통제할 수 있는 자율성과 주권을 의미한다. 데이터 확보·활용 경쟁에서 선도적 위치를 차지하는 것이 한국 AI 산업의 성패를 결정할 것이다. 동시에 개인정보보호, 데이터의 편향성 극복 등 데이터 사용과 관련된 윤리적 문제도 고민해야 한다. 데이터 수집 및 활용의 사회적책임에 관한 논의를 활성화해야 할 때다.