AI가 불붙인 데이터 쟁탈전…이미 시작됐다

※ 이 내용은8월 18일(금) 오후 4시 연합뉴스경제TV의 '경제ON' 프로그램에서 방영된 콘텐츠입니다. (출연: 권용욱 연합인포맥스 기자, 진행: 이민재)

[이민재 앵커]
올해 주식시장의 가장 큰 화두는 무엇보다 인공지능, AI일 텐데요. AI를 하나의 음식이라고 본다면, 음식 재료에 해당하는 것은 각종 데이터라고 볼 수 있을 것 같습니다. AI 열풍이 거세지면서 데이터를 둘러싼 쟁탈전도 뜨거워졌다고 하는데요. 먼저 데이터 전쟁이 어떻게 전개되는지 하나의 대표적인 사례가 있다고요.
[권용욱 기자]
네. 몇 달 전에 미국의 한 온라인 매체가 이런 제목의 기사를 내보낸 적이 있습니다. "AI는 어도비의 킬러인가".
어도비라고 하면 국내에선 PDF파일 응용프로그램으로 널리 알려져 있고 포토샵이라는 대표적인 이미지 편집 프로그램을 만드는 회사이기도 한데요. 이렇게 창의적인 작업을 하는 소프트웨어가 AI에 밀려나서 설 자리를 잃을 수 있다는 전망이 제기됐었습니다.

실제 챗GPT 제조사인 오픈AI의 AI화가 달리 2나 미드저니 같은 신규 도구들은 어도비의 이미지 편집 기능을 무용지물로 만들 것처럼 보였는데요. 그런데 이런 분석은 빠르게 뒤집히고 있습니다. 어도비가 파이어플라이라고 불리는 자체 AI 도구를 개발해 발표했는데요. 텍스트를 보고 이미지를 간편하게 만들 수 있는 이미지 생성형 AI로, 여기에는 수억장의 그림 데이터베이스가 사용됐습니다. 파이어플라이를 통해 총 10억개가 넘는 새로운 이미지가 만들어졌는데요. 어도비는 주가는 파이어플라이 출시 이후 40% 가까이 상승하고 있습니다.

[앵커]
네, 외부의 비판적인 예상을 어도비가 보기 좋게 뒤집은 셈이네요. 이런 사례가 빠르게 커가는 AI시장의 지배력 싸움을 대표적으로 보여준다고요.
[기자]
네, 소위 '생성형 도구'라고 불리는 최근 유행하는 AI모델들은 막대한 양의 데이터에 의존해야 하는데요. 이미 인터넷상에서 많은 데이터를 때때로 무단으로 가져오던 AI 모델 제작업체들은 이제 새로운 데이터 소스를 찾고 있습니다.

동시에 방대한 양의 데이터 원소스를 가지고 있는 업체들은 데이터를 가장 비싸게 넘길 수 있는 방식을 고민하고 있는데요. 데이터라는 광대한 땅의 땅따먹기가 시작됐다고 볼 수 있습니다.

[앵커]
네, 활용가능한 데이터는 제한적이고, 데이터를 활용하려는 수요는 폭발적이니 당연히 경쟁이 치열할 것 같은데요. 구체적으로 데이터 쟁탈전이라는 표현까지 나오게 되는 이유가 있을까요.
[기자]
네, AI 모델에 필수적으로 들어가야 하는 두 가지 구성 요소가 있는데요. 하나는 시스템을 훈련시키는 데 활용할 수 있는 데이터 세트고요. 다른 하나는 이런 데이터 세트 간의 관계를 분석하고 처리하는 처리 능력입니다. 데이터세트란 서로 연관성 있는 데이터들의 집합체라고 볼 수 있는데요. 양적으로 이런 데이터세트를 많이 확보하고, 또 질적으로 양질의 데이터세트를 확보해야겠죠.
그런데 두 번째 구성 요소로 말씀드린 데이터세트의 처리 능력은 전문화된 AI 칩의 공급 부족을 겪고 있습니다. 최근 엔비디아가 크게 뜨는 이유이기도 하죠. 두 번째 구성 요소를 발전시키는 데 한계가 있다 보니 업체들은 첫 번째 요소, 즉 데이터 확보에 열을 올리고 있는 건데요. 데이터에 대한 수요가 이렇게 빠르게 증가하고 있어서 시스템 트레이닝에 활용가능한 양질의 텍스트 데이터의 경우 오는 2026년이면 소진될 수 있다고, AI 연구기관인 에폭 AI는 진단하기도 했습니다.

[앵커]
네, 실제 데이터 확보를 위한 전쟁이 시작됐다고 볼 수 있는 게, 이미 업체 간의 관련 계약 체결도 빠르게 늘어나고 있다고요.
[기자]
네, 그렇습니다. 바로 지난달 오픈AI는 뉴스 통신사인 AP통신과 기사 아카이브에 접근할 수 있는 계약을 맺었는데요. 또 오픈AI는 사진 데이터 보관소인 셔터스톡(Shutterstock)과도 계약을 맺었습니다.

이번 달에는 구글이 작곡 AI 도구에 들어갈 아티스트 목소리를 위해 음반사 유니버설 뮤직과 계약을 논의 중이라는 소식도 있었고요. 자산운용사 피델리티는 자사의 금융 정보에 대한 접근을 요청하는 기술기업들로부터 여러 가지 제안을 받고 있다고 밝히기도 했습니다. 또, 영국 공영방송인 BBC의 이미지나 영상 아카이브를 위해 AI연구업체들이 BBC와 계약을 추진한다는 얘기가 돌기도 했고요. 학술지 전자 도서관인 제이스토어(jstor)도 여러 업체 관심의의 대상으로 떠올랐습니다.

[앵커]
이렇게 데이터 확보 경쟁이 치열할 경우, 데이터 원본을 보유하고 있는 입장에선 몸값을 계속 올리려 하겠네요.
[기자]
그렇죠. 주식 투자자 토론장으로 유명한 레딧과 컴퓨터 프로그래머들에게 유명한 질의응답 사이트인 스택오버플로우의 경우 자사 데이터 접근 비용을 최근 인상했는데요. 이들 사이트는 모두 사용자가 여러 개의 답변 중 선호하는 것을 선택하게 해 어떤 답변이 가장 관련성이 큰지를 알 수 있게 해줘 특히 유용한 것으로 평가받고 있습니다.

자사 데이터를 함부로 채굴해가지 못하도록 하는 방어전도 펼쳐지고 있는데요. 트위터의 경우 챗봇이 트위터 내용을 함부로 긁어가지 못하도록 조처했고, 트위터 데이터는 누구라도 비용을 내고 가져가도록 했습니다. 일론 머스크는 이런 자사 데이터를 통해 별도의 인공지능 사업체를 구상하고 있습니다.

[앵커]
데이터를 계속해서 확보해가는 게 중요해졌는데, 이에 더해서 기존에 갖고 있는 데이터의 품질을 향상하려는 노력도 이뤄지고 있나요.
[기자]
네, 그렇습니다. 새로운 데이터를 확보하는 것만큼 중요한 게 기존 데이터의 품질을 올리는 건데요. 많은 AI 연구소는 이미지 데이터에 이름표를 붙이고 질의응답의 답변 내용에 점수를 매기는 작업을 하고 있습니다. 이런 것을 데이터 주석 작업이라고 하는데요. 관련 인력의 구인 수요도 높아지고 있습니다.

또, 기존 데이터의 품질을 높이기 위한 방법으로는 사용자들이 AI를 활용하는 과정에서 이차적으로 발생하는 데이터를 수집하는 건데요. 대표적으로 사용자들이 어떤 데이터 결과물에 크게 만족했는지를 표시하는 피드백 메커니즘 형태를 띠고 있습니다. 어도비 파이어플라이의 이미지 생성기는 사용자들이 네 가지 선택지 중에 하나를 선택하도록 하는데요. 구글의 챗봇인 바드도 세 가지 답안을 제시합니다.

이들 선택지에 대한 사용자들의 선호도는 다시 AI모델에 입력돼서 피드백 작용을 하는데요.
챗봇 답안지의 품질이 얼마만큼 높은지를 구분하는 척도는 사용자가 결과물을 다른 곳으로 '복붙'하는지 여부라고도 합니다. 이런 데이터 피드백 과정을 거쳐 크게 성공한 사례로, 구글 번역기를 들 수도 있겠습니다.

[앵커]
네, AI데이터 확보 경쟁이 얼마나 치열한지 살펴보고 있는데요. 그런데 아직 전혀 개척되지 않은, 미지의 데이터 영역도 남아있다고요.
[기자]
네, 이 부분을 말씀드리려면 비정형 데이터라는 것을 소개해드려야 하는데요. 데이터는 크게 세 가지 범주로 나눌 수 있는데, 정형 데이터와 반정형, 그리고 비정형 데이터입니다. 정형 데이터는 구조화된 데이터, 즉 서로 연관있는 데이터베이스로 구성되어서 특정 분야에 보다 쉽게 적용가능하고 관리될 수 있는데요.
반정형은, 안티의 반이 아닌 하프의 반인데요. 정형과 비정형의 중간 단계이고요. 비정형 데이터는 구조화되지 않은 데이터로, 일반적인 연관성이 없는 데이터들로 구성되어 있는데, 현대 업무 공간 어디에나 있는 데이터라고도 할 수 있습니다.

컴퓨터를 오래 쓰다 보면, 하드 디스크의 조각 모으기 같은 것을 해보잖아요. 하나의 기업이 업무 과정 어디에서나 생성될 수 있는, 그러나 뿔뿔이 흩어져 있는 각종 데이터를 통틀어 비정형 데이터라고 할 수 있습니다.

예를 들어, 많은 기업이 콜센터 기록부터 고객 지출 기록에 이르기까지 방대한 양의 유용한 데이터를 종종 무의식적으로 보유하고 있는데요. 이런 정보는 콜센터 직원이 고객 문의에 답변하거나, 회사 매출을 증진하는 방법을 찾는 것과 같은 특정 목적을 위해 활용될 수 있습니다.

업계 추정치에 따르면 이런 비정형 데이터가 전체 데이터의 80~90%를 차지하는 것으로 분석되기도 하는데요.
전문가들은 이런 비정형데이터에 대해 "그 활용 방법을 알아내는 회사는 경쟁 우위를 창출할 수 있다"며 "잠재력을 가진 거대하지만, 개척되지 않은 데이터 소스"라고 평가합니다. 실제로 이미 대형 기술기업인 아마존과 마이크로소프트는 자사의 법인 고객들이 이런 비정형데이터 세트를 더 관리하도록 돕는 도구를 개발해 제공하고 있습니다.

데이터베이스 업체인 스노플레이크의 제품 담당 부사장은 "고객들이 자신들의 데이터 저장고를 허무는 모습을 바라보면서 우리 사업은 호황을 누리고 있다"고 언급하기도 했는데요. 실제 신생기업들도 이쪽 사업에 몰리고 있는데요.
데이터베이스 스타트업 기업인 위비테, 파인콘, 네온 등이 최근 몇 달 사이 대규모 자금 조달에 성공했다는 소식들이 들려왔습니다. 이런 현상에 대해 전문가들은 데이터 쟁탈전이 이제 막 시작됐을 뿐이라고 평가하고 있습니다.

(연합인포맥스 방송뉴스부 권용욱 기자)

※본 콘텐츠는 연합뉴스경제TV 취재파일 코너에서 다룬 영상뉴스 내용입니다.

ywkwon@yna.co.kr
(끝)

본 기사는 인포맥스 금융정보 단말기에서 09시 26분에 서비스된 기사입니다.

권용욱 기자 ywkwon@yna.co.kr

상단영역

본문영역

SNS 기사보내기

AI가 불붙인 데이터 쟁탈전…이미 시작됐다

SNS 기사보내기