오픈AI의 공동 창립자인 일리야 수츠케버는 인공지능(AI) 산업의 미래를 바꿀 수 있는 다가오는 데이터 위기에 대해 경종을 울리고 있다.
무슨 일 있었나: 금요일 밴쿠버에서 열린 ‘신경 정보처리 시스템 컨퍼런스'(NeurIPS)에서 수츠케버는 AI 개발을 뒷받침하는 중요한 자원이 고갈되고 있다고 경고했다고 옵저버(Observer)에서 보도했다.
수츠케버는 “데이터는 AI의 화석연료인데, 우리는 ‘피크 데이터'(peak data)에 도달했고 더 이상은 없을 것”이라고 말했다.
이러한 데이터 액세스 제한에 대한 증거가 점점 더 많아지는 가운데 나온 것이다. 데이터 프로방스 이니셔티브(Data Provenance Initiative)의 연구에 따르면, 2023년과 2024년 사이에 웹사이트 소유자가 AI 기업이 고품질 데이터 소스의 25%와 주요 AI 데이터 세트 전체 데이터의 5%에 액세스하지 못하도록 차단한 것으로 나타났다.
이러한 데이터 부족 현상은 이미 업계 리더들에게 적응을 강요하고 있다. 오픈AI의 CEO인 샘 올트먼은 AI 모델 자체에서 생성된 정보인 합성 데이터를 대안으로 사용할 것을 제안했다. 또한 새로운 o1 모델을 통해 향상된 추론 기능을 모색하고 있다.
이 기사도 읽어보세요: 프리시전 뉴로사이언스 1억 2천만 달러 자금 조달 성공, 일론 머스크의 뉴럴링크와 치열한 경쟁
왜 중요한가: 데이터 부족 문제는 벤처 캐피털 회사인 앤드리슨 호로위츠의 최근 관찰 내용을 반영한다. 마크 앤드리슨은 여러 회사가 비슷한 기술적 한계에 부딪히면서 AI 역량이 정체되었다고 지적했다.
올해 초 오픈AI를 떠나 앤드리슨 호로비츠와 세쿼이아 캐피털 등의 투자자로부터 10억 달러의 지원을 받아 세이프 슈퍼인텔리전스(Safe Superintelligence)를 설립한 수츠케버는 AI가 데이터 의존성을 넘어 진화할 것이라고 믿는다.
“미래의 AI 시스템은 제한된 데이터로 사물을 이해하고 혼동하지 않을 것”이라고 말했지만 구체적인 방법이나 시기는 밝히지 않았다.
AI 학습을 위한 고품질의 다양한 데이터 세트에 접근하는 것이 점점 더 어려워짐에 따라 오픈AI, 메타 플랫폼스, 엔비디아, 마이크로소프트 같은 회사들이 데이터 스크래핑 방식을 채택하고 있지만 논란의 여지가 없지는 않다.
예를 들어, 마이크로소프트의 링크드인은 최근 서비스 약관을 업데이트하기 전에 사용자 데이터를 사용하여 AI 모델을 학습시켰다는 이유로 면밀한 조사를 받았다.
마찬가지로 메타 플랫폼스는 유럽에서 공개적으로 이용 가능한 소셜 미디어 게시물을 사용하여 대규모 언어 모델인 라마(Llama)를 학습시켜 왔지만, 개인정보 보호 문제로 인해 법적 문제가 제기되었다.
엔비디아 역시 인기 기술 유튜버인 마르케스 브라운리(Marques Brownlee)의 동영상을 포함해 유튜브와 넷플릭스에서 동영상을 스크랩하여 AI 시스템을 학습시켜 왔다. 이러한 기업들은 자신들의 관행이 저작권법을 준수한다고 주장하지만, 명시적인 동의 없이 데이터를 스크랩하는 행위의 윤리적 함의는 업계 전반에 걸쳐 경각심을 불러일으켰다.
이미지 제공: Shutterstock
면책 조항: 이 콘텐츠는 부분적으로 AI 도구의 도움을 받아 생성되었으며, Benzinga 편집자가 검토하고 게시했습니다.
다른 트레이더들보다 30분 일찍 시장 움직임에 대한 독점 뉴스를 받아보세요.
Benzinga Pro의 독점 뉴스를 통해 수백만 명의 다른 트레이더보다 더 빠르게 유용한 투자 뉴스를 확인할 수 있습니다. 여기를 클릭하여 14일 무료 체험을 시작하세요.