애플(NASDAQ:AAPL)은 제작자의 동의 없이 알파벳(NASDAQ:GOOG) (NASDAQ:GOOGL)의 자회사 유튜브 동영상을 사용하여 인공지능(AI) 모델을 훈련시킨 혐의로 기소되었다.
사건의 전말 (What Happened): MKBHD로도 알려진 기술 유튜버 마르케스 브라운리(Marques Brownlee)는 소셜 미디어를 통해 애플이 AI 교육을 위해 유튜브 콘텐츠를 사용하는 것에 대한 우려를 표명했다.
브라운리는 애플이 다양한 회사로부터 데이터를 수집했으며 그 중 하나가 자신의 것을 포함하여 유튜브 동영상에서 데이터와 대본을 스크랩했다고 밝혔다. 브라운리는 스크래핑에 대한 이 회사의 잘못은 없지만 이 문제는 지속될 가능성이 있다고 지적했다.
브라운리는 “애플은 스크래핑하는 회사가 아니기 때문에 기술적으로 “결함”을 피한다. 그러나 이것은 오랫동안 진화하는 문제가 될 것이다”라고 썼다.
Apple has sourced data for their AI from several companies
One of them scraped tons of data/transcripts from YouTube videos, including mine
Apple technically avoids “fault” here because they’re not the ones scraping
But this is going to be an evolving problem for a long time https://t.co/U93riaeSlY
— Marques Brownlee (@MKBHD) July 16, 2024
MKBHD는 또 다른 게시물에서 다음과 같이 썼다. “재미있는 사실은 내 동영상을 보다 정확하게 전사하기 위해 서비스(분 단위)를 지불하고 이를 유튜브 백엔드에 업로드한다. 따라서 텍스트를 스크래핑하는 회사들은 여러 가지 방법으로 유급 작업을 훔치는 것이다. 별로 않좋다.”
Fun fact, I pay a service (by the minute) for more accurate transcriptions of my own videos, which I then upload to YouTube’s back-end. So companies that scrape transcripts are stealing *paid* work in more than one way. Not great.
— Marques Brownlee (@MKBHD) July 16, 2024
브라운리가 공유한 9to5Mac의 보고서에 따르면 애플을 포함한 여러 기술 대기업들이 170,000개 이상의 비디오에서 제3자가 다운로드한 자막 파일을 사용하여 AI 모델을 훈련했다고 밝혔다. 이 데이터에는 브라운리, 미스터 비스트(MrBeast), 퓨디파이(PewDiePie), 스티븐 콜베어(Stephen Colbert), 존 올리버(John Oliver), 지미 키멀(Jimmy Kimmel)과 같은 제작자의 동영상 스크립트가 포함되어 있다.
프루프 뉴스(Proof News)의 조사에 따르면 파일(Pile)로 알려진 일루더AI(EleutherAI)의 데이터 세트는 엔비디아(NASDAQ:NVDA)와 세일즈포스(NYSE:CRM)와 같은 주요 회사들에서 AI 교육에 사용된 것으로 나타났다.
회사들은 플랫폼에서 자료의 무단 수집을 금지하는 유튜브 규정에도 불구하고 이러한 관행을 추구했다.
애플, 엔비디아, 구글 및 앤트로픽은 벤징가의 질문에 즉각 답변하지 않았다.
문제의 심각성 (Why It Matters): AI 훈련을 위한 무단 콘텐츠 스크래핑 문제는 기술 업계에서 점점 더 큰 우려를 불러일으키고 있다. 최근에는 오픈AI와 앤트로픽이 웹 스크래핑 규칙을 무시하는 것으로 알려져 논란을 불러일으켰다. 이들 회사는 웹사이트의 자동 스크래핑을 방지하도록 설계된 robots.txt 프로토콜을 우회한 것으로 알려졌다.
이러한 관행에 대응하여 레딧(NYSE:RDDT)는 최근 자동화된 콘텐츠 스크래핑을 차단하도록 플랫폼을 업데이트했다. 이러한 정책 변경으로 인해 레딧의 주가가 거의 9% 급등하여 데이터 개인 정보 보호 문제에 대한 시장의 민감성이 부각되었다.
앞서 메타 플랫폼스(NASDAQ:META)도 데이터 스크래핑 문제에 직면해 한 중국 회사를 상대로 법적 조치를 취했다. 이 사건은 다양한 소셜 미디어 플랫폼 전반에 걸쳐 문제가 널리 퍼져 있음을 강조한다.
또한 일론 머스크는 X에서 트윗 페이월을 구현하는 이유로 AI 스크래핑을 언급했다. 이제 사용자가 트윗을 읽으려면 계정이 필요하며, 하루에 600개 이상의 게시물을 보려면 트위터 블루에 액세스 비용을 지불해야 한다.
Shutterstock를 통한 이미지
이 기사는 Benzinga Neuro를 통해 작성되었으며, 카우스트부 바갈코트가 편집했다.
Benzinga Pro의 독점 뉴스 및 도구로 더 많은 승리를 거두세요
독점 속보 및 스캐너와 같은 Benzinga Pro의 강력한 도구 세트로 다른 트레이더보다 우위를 점하세요.
여기를 클릭하여 14일 무료 체험을 시작하세요.