저작권 아포칼립스
소송이 늘어나고 있습니다. 작가, 예술가, 음악가들이 AI 기업들을 상대로 소송을 제기하고 있습니다. 이들은 기업들이 허가 없이 자신들의 저작물을 사용하고 있다고 주장합니다. 이는 모든 데이터를 활용해 AI를 학습시키던 시대의 종말을 의미합니다.
현재 세대의 AI는 방대하고 무단으로 수집된 데이터를 사용합니다. 다음 세대의 AI는 더 작고 합법적인 데이터셋을 사용할 가능성이 높습니다. 이러한 변화는 모든 것을 바꿀 것입니다.
법적 공방
뉴스 기관 및 작가와 같은 원고들은 다음과 같이 주장합니다:
- AI 기업들이 저작권이 있는 저작물을 허가 없이 사용한다.
- AI가 예술가의 이름과 초상을 사용한다.
- AI 제품이 원작자들과 경쟁한다.
AI 기업들은 다음과 같이 주장하며 방어합니다:
- 학습은 '변형적 이용(transformative use)'이다.
- AI는 직접 복제하는 것이 아니라 패턴을 학습하는 것이다.
핵심은 통제권입니다. 창작자들은 자신의 저작물에 대한 권리를 갖고 보상을 받기를 원합니다. AI 기업들은 개발을 계속하기를 원합니다. 법은 여전히 이 속도를 따라잡는 중입니다.
옵트아웃(Opt-Out) 방식의 문제점
Robots.txt나 NoAI 태그와 같은 도구들이 존재합니다. 이를 통해 창작자는 AI를 차단할 수 있습니다. 하지만 이것은 함정입니다.
옵트아웃 시스템은 그 책임을 창작자에게 전가합니다. 창작자가 직접 도구를 찾아 차단을 요청해야 합니다. 이것은 진정한 동의가 아닙니다. 진정한 동의란 AI 기업이 먼저 허가를 구하는 것을 의미합니다.
두 가지 가능한 미래
시나리오 1: 낙관적인 경로
AI 기업들이 라이선스 비용을 지불합니다. 텍스트를 위한 스포티파이(Spotify)와 유사한 시스템을 구축합니다. 창작자들은 보상을 받고, 모델의 성능은 유지됩니다.
시나리오 2: 비관적인 경로
AI 기업들이 소송에서 패소합니다. 기업들은 데이터를 삭제해야만 합니다. 정보 부족으로 인해 미래의 모델들은 성능이 훨씬 떨어지게 됩니다.
데이터 품질에 대한 새로운 관점
데이터가 적어지면 정확도와 미묘한 차이(nuance)를 표현하는 능력이 떨어지는 경우가 많습니다. 하지만 현재의 모델들은 노이즈가 섞인 데이터를 많이 사용합니다. 데이터의 상당 부분이 중복되어 있습니다. 오히려 더 작고 깨끗한 데이터셋이 더 나은 결과를 만들어낼 수도 있습니다.
준비 방법
- 소송 과정을 지켜보세요. 그 결과가 산업의 향방을 결정할 것입니다.
- 창작자를 지원하세요. 좋아하는 콘텐츠에 비용을 지불하세요.
- 공정성을 요구하세요. AI 기업은 데이터를 제공한 사람들에게 보상해야 합니다.
만약 여러분이 AI 학습을 위한 공정한 시스템을 구축한다면, 어떻게 작동해야 할까요? 창작자들은 어떻게 보상을 받아야 할까요?
Optional learning community: https://t.me/GyaanSetuAi
