인공지능

의심스러운 AI 훈련 전술이 점점 더 우려스러워지다

게재 2025년 ２월 10일

데이비드 해밀턴

Securities.io는 엄격한 편집 기준을 준수하며, 검토된 링크에 대해 보상을 받을 수 있습니다. 당사는 등록된 투자 자문가가 아니며, 이는 투자 자문이 아닙니다. 자세한 내용은 계열사 공개.

AI 훈련 전략은 제대로 관리되지 않아 계속해서 비판받고 있습니다. 현대 작가들이 이전 작품에서 영감을 얻거나 심지어 차용하는 경우가 흔합니다. 이러한 관행은 글쓰기 발전의 일부이지만, 작가의 작품과 문체가 동의 없이 복제되는 경우도 있습니다.

이러한 상황이 발생하면 현대 저작권 침해법은 원저작물 제작자가 손실을 회복할 수 있도록 허용합니다. 그러나 불법적으로 취득한 저작물을 사용하여 모델을 개발한 것으로 적발된 AI 시스템의 수는 증가하고 있으며, 이는 동일한 맥락에서 볼 수 없습니다. 이제 업계는 손실을 입은 사람들에 대한 훈련 전략과 보복 측면에서 기로에 서 있습니다. 알아야 할 사항은 다음과 같습니다.

의심스러운 AI 훈련 전략

한바탕 소동 소송 이제 OpenAI와 META가 주장합니다. (META ) 모델 훈련을 위해 라이브러리 데이터를 수집할 때 의도적으로 해결책을 찾았습니다. 소송의 원고는 회사가 보상 없이 또는 언급조차 없이 저자에게서 수백만 달러를 훔칠 가능성이 있다는 사실을 알고 있었지만 신경 쓰지 않았다고 주장합니다.

이런 주장은 AI 경쟁이 저작권법에 대한 기본적인 무시로 이어졌다고 믿는 많은 사람들에게는 큰 놀라움이 아닙니다. 그런 저자들이 AI 개발자들에 대해 계속 반발하면서, 이런 시스템이 데이터를 어떻게 수집하고 처리하는지에 대한 투명성을 더 요구하고 있습니다.

아직 대중에게 명확한 경로가 공유되지는 않았지만, AI 기업에 대한 증거가 쌓이기 시작했습니다. 이 증거는 앞으로 AI 개발자가 사용하는 훈련 전략에 대한 광범위한 변화를 가져올 수 있습니다.

기업이 모델을 만드는 데 사용하는 교육 전술

AI 시스템을 훈련하는 것은 다양한 출처에서 방대한 양의 데이터를 수집하고 처리하는 복잡한 과정입니다. 이 데이터는 AI 시스템이 질문에 답하거나 새로운 시나리오를 파악하려고 할 때 참조하는 것입니다. 결과적으로 대부분의 AI 시스템은 참조할 데이터가 많을 때 더 나은 성과를 보입니다.

AI 만들기

AI 모델을 만드는 주요 방법은 데이터 수집을 포함합니다. 과거에는 데이터 수집이 엔지니어가 처음부터 구축하는 대신 이미 존재하는 데이터베이스를 찾아야 하는 시간 소모적인 프로세스였습니다. 예를 들어, 의료 서비스 제공자는 국가 건강 통계를 활용하여 더욱 관련성 있는 의료 답변을 제공하는 AI를 개발할 수 있습니다.

거기서 개발자는 어떤 알고리즘을 선택할지 결정합니다. 주요 옵션은 지도 학습, 비지도 학습, 반지도 학습, 강화 학습, 선형 회귀, 딥 러닝, 랜덤 포레스트, 나이브 베이즈, 신경망입니다. 이러한 각 알고리즘은 고유한 장단점을 제공하여 특정 작업에 더 적합합니다.

마지막으로 반복적 훈련 프로세스가 시작됩니다. 이 단계에서 모델은 제공된 정확도와 성능에 대해 질문을 받고 등급이 매겨집니다. 이 단계에서 엔지니어는 모델을 미세 조정하고 검증하여 역량을 강화할 수 있습니다. 또한 이 단계는 엔지니어가 모델이 훈련 데이터에서 계속 학습하도록 보장하는 데 도움이 되며, 단순히 암기하는 데 그치지 않습니다.

출처 – Uptech.team

현재 AI 훈련 전략은 비용이 많이 듭니다

AI 모델 학습 과정은 시간과 비용이 많이 소요되며, 학습과 실행이라는 두 가지 주요 범주로 나눌 수 있습니다. 학습은 특정 모델을 만드는 데 드는 일회성 비용을 의미합니다. 예를 들어, ChatGPT의 CEO인 샘 알트먼에 따르면, ChatGPT는 4o 모델에 약 100억 달러를 지출했습니다.

특히, 이러한 비용은 이전 모델 비용을 훨씬 웃돌았습니다. 예를 들어, ChatGPT-3의 훈련 비용은 약 4만 달러입니다. AI 훈련 비용이 증가하는 것은 더 많은 컴퓨팅 요구 사항의 직접적인 결과입니다. 최신 모델은 최신 NVIDIA 칩에서 실행되어 비용이 증가합니다.

또한 AI는 클라우드 컴퓨팅 가격을 상승시켰습니다. 대부분의 AI 애플리케이션은 사용자 PC에서 기본적으로 실행되지 않습니다. 대신, 최첨단 데이터 센터와 클라우드 컴퓨팅 알고리즘을 사용하여 방대한 컴퓨팅 요구 사항을 지원합니다. 이러한 모든 요인으로 인해 AI 프로그래밍 비용이 높아졌습니다.

AI 마켓플레이스

최근 AI 훈련 마켓플레이스의 수가 급증한 것은 비용 절감을 추구하는 이 분야에서 더 많은 개발이 이루어지고 있음을 나타냅니다. AI 마켓플레이스는 개발자, 콘텐츠 제작자 및 AI 통합을 원하는 사람들이 만날 수 있도록 합니다. 개발자는 필요에 맞게 개선하거나 미세 조정할 수 있는 이미 구축된 모델을 찾을 수 있어 그 과정에서 많은 시간과 자금을 절약할 수 있습니다.

런타임 비용

AI 시스템의 런타임 또는 추론 비용은 개발자가 고려해야 할 또 다른 비용입니다. 추론 비용은 AI와의 각 상호작용에 드는 비용을 나타냅니다. 오늘날 많은 AI 시스템을 운영하는 데 드는 비용은 더 높은데, 이는 시스템이 정확하고 유용한 응답을 제공하기 위해 모델의 모든 데이터에 접근해야 하기 때문입니다. 이 단계는 AI가 고성능 장비의 많은 컴퓨팅 파워를 자주 활용해야 함을 의미합니다. 이러한 요구 사항은 시스템에 상당한 비용을 추가합니다.

오늘날의 AI 훈련 전략은 윤리적인가?

오늘날 거대 AI 기업들이 사용하는 훈련 전략과 전술을 살펴보면, 업계 내에 윤리적, 도덕적으로 도전적인 입장들이 존재한다는 것을 쉽게 알 수 있습니다. 물론, 최고의 AI 시스템을 만들려면 개발자는 모델에 가치 있고 정확한 데이터를 제공해야 합니다. 그러나 일부 개발자들은 세트에 사용된 모든 데이터에 대한 저작권 승인을 받는 데 드는 비용이 천문학적 수준이어서 혁신을 저해할 것이라고 주장합니다.

국제 저작권법은 저자가 자신의 작품, 스타일, 초상을 허가 없이 사용하는 것을 보호합니다. AI 시스템은 사람, 장소, 정보, 스토리의 거의 정확한 복제본을 활용할 수 있다는 점에서 법적 허점을 발견한 듯하며, 지금까지 보고된 법적 반발은 거의 없습니다.

하지만 콘텐츠 제작자들 사이에서는 이러한 시스템이 불법적으로 저작물을 취득한 후 AI 모델을 훈련시켜 형식, 톤, 스타일을 그대로 복제했다는 여론이 커지고 있습니다. 최근 폭로를 통해 OpenAI의 학습 모델에서 저작권이 있는 서적을 불법적으로 사용했다는 증거가 드러났습니다.

OpenAI 소송

OpenAI에서 소송, 원고들은 개발자들이 고의로 섀도우 라이브러리를 사용하여 방대한 양의 책에 대한 비용을 지불하지 않으려 했다고 주장합니다. 섀도우 라이브러리는 저작권이 있는 작품에 대한 액세스를 무료로 제공하는 온라인 플랫폼입니다. OpenAI 소송에 나열된 플랫폼에는 LibGen, Bok, Sci-Hub, Bibliotik이 포함됩니다.

이 소송은 OpenAI와 META가 저작권법을 우회하고 있다는 것을 알고 있었다는 것을 증명하기 위해 시작되었습니다. 이는 회사들이 어떻게 그림자 라이브러리와 다른 무료 소스를 사용하여 교육 비용을 상당히 낮추고 저자들의 정당한 지불을 빼앗았는지 보여줍니다.

이러한 주장에 대해 META는 처음에는 그러한 행위에 대해 알지 못하는 척했습니다. 그러나 META가 자사의 행위에 대한 완전한 이해를 드러내는 것으로 추정되는 이메일이 공개된 후, 섀도우 라이브러리에서 81.7테라바이트(약 수백만 건에 달하는 자료)에 달하는 데이터를 토렌트로 유출했다는 사실이 밝혀졌습니다.

META 편집되지 않은 이메일

아이러니하게도, 회사가 섀도우 라이브러리를 사용하기로 한 결정의 의심스러운 본질을 잘 알고 있다는 것을 드러낸 것은 내부 이메일이었습니다. 편집되지 않은 이메일에서, 니콜라이 바슐리코프라는 걱정스러운 엔지니어는 계획의 합법성에 대해 농담을 하기 전에 프로젝트의 도덕성에 의문을 제기합니다.

이후 이메일에서 직원은 META IP 주소를 사용하여 토런트 불법 복제 콘텐츠를 로드하는 것에 대해 걱정한다고 말했습니다. 이것이 문제가 될 수 있다는 것을 인식한 META는 엔지니어에게 Facebook이나 META에 연결되지 않은 외부 서버에서 데이터를 다운로드하라고 지시했습니다.

상위로부터의 명령

마크 저커버그는 META의 토렌트 참여에 대한 질문에 자신은 그 과정에 대해 전혀 몰랐다고 답했습니다. 하지만 무삭제 이메일은 그렇지 않다는 것을 증명했습니다. 이 이메일들은 페이스북이 아닌 서버를 사용하기로 한 결정이 저커버그의 직접적인 승인 이후에 이루어졌음을 보여주는 것으로 여겨집니다.

AI 개발자들이 도난된 콘텐츠를 사용하고 있을까?

제시된 증거와 AI 역량의 급격한 향상을 고려할 때, 많은 AI 시스템이 더욱 효과적인 학습 모델을 구축하기 위해 섀도 라이브러리와 같은 수단에 눈을 돌린 것은 명백해 보입니다. 이러한 데이터세트에는 저작권이 있는 자료가 포함되어 있으며, AI 모델 학습에 사용하기 위해 저자나 출판사의 동의를 받지 않았습니다.

불법인가요?

오늘날 최첨단 AI 모델에서 불법 복제된 자료의 사용을 부인하는 것이 점점 더 어려워지고 있지만, 이러한 관행의 합법성은 여전히 의문으로 남아 있습니다. 아직까지 어떤 AI 회사도 저작권 침해법의 적용을 받지 않았습니다. 게다가, AI 경쟁이 한창인 상황에서 많은 정치인들은 자사 AI 시스템의 데이터 접근을 제한하는 것을 혁신의 걸림돌로 여길 수 있습니다. 따라서 AI 저작권 침해에 맞서 싸우는 것을 전통적인 절도처럼 쉽게 만들려는 움직임은 보이지 않을 것입니다.

소송이 쏟아지다

규제 기관은 AI 회사에 압력을 가할 준비가 되어 있지 않을 수 있지만, 콘텐츠 제작자들은 충분히 견뎌냈습니다. 콘텐츠가 보상 없이 불법적으로 취득, 배포 및 복제되었다고 주장하는 환멸을 느낀 작가들의 소송이 계속 쏟아지고 있습니다.

최근 조셉 세이버리 로펌(Joseph Saveri Law Firm)은 이 문제와 관련하여 미국 연방 집단 소송을 제기했습니다. 사라 실버먼(Sarah Silverman)과 다른 저자들을 대신하여 OpenAI와 META를 상대로 제기된 이 소송은 해당 제품이 형식과 스타일을 복제할 수 있는 능력으로 인해 발생한 손실에 대한 배상을 요구하고 있습니다.

집단 소송 소송 디지털 밀레니엄 저작권법, 형사 과실 및 불공정 경쟁법을 여러 차례 위반했다고 주장합니다. 소송의 목적은 저자에게 공정한 보상 및 보호 전략이 마련될 때까지 이러한 교육 전략에 대한 영구 가처분 명령을 받는 것입니다.

DeepSeek은 ChatGPT로 훈련되었나요?

아이러니하게도 ChatGPT는 중국 AI 스타트업이 AI 시스템에서 지적 재산을 도용당한 피해자라고 주장했습니다. DeepSeek는 시장에 파장을 일으켰습니다.. DeepSeek은 지난달 회사가 인상적인 성능, 낮은 비용, 고급 기능을 대중에게 공개한 이후 엄청난 관심을 불러일으켰습니다.

OpenAI 개발자들은 DeepSeek이 ChatGPT 데이터를 사용하여 모델을 프로그래밍했다고 비난했는데, 이를 통해 경쟁사보다 성능이 뛰어나고 비용이 훨씬 적게 드는 모델을 만들 수 있었습니다. 이에 비해 DeepSeek은 ChatGPT와 동등한 성능을 달성했고, ChatGPT가 사용한 비용은 +$6M에 비해 $100M에 불과했습니다.

또한 DeepSeek은 고유한 설정 덕분에 훨씬 적은 컴퓨팅 파워를 활용합니다. DeepSeek의 추론 비용은 단일 대규모 모델 대신 여러 개의 전문 모델을 사용하기 때문에 ChatGPT보다 훨씬 낮습니다.

따라서 DeepSeek은 질문을 참조하는 모델만 활성화하면 되므로 훨씬 저렴하고 강력한 NVIDIA 칩을 활용할 수 있습니다. 구체적으로 DeepSeek은 최신 Claude 1 Sonnet 모델을 실행하는 데 드는 비용의 50/3.5을 사용하여 장기적으로 기업에 더 비용 효율적인 솔루션이 됩니다.

그것은 빌린다

흥미롭게도 DeepSeek은 "생각하는" 스크립트를 개발하기 위해 ChatGPT를 사용하는 것을 부인하지 않습니다. 심지어 원래 DeepSeek 백서에서 그 과정을 설명합니다. 엔지니어들은 이 접근 방식이 DeepSeek에 더 정확한 정보를 제공하여 증류 과정을 가속화할 것이라고 생각했습니다.

또한, 경쟁사 AI 모델을 프로그래밍하는 데 사용된 데이터가 DeepSeek 프로그래밍에는 사용되지 않도록 했습니다. 그 결과, 이전 시스템보다 성능이 뛰어나면서도 운영 비용은 훨씬 적게 드는 더욱 효율적인 시스템이 탄생했습니다. 물론, 많은 사람들은 ChatGPT를 활용하여 자체 시스템을 개발했다면 DeepSeek의 예산에 ChatGPT의 비용도 포함되어야 한다고 주장합니다.

DeepSeek 정체성 위기

최근에 기사, AI 연구원이 DeepSeek이 ChatGPT에서 많은 것을 차용했는지 알아보기 위해 출처로 갔습니다. 그는 LLM에 DeepSeek이 Google의 경쟁자인 Gemini보다 더 똑똑하다고 생각하는지 묻는 것으로 시작했습니다. 아이러니하게도 LLM은 "ChatGPT라고 생각했다"고 답했습니다. 이 폭로는 많은 사람들에게 DeepSeek이 ChatGPT에서 수집한 엄청난 양의 데이터를 증명하는 데 필요한 모든 증거로 여겨졌습니다.

콘텐츠 제작자에게 AI 사용에 대한 보상을 제공해야 할까?

2023년 8000월에 XNUMX명 이상의 작가 그룹이 편지 META CEO Mark Zuckerberg, OpenAI CEO Sam Altman, Alphabet CEO Sundar Pichai, Stability AI CEO Emad Mostaque, IBM CEO Arvind Krishna, Microsoft CEO Satya Nadella에게 보낸 편지입니다. 이 편지에는 AI가 "우리의 언어, 이야기, 스타일, 아이디어를 모방하고 되뇌는 것"이라고 명시되어 있습니다. 보상과 인정을 요구합니다.

미국 작가 조합과 미국 배우 조합도 AI 부문에서 자신의 작품을 사용하는 것에 대해 목소리를 높이고 있습니다. 그들은 작가의 작품이 AI 모델을 만드는 데 사용될 때마다 작가에게 특정 권리와 보상을 보장하려고 합니다.

훈련 전술 옵션 등장

BookCorpus는 현재 설정의 한계와 앞으로 나아갈 실제적인 합법적인 방법이 부족하다는 것을 인식하고 더 나은 솔루션을 제공하기로 했습니다. 이 회사는 2015년에 LLM 교육을 위한 AI 연구자를 지원하는 특정 목표로 설립되었습니다. 따라서 윤리적 경계를 넘지 않고 성과를 향상하도록 설계된 수천 개의 작업과 모델이 포함됩니다.

이미 여러 AI 중심 서비스 제공업체가 시장에 진출하고 있습니다. 이러한 회사는 귀중한 데이터, 모델 등에 대한 액세스를 결합합니다. 이들은 AI 컴퓨팅 요구 사항을 충족하도록 맞춤화되어 있으며 종종 개발 비용을 더욱 줄이기 위한 방법으로 어떤 형태의 클라우드 컴퓨팅 옵션과 함께 제공됩니다.

AI LLM 혁명을 선도하는 기업

LLM의 부상으로 인해 누구나 이러한 시스템과 상호 작용하기가 그 어느 때보다 쉬워졌습니다. 간단한 채팅 프롬프트에서 심층적인 연구를 수행하고, 이미지와 스토리를 만들고, 훨씬 더 많은 것을 할 수 있습니다. 결과적으로 LLM은 평생 컴퓨터 상호 작용 기술에서 가장 큰 혁신 중 하나로 여겨집니다. LLM 시장에서 혁신을 계속 주도하는 한 회사가 있습니다.

알파벳 Inc의

알파벳 주식 회사 (GOOG ) Google과 여러 자회사의 모회사입니다. Google은 AI 분야에서 가장 인지도 높고 성공적인 기업 중 하나입니다. 흥미롭게도, 엔지니어들은 Google의 또 다른 모델인 Google DeepMind를 활용하여 Google의 Gemini LLM을 개발했습니다. Gemini는 번역, 콘텐츠 이해, 질문에 대한 답변 등 다양한 기능을 제공하는 고급 LLM입니다.

특히, Google DeepMind는 회사를 위해 LLM과 새로운 기능을 만드는 데 열심히 노력해 왔습니다. 예를 들어, 새로운 SELF-DISCOVER 기능은 모델 내에서 작업별 아키텍처를 만들어 질문에 정확하게 답하는 데 필요한 전체 시간을 줄입니다.

(GOOG )

구글의 시장 지배력, 방대한 데이터에 대한 직접 접근, 그리고 맞춤형 모델로의 지속적인 확장을 고려할 때, GOOG는 현명한 투자 대상입니다. GOOG는 전 세계적으로 가장 우수한 성과를 기록하는 AI 제공업체 중 하나이며, 자사 기술을 통합하고 대중에게 효과적으로 확장할 수 있는 네트워크와 재정을 갖추고 있습니다.

미래에는 훈련 전술이 어떻게 바뀔까

이러한 모든 요소와 정부가 AI 경쟁을 선도해야 한다는 요구가 커지면서 콘텐츠 제작자는 매우 위험한 상황에 처하게 되었습니다. 앞으로 몇 달 동안 AI 개발자는 성공을 위해 데이터를 활용하는 사람들을 존중하고 보상하는 더 효과적인 훈련 전략을 만들어낼 수 있기를 바랍니다.

다른 멋진 AI 프로젝트에 대해 알아보세요 현재.

관련 주제 :AI 프로그래밍 채팅 비용 Deepmind DeepSeek 훈련 전술