머스크는 AI 훈련 데이터가 고갈되었다는 견해에 동의하며 합성 데이터가 미래의 방향이 될 것이라고 말했다

2025-01-09 19:18:27

수집

ChainCatcher 메시지에 따르면, TechCrunch의 보도에 의하면, 엘론 머스크는 Stagwell 의장 마크 펜과의 라이브 대화에서 현재 AI 모델의 훈련이 실제 세계의 데이터를 거의 소진했다고 밝혔습니다. "우리는 인류 지식의 누적 총합을 다 써버렸습니다. 이는 작년에 발생했습니다." 머스크는 전 Open AI 수석 과학자 일리야 수츠케버와 같은 의견을 공유하며, 그는 NeurIPS 머신러닝 컨퍼런스에서 AI 산업이 "데이터 정점"에 도달했으며, 앞으로 모델 개발 방식을 변경해야 할 수도 있다고 언급했습니다.

머스크는 합성 데이터가 실제 데이터를 보완하는 방법이 될 것이라고 생각하며, AI는 생성 및 자기 평가 데이터를 통해 자기 학습을 실현할 것이라고 말했습니다. 이 추세는 마이크로소프트, 메타, Open AI 및 Anthropic과 같은 기술 대기업들이 채택하고 있으며, 마이크로소프트의 Phi-4 모델과 구글의 Gemma 모델은 실제 데이터와 합성 데이터를 결합하여 훈련되고 있습니다. 가트너는 2024년 AI 및 분석 프로젝트에서 약 60%의 데이터가 합성 생성될 것이라고 예측했습니다.

합성 데이터의 장점에는 비용 절감이 포함됩니다. 예를 들어, AI 스타트업 Writer는 거의 완전히 합성 데이터 기반인 Palmyra X 004 모델을 개발하는 데 약 70만 달러를 지출했으며, 비슷한 규모의 Open AI 모델 개발 비용은 약 460만 달러입니다. 그러나 합성 데이터에는 모델의 창의성 저하, 출력 편향 심화, 그리고 잠재적인 모델 붕괴와 같은 위험도 존재합니다. 특히 훈련 데이터 자체에 편향이 있을 경우 생성 결과도 영향을 받을 수 있습니다.

원천

위험 경고