LLM 학습, 데이터 양만 늘린다고 똑똑해질까? 질의 비밀
🥄 거대 언어모델(LLM)을 제대로 학습시키려면 얼마나 많은 데이터가 필요할까요? 사실 양보다 중요한 건 ‘질’입니다. 최근 연구 결과에 따르면, 중복되거나 저품질 데이터를 무작정 쏟아붓는 것보다 정제된 고품질 데이터로 학습하는 게 훨씬 효율적이라고 해요. 지금부터 LLM 학습의 핵심 원리를 쉽게 풀어드릴게요. 도입부: 데이터는 많을수록 좋다? 🤔 ChatGPT나 Claude 같은 AI를 쓰다 보면 궁금해지잖아요. ‘이 친구들은 대체 얼마나 … 더 읽기