최근 딥시크로 인한 글로벌 쇼크가 굉장합니다.
딥시크(DeepSeek)는 중국의 AI 스타트업으로, GPT-4 수준의 성능을 훨씬 낮은 비용으로 구현하여 주목받고 있는 것입니다.
다시 말해서,, "AI를 어떻게 이렇게 싸게 만들었지?", "그리고 오픈소스를 공개했네?", "게다가 무료로 사용할 수 있대!"라는 것이 핵심 관건인데, 여기에서 파생되는 현상들의 파급력은 상당하기 때문입니다.
그래서 오늘은 딥시크의 이러한 비용 절감의 배경과 원인, 그리고 개발 방법과 개발자에 대해 간략하게 알아볼 거예요.
개발 비용 절감의 배경 및 방식
서치 결과, deepseek의 저렴한 개발 비용의 배경과 원인들을 취합하자면, 다음과 같습니다.
효율적인 학습 아키텍처 도입
딥시크는 '전문가 혼합(MoE : Mixture-of-Experts)' 아키텍처를 채택했다고 해요.
MoE는 여러 개의 전문가 모델이 각자의 분야에서 작업을 수행하는 방식을 본뜬 것으로,
특정 작업에 특화된 여러 거대언어모델(LLM)을 통합한 후, 필요한 LLM만 선별적으로 가동하는 기술입니다.
이를 통해 불필요한 연산을 줄이고, 모델 학습과 추론 시 필요한 자원을 효율적으로 사용할 수 있다고 합니다.
지도 미세 조정 단계 생략
딥시크는 대규모 언어 모델 개발 과정에서 통상적인 '지도 미세 조정' 단계를 생략하는 혁신적 접근법을 택했습니다.
지도 미세 조정은,,
인간 전문가가 레이블을 지정한 데이터를 사용하여 모델을 미세하게 조정하는 과정으로,
많은 시간과 비용이 소요되는데, 바로 이 단계를 생략함으로써 개발 비용과 시간을 절감할 수 있었던 것으로 알려지고 있습니다.
오픈소스 활용
딥시크는 개발 과정에서 기존의 오픈소스 자원을 적극 활용하여, 개발 시간을 단축하고, 비용 효율성을 높임으로써 개발 비용을 절감했다고 합니다.
그러나 미국을 위시한 서방 진영에서는 바로 이런 측면에서 기술 유출 등의 의혹을 제기하고 있는 상황이기도 합니다.
클라우드 인프라 활용
초기 투자 비용을 줄이기 위해 클라우드 기반의 인프라 활용을 통해 물리적 장비에 대한 투자를 최소화하고, 필요에 따라 자원을 유연하게 조절할 수 있었다고 합니다.
우수한 인재 확보
딥시크는 베이징대학교 등 명문대 출신의 젊은 인재들을 적극적으로 채용하였습니다.
이들은 AI 및 데이터 분석 분야에서 높은 전문성을 갖추고 있어, 혁신적인 기술 개발에 기여했죠.
젊은 인재들의 창의적인 아이디어와 접근 방식을 통합하여 팀의 혁신성을 높인 것을 보면, 중국에 대한 선입견을 버려야 할 것 같습니다.
천재 AI 소녀 '뤄푸리(羅福莉)'는 누구인가?
뤄푸리는 1995년 중국 쓰촨성 이빈시의 시골 마을에서 태어났습니다.
지금 중국에서는 여기가 순례지가 되고 있을 정도예요.
뤄푸리는 베이징사범대학에서 컴퓨터과학을 전공한 후, 베이징대학교에서 컴퓨터 언어학 석사 학위를 취득,
이후 알리바바의 AI 연구 부서인 '앨리스마인드'에서 주요 역할을 맡았으며, 2022년 딥시크에 합류하여 '딥시크 V2' 모델의 주요 개발자로 활약하였습니다.
딥시크 V2는 '전문가 혼합(MoE)' 기법을 초기에 도입한 모델로, 이것의 주요 개발자인 뤄푸리는 이미 기술적 역량을 보여준 것입니다.
최근에는 샤오미로부터 연봉 20억 원의 제안을 받는 등 중국 내에서 'AI 신동'으로 불리며 주목받고 있습니다.
뤄푸리는 자연어 처리(NLP) 분야에서 두각을 나타냈는데, 2019년에는 세계적인 NLP 학술 대회인 ACL에서 8편의 논문을 발표하며 주목받기도 했습니다.
그러니까 여기서 알 수 있듯이.,, 컴퓨터에 대한 해박한 지식 배경 이전에 이미 언어학적 지식이 상당한 수준이었다는 겁니다. (언어학 석사)
뤄푸리는 대학을 갓 졸업한 20대 초반이나 경력이 짧은 신입 AI 전문가들로 팀을 꾸려 딥시크를 개발하였으며, 실제 R1 모델에 대한 논문에는 약 200여 명의 젊은 연구자들이 참여했습니다.
이러한 배경과 노력 덕분에 딥시크는 낮은 비용으로도 고성능 AI 모델을 개발할 수 있었으며, 이는 AI 산업에 큰 파장을 일으키고 있는 것입니다.
한 마디로,, 열정과 창의성의 결과물인 셈이죠.
그런데 우리나라는 지금.. ㅜㅜ
(오늘은 여기까지..)
(p.s) 참고로,,
'딥시크 V3'가 언어 생성형 모델이며, 지금 우리가 주로 주목하고 있는 모델이며,
'딥시크 R1'은 추론에 강화된 모델로서 V3 보다 정교한 수학 문제, 코딩, 논리적 추론 문제에 적합한 모델입니다.
그런데 현재 보안 문제로 중국 외 나라에서는 심각한 국가 안보 위협 때문에 접속 차단 조치까지 고려하는 상황이기도 합니다.
AI 에너지 인프라, 대한민국의 현실 및 과제
인공지능(AI)은 현대 사회의 기술 혁신을 이끄는 중요한 동력이지만, 그 발전은 대규모 전력 에너지 소비를 동반합니다.특히 고성능 컴퓨팅(HPC)과 데이터센터의 막대한 전력 수요는 AI 인프라 확
mary-ann.tistory.com
AI 인공지능 부작용 및 인간성 관련 근본적 문제점
인공지능(AI)에 대한 논란이 급부상하고 있습니다. 일상 속 AI 시대가 이제는 상상이 아니라 현실이 되어가고 있기 때문이며, 그 발전 속도가 예상치를 상회하고 있기 때문입니다. 그리고 얼마 전
mary-ann.tistory.com
최근댓글