TOP
class="layout-aside-left paging-number">
본문 바로가기
기타 프로그래밍/통계학, 프로그래밍 상식 등

[LLM] 거대 언어 모델이란? (feat. GPU, NVIDIA)

by 기록자_Recordian 2024. 5. 28.
728x90
반응형

챗gpt와 엔비디아 등으로 요새 LLM 이라는 단어가 주목받고 있다.

그렇다면 LLM 이란 무엇인가?

이미지 출처: ko.ulap

LLM 이란?

 

LLM (Large Language Model)은 '거대 언어 모델' 로써, 

대용량 인간 언어를 이해하고 생성할 수 있도록 훈련된 인공지능(AI) 모델이다. 딥러닝 알고리즘과 통계 모델링을 바탕으로 자연어 처리 작업에 활용된다.
주어진 언어 범위 내에서 정해진 패턴이나 구조, 관계를 학습하는 기존 언어 모델과 달리 대규모 언어 데이터를 학습해 문장 구조 문법, 의미 등을 파악하고 자연스러운 대화 형태로 상호작용이 가능하다. 콘텐츠 패턴을 학습해 추론 결과로 새로운 콘텐츠를 만드는 생성형 AI의 핵심 기술로 손꼽히기도 한다. 오픈AI에서 개발한 ‘챗GPT’와 메타의 ‘LLaMa’ 등이 대표적 사례다.

또, 최근에는 구글에서 제미나이 (Gemini) 라는 차세대 거대 언어모델 기반 인공지능을 개발했다.

 

대형 언어 모델은 자연어 처리(NLP) 분야를 혁신하고 컴퓨터가 인간 언어를 이해하고 생성하는 방식을 변화시키고 있다. 또한, LLM은 복잡한 인공지능 시스템으로, 자연어를 처리하고 이해하는 것을 목적으로 설계되었는데, 이러한 모델들은 방대한 양의 텍스트 데이터로 훈련되어 다양한 질문과 프롬프트에 대해 일관된 응답을 생성할 수 있다.


LLM의 주요 특징

 

고급 딥러닝 기술을 활용함으로써, LLM은 패턴을 분석하고 의미를 추출하며 놀라운 정확도로 인간과 유사한 텍스트를 생성할 수 있다. 특히, 언어 번역, 전체 텍스트 생성 및 요약, 감정 분석, 그리고 질문-답변 시스템에서 뛰어난 능력을 가지고 있다.

 

이 모델의 응용 분야는 광범위하며 빠르게 성장하고 있는데, 챗봇과 가상 비서부터 콘텐츠 생성과 정보 검색까지, 고객 서비스, 교육, 의료, 심지어 창작에 인간 언어를 가르치는 데 다방면으로 사용되고 있다.


LLM의 주요 기능과 능력
출처: Bureau Works

 

언어 이해

LLM은 정교한 아키텍처와 훈련 덕분에 깊은 학습 모델을 통해 언어 이해에서 뛰어난 성과를 보인다. 각 모델은 대규모이고 방대한 데이터로 훈련되었고, 이러한 모델들은 문법, 구문 및 의미적 관계의 미묘한 차이를 이해하여 인간의 언어를 정확하게 해석하고 처리할 수 있다.

언어 생성
LLM은 인간과 같은 언어 응답을 생성하는 데 능숙하다. 주어진 프롬프트에 따라, 그들은 자연스러운 인간의 언어와 유사한 일관된 맥락에 맞는 텍스트를 생성할 수 있다. 이 기능은 LLM을 콘텐츠 생성, 챗봇 및 가상 어시스턴트 애플리케이션에서 가치있게 만든다.

다국어 지원
대형 언어 모델은 여러 언어에서 텍스트를 처리하고 생성할 수 있다. LLM은 다양한 언어로 구성된 대량의 텍스트 데이터를 학습하여 다양한 언어적 맥락에서 텍스트를 이해하고 생성할 수 있다. 이 기능은 특히 다국어 커뮤니케이션이 흔한 오늘날의 글로벌화된 세계에서 매우 가치있다.

Transformer 아키텍처
LLM은 NLP 분야에 혁명을 일으킨 Transformer 아키텍처 위에 구축되었다. 트랜스포머 아키텍처는 LLMs가 장거리 종속성과 문맥 정보를 효율적으로 포착할 수 있게 해준다. 이 메커니즘은 모델이 입력의 전체 맥락을 고려하여 일관되고 의미 있는 응답을 생성할 수 있도록 한다.

전이 학습
LLM은 대규모 데이터셋에 대한 사전 훈련으로 얻은 지식을 활용할 수 있는 전이 학습의 힘을 활용한다. 이 사전 훈련 단계는 모델에게 방대한 양의 데이터를 노출시켜 언어에 대한 광범위한 이해력을 습득하도록 한다. 그 후에, LLM은 작은 작업별 데이터셋을 사용하여 특정 작업 프로그래밍 언어나 도메인에 대해 성능을 향상시키기 위해 세부 조정될 수 있다.

다양한 작업에 대한 적응성
대형 언어 모델 은 다양한 NLP 작업을 수행하기 위해 적응될 수 있다. 예를 들어, 그들은 기계 번역, 감성 분석, 텍스트 요약, 질문-답변 등을 위해 세밀하게 조정될 수 있다. 특정 데이터셋을 훈련시키고 한 언어에서 다른 특정 작업을 위해 최적화함으로써, LLMs는 NLP 작업의 많은 영역에서 인상적인 결과를 제공하고 전통적인 접근법을 능가할 수 있다.

문맥적 이해
LLMs 는 문맥 속에서 언어를 이해하고 해석할 수 있다. 입력 문맥 전체를 고려하면, 그들은 단어와 구문 사이의 의존성을 포착할 수 있다. 이 문맥 이해는 LLMs가 일관되고 관련성이 있으며 문맥에 적합한 응답을 생성할 수 있도록 한다.

LLM의 주요 기능과 능력은 다양한 분야에서 그들의 광범위한 사용으로 이어졌다. 그들은 의료 분야에서 고용되어 의료 기록 분석 및 진단 지원과 같은 업무를 수행한다. LLM은 고객 서비스 응용 프로그램에서도 사용되어 자동 응답을 제공하고 효율성을 향상시킨다. 교육 분야에서 LLM은 개별 학습 요구에 적응할 수 있는 지능형 학습 시스템 개발을 지원하는 데 훈련을 받는다.


엔비디아와 LLM(Feat. GPU)

 

엔비디아가 요즘 주목받는 이유는,

챗GPT 같은 '생성형 AI' 기업이라면 엔비디아가 설계한 AI용 GPU가 필수다.

현재 오픈 AI (챗GPT 개발 회사) 나 구글 등이 LLM을 학습시키는데 필요한 AI 반도체는 엔비디아만 유일하게 공급할 수 있기 때문이며, AI 반도체 시장(학습과 추론)의 90% 이상은 엔비디아가 장악하고 있다고 한다.

 

최근 들어 인텔, 메타, 아마존, 애플 등 굴지의 기업들이 엔비디아의 독점 구도를 깨기 위해 자체 AI 칩을 내놓고 있지만, 성능 면에서 ‘퍼스트무버’의 아성을 무너뜨리기엔 역부족이란 평가가 나온다.

이미지 출처: NVIDIA

 

[엔비디아 - GPU]

출처: 이데일리 '엔비디아 성공 비결은…GPU 장악·초격차 유지'

 

아이러니하게도 GPU의 애초 설계 목적은 게임을 더 잘 구현하기 위한 용도였다. 2000년대 그래픽카드 ‘지포스(GeForce) 시리즈’로 게임업계를 휩쓸었던 엔비디아는 GPU의 다양한 활용성을 예측해 성능 개발에 몰두했다. 2000년대 중반 작업을 동시에 처리하는 GPU가 데이터를 순서대로 처리하는 중앙처리장치(CPU)와 달리 방대한 정보를 빠르게 학습하고 능력을 키워가는 AI를 구동하는 데 적합한 것을 발견한 후 AI 시장에서 엔비디아의 독주가 시작됐다.

엔비디아가 AI 시장에서 주도적인 위치를 차지하는 데 결정적 역할을 한 게 바로 2007년 개발한 소프트웨어 플랫폼 ‘쿠다(CUDA)’에 있다. 개발자들은 쿠다를 통해 GPU의 성능을 최적화할 수 있고, 이를 통해 복잡한 AI 모델을 더 빠르게 훈련시킬 수 있다. 전 세계 약 400만명의 개발자가 쿠다를 사용하며 사실상 업계 표준으로 자리 잡았다.

 

쿠다로 만든 AI 프로그램은 엔비디아 GPU에서만 구동되는데 결국 사용소비자를 생태계 안에 가둬둔다는 ‘록인(자물쇠) 효과’로 쿠다를 벗어날 수 없게 된 것이다. 자체 운영체제(iOS)와 플랫폼(앱스토어 등)을 갖춘 애플의 폐쇄적 생태계 전략과 유사하다. 크리스토스 코지라키스 스탠퍼드대 전기공학 교수는 “소프트웨어가 왕”이라며 “엔비디아는 수년에 걸쳐 소프트웨어 생태계를 구축해온 터라 AI 시장에서 상당한 이점을 갖고 있다”고 말했다.

 

엔지니어 출신들이 설립한 엔비디아는 기술 중심 회사로 신제품을 1~2년마다 꾸준히 내놓는다. 챗GPT를 훈련 시킨 것으로 알려진 A100(2020년 출시)이 시장에서 잘나가던 중에 최대 30배까지 성능이 뛰어난 H100을 2022년 선뵀다. 최근엔 전작보다 추론 시간이 5배 빠른 블랙웰 기반 B100을 공개해 연내 양산을 예고했다. 젠슨 황 엔비디아 CEO는 블랙웰을 공개하며 “생성형 AI 산업혁명을 구동하는 엔진이 될 것”이라고 했다. 자사 제품의 성능을 지속적으로 업그레이드해 초격차를 유지하는 게 엔비디아의 또 다른 성공 비결이다.


AGI ( 범용인공지능) - 데이터센터 - GPU

 

출처: 매경DB

 

AI가 인간과 동등하거나, 필적할 만한 지능을 갖췄을 때 AGI라고 부르며, 대표적으로 영화 ‘아이언맨’ 시리즈에서 토니 스타크를 보조하는 AI ‘자비스’, 영화 ‘그녀(HER)’에 나오는 AI 운영체제(OS) ‘사만다’가 있다.

머지않은 미래에 이처럼 우리의 명령을 수행하고 일부 영역에선 판단까지 대신해줄 수 있는 AI가 하나의 통합된 운영체제 형태로 나타날 수 있다는 관측이 나온다. 이렇게 인공지능(AI) 기술이 놀라운 속도로 발전하고, 관련 시장이 기하급수적으로 커지는 가운데 데이터센터 수요가 팽창하고 있다.

데이터센터에 대한 수요는 폭발적으로 성장해왔고, 앞으로 더 커질 전망이다. 이는 AI, 클라우드, 6G(6세대 이동통신), 자율주행, 가상세계(증강현실(AR)·가상현실(VR)) 등 새롭게 각광받고 있는 거의 모든 기술 분야에서 데이터 사용량이 급증하고 있기 때문이며 특히 최근에는 AI 특화 데이터센터 구축 움직임이 활발하다.

AI 시장 기술 주도권을 잡기 위해서는 머신러닝과 딥러닝 등을 위한 학습과 추론에 필수적인 그래픽처리장치(GPU) 같은 설비들이 많이 필요하기 때문에 이를 관리·지원하는 핵심 시설인 데이터센터의 중요성이 갈수록 부각되고 있는 것이다.

챗GPT를 비롯해 현재 오픈AI가 준비하고 있는 다양한 AI 서비스를 제공하기 위해서는 막대한 계산 능력이 필요한 만큼 기존 데이터센터와 비교했을 때 한층 향상된 설비들이 포함될 것이라는 예상이다.

 

AI 특화 데이터센터의 핵심은 비메모리 반도체 GPU(그래픽처리장치)인데, GPU는 원래 엔비디아가 게임 속 3D 이미지 데이터를 효과적으로 처리하기 위해 개발했지만, 한 번에 여러 계산을 할 수 있어 AI 반도체로 널리 쓰이고 있다.
GPU에 고대역폭메모리(HBM)를 조립해 만든 AI가속기, CPU와 낸드 등을 조립하면 AI컴퓨터가 된다. 통상적으로 AI 데이터센터는 이러한 AI 컴퓨터가 수백~수천대 모인 곳을 의미한다.

GPU와 함께 돌아가는 중앙처리장치(CPU)와 메모리, 네트워크 장치가 필요하고, 그렇게 만들어진 ‘고성능 서버 컴퓨터’를 수백 대 연결해 AI데이터센터를 만든다. 약 1만개 정도 GPU가 탑재된 데이터센터는 ‘AI 슈퍼 클러스터’로, 즉 AI 학습과 고객에 대한 서비스(추론)가 이뤄지는 장소가 바로 데이터센터인 것이다.
AI 데이터센터는 단순히 데이터를 저장하기 위한 곳만을 의미하는 것이 아니라 대규모언어모델을 학습시키는 전진 기지가 된다.

 

[출처: 매일경제, pmg 지식엔진연구소, Bureau Works, 이데일리, NVIDIA]

728x90
반응형