멀티모달 AI란 무엇인가?
멀티모달 AI(Multimodal AI)는 인공지능 연구 및 응용 분야에서 혁신적인 돌파구를 제공하는 기술로, 다양한 형태의 데이터를 통합하여 더욱 정교하고 자연스러운 인간-기계 상호작용을 가능하게 한다.
모달리티(Modality)는 사전상 뜻이 ‘양식’ 또는 ‘양상’을 의미한다. 즉 어떤 형태로 나타나는 현상이나 그것을 받아들이는 방식을 말하는데, 여기서 멀티모달(Multi Modal)이 의미하는 것은 여러 양상들을 말하는 것이며, 사람이 시각, 청각 등의 오감을 이용하여 사물에 대한 정보를 파악하고 받아들이는 것을 의미한다.
AI가 등장하기 전인 10년전 쯤에는 웹 개발자와 UI 디자이너가 사용자에게 보이거나 입력하는 방식 등을 하나로 단순화하면 '유니 모달리티', 마우스와 키보드, 화면과 음성 등 여러 채널을 이용하면 '멀티 모달리티'라고 불렀던 시절이 있었다.
지금의 '멀티모달'은 시각, 청각을 비롯한 여러 인터페이스를 통해서 정보를 주고받는 것을 말하는 개념이며, 이렇게 다양한 채널의 모달리티를 동시에 받아들여서 학습하고 사고하는 AI를 '멀티모달 AI'라고 한다. 쉽게 말하면 인간이 사물을 받아들이는 다양한 방식과 동일하게 학습하는 AI라고 볼 수 있다.
인간처럼 사고하는 멀티모달(Multi Modal)
멀티모달 AI는 텍스트, 이미지, 음성, 비디오 등 다양한 데이터 유형을 동시에 처리하고 이해할 수 있는 인공지능 시스템을 의미한다. 이는 인간이 다양한 감각을 통해 정보를 수집하고 처리하는 방식과 유사하게 작동한다. 예를 들어, 우리는 대화를 할 때 상대방의 말뿐만 아니라 표정, 제스처, 배경 정보 등을 종합적으로 이해하는데, 멀티모달 AI는 이러한 인간의 인지 방식을 모방하여 더 자연스럽고 직관적인 인터페이스를 제공하며, 다양한 데이터를 조합하여 더 풍부하고 유용한 결과를 도출하고자 하는 목적으로 사용된다.
여러 모달리티(Modalities)는 서로 다른 감각이나 유형의 정보를 의미한다. 예를 들어, 텍스트 데이터는 언어적인 정보를 담고 있고, 이미지는 시각적 정보를 제공하며, 음성은 청각적 정보를 전달한다. 멀티모달 AI는 이러한 다양한 정보를 종합적으로 이해하고 처리하여 보다 풍부하고 복합적인 작업을 수행할 수 있다.
멀티모달 AI와 기존 인공지능(AI)의 차이
‘기존 인공지능(AI)’이라기보단, “기계학습(Muchine Learning) 혹은 딥러닝(Deep Learning)에 어떤 데이터(모달)를 학습시키는지”의 차이로 이해할 수 있다. 이른바 ‘기존 인공지능(AI)’은 텍스트, 자연어를 이해하기 위해 웹(Web)상에 있는 텍스트(Text Data)를 이해하는 것에 초점이 맞춰져 있다.
사람이 주고받는 언어를 이해하는 자연어 분석(NLP)을 전제로 명제와 추론하는 것을 전제로 개발되어져 왔으나, ‘기존 인공지능(AI)’는 단어가 의미하는 것의 생김새, 존재 자체의 형태 등을 이해할 수 없었다. 따라서 인간과 유사한 방식으로 사고할 수 있도록 멀티모달 AI가 등장한 것이다.
생성형 AI와 멀티모달 AI의 차이점
생성형 AI는 ML 모델을 사용하여 일반적으로 단일 유형의 프롬프트로 텍스트, 이미지, 음악, 오디오, 동영상 등의 새로운 콘텐츠를 생성하는 것을 포괄하는 용어이다. 멀티모달 AI는 이러한 생성 기능을 확장하여 이미지, 동영상, 텍스트 등 다양한 형식의 정보를 처리한다. 멀티모달리티는 AI가 다양한 감각 모드를 처리하고 이해하는 기능을 제공하는 것으로 생각할 수 있으며, 실제로 이는 사용자가 하나의 입력과 하나의 출력 유형으로 제한되지 않고, 거의 모든 입력을 포함하는 모델이 사실상 모든 콘텐츠 유형을 생성하도록 프롬프트할 수 있다는 의미이다.
대표적인 멀티모달(Multi Modal)에 해당하는 OpenAI 사의 ‘달리(DALL-E 2)’
OpenAI에서는 달리(DALL-E 2)개발에 대해 ‘AI 시스템이 인류를 어떻게 보고 이해하는지 도움 되도록 하고자’ 멀티모달 AI를 활용해 만들었다고 밝혔다. 상단의 이미지를 보면 Open AI사에서 예시로 DALL-E 3에 대해 보여주면서 프롬프트(PROMPT)를 통해 입력된 단어를 멀티모달 AI 기반으로 해석하여 이미지로 정확히 보여주는 것을 볼 수 있다.
멀티모달 AI의 중요성
1. 데이터 통합의 힘
멀티모달 AI의 가장 큰 강점은 다양한 형태의 데이터를 통합하여 더 풍부하고 정확한 정보를 제공할 수 있다는 점이다. 예를 들어, 의료 분야에서는 환자의 텍스트 기반 의료 기록과 이미지 기반의 X-ray, MRI 등의 데이터를 동시에 분석하여 더 정확한 진단을 내릴 수 있다. 이는 단일 데이터 유형만을 분석하는 기존의 AI 시스템보다 훨씬 더 신뢰할 수 있는 결과를 제공한다.
2. 인간과의 자연스러운 소통
멀티모달 AI는 인간과의 소통을 더욱 자연스럽게 만든다. 음성 인식 시스템이 사용자의 음성을 텍스트로 변환하는 것뿐만 아니라, 그와 동시에 사용자의 표정, 제스처, 환경 소음 등을 분석하여 더 정확한 의도를 파악할 수 있다. 이러한 기술은 특히 스마트 홈, 가상 비서, 고객 서비스 등의 분야에서 유용하게 활용될 수 있다.
3. 다양한 응용 분야
멀티모달 AI는 다양한 산업에서 혁신적인 응용 가능성을 가지고 있습니다. 예를 들어, 자율 주행 차량에서는 도로 상황을 감지하기 위해 카메라, 레이더, 라이더 등의 다양한 센서를 사용하여 더 안전한 운전을 가능하게 한다. 또한, 교육 분야에서는 텍스트와 비디오 강의를 결합하여 학생들에게 더 풍부한 학습 경험을 제공할 수 있다.
▶ 멀티모달 AI의 이점은 개발자와 사용자에게 고급 추론, 문제 해결, 생성 기능을 갖춘 AI를 제공한다는 것이다. 이러한 발전은 차세대 애플리케이션이 우리의 업무와 생활 방식에 찾아올 변화에 대한 무궁무진한 가능성을 제공한다.
기술적 도전과 해결 방안
멀티모달 AI는 다양한 데이터 유형을 통합하는 과정에서 여러 기술적 도전에 직면하는데, 다음은 이러한 도전을 해결하기 위한 몇 가지 주요 접근 방법이다.
1. 효율적인 데이터 통합 알고리즘 개발
각 데이터 유형마다 처리 방식이 다르기 때문에 이를 효과적으로 통합하기 위한 알고리즘 개발이 필요하다. 예를 들어, 텍스트 데이터는 자연어 처리(NLP) 기술을, 이미지 데이터는 컴퓨터 비전 기술을 사용하여 처리한다. 멀티모달 AI는 이러한 다양한 기술을 조화롭게 결합하여 최적의 성능을 발휘할 수 있는 알고리즘을 개발해야 한다.
2. 고성능 컴퓨팅 자원 활용
멀티모달 AI는 대규모 데이터셋을 학습하고 처리하기 위해 높은 연산 자원이 필요하다. 이를 위해 고성능 GPU와 같은 최신 하드웨어를 활용하고, 분산 컴퓨팅 기술을 적용하여 연산 효율성을 높일 수 있다.
3. 데이터 전처리 및 정제
다양한 데이터 유형을 사전에 정제하고 전처리하는 과정이 필요하다. 이는 노이즈 제거, 데이터 보강, 특성 추출 등을 포함하며, 이러한 과정을 통해 AI 모델의 학습 정확성을 높일 수 있다.
▶ AI 서비스가 언어와 비전 간의 경계를 넘나들면서, 멀티모달 기술이 더욱 중요해지고 있다. 하지만 이러한 모델들은 대개 거대한 규모의 AI 모델이기 때문에, 학습이 쉽지 않다는 한계가 있어, 이에 대한 극복이 여전히 필요한 과제로 남아있다.
멀티모달 AI의 미래 전망
멀티모달 AI는 앞으로도 다양한 분야에서 그 활용 가능성이 무궁무진하다. 특히, 인간과의 자연스러운 소통을 목표로 하는 인공지능 기술의 발전에 있어 핵심적인 역할을 할 것이다. 예를 들어, 가상 비서, 자율 주행 차량, 스마트 헬스케어 시스템 등에서 멀티모달 AI의 적용이 기대된다.
멀티모달 AI와 멀티모달 모델은 개발자가 차세대 애플리케이션에서 AI의 기능을 빌드하고 확장하는 방식에 있어 획기적인 발전을 의미한다. 예를 들어 Gemini는 Python, Java, C++, Go 등 세계에서 가장 많이 사용되는 프로그래밍 언어를 이해하고 설명하며 고품질 코드를 생성할 수 있으므로 개발자는 더 많은 기능을 갖춘 애플리케이션을 빌드하는 데 집중할 수 있다. 멀티모달 AI의 잠재력은 AI가 스마트 소프트웨어보다는 전문가의 조수나 어시스턴트에 가까운 세계에 더 가까이 다가갈 수 있게 해준다.
국내에서는 LG AI 연구원에서 텍스트를 이미지로 만들어주는 '엑사원'을 발표했다. 엑사원은 이미지를 텍스트로 설명해 주는 것도 가능한 양방향 멀티모달 AI다. 그리고 인텔과 카네기멜론대학이 손잡고 만든 'WebQA'는 웹상의 데이터와 이미지를 학습한 다음 사용자 질문에 답을 찾아주는 서비스이다. 예를 들면 특정 새의 눈 주변 원 모양은 무슨 색상인지를 물어보면 빨간색이라고 답을 알려준다.
아직까지는 이미지를 만들어 내고 검색하는 정도로만 활용되는 단계인데, 텍스트와 이미지, 개체 관의 관계를 통해 AI가 학습하는 ‘확산(diffusion) 모델’을 사용해서 지식을 축적하는 단계라고 보면 된다.
멀티모달 AI가 활성화되면 텍스트나 이미지로만 가능했던 활용 영역을 엄청나게 변화시킬 것이다. 예를 들어, 현재의 챗봇 AI는 단순하게 고객이 말하는 자연어를 분석해서, '이 정보를 찾아달라고 하는 거구나'를 목적으로 하는 게 대부분인 반면, 멀티모달 AI라면 ‘번호판이 3X가1234인 차량의 전면부가 크게 파손되어 있는 사진’만 보험사에 전송하면, 해당 차량이 가입된 보험 상품을 검색하고, 고객의 피해 정도가 얼마나 될지 예측한 다음 담당자와 고객에게 사고 접수와 처리를 바로 진행하도록 해줄 수 있다. 즉, 정확한 상황 인지를 통해서 조금 더 명확한 판단을 내릴 수 있는 똑똑한 AI가 되는 것이다.
첩보영화에서나 보던 테러범의 이미지를 분석해서 CCTV에서 실시간으로 찾아내는 상상 속의 이야기가 실제가 될 수 있다.
자동차 업계에서는 자율주행에서 필수적인 속도, 차선 위반, 운전자의 상태, 날씨까지 여러 정보를 기반으로 하는 AI도 멀티모달 기반으로 구현되어야 될 것이다.
의료계에서도 사람의 눈으로는 알아낼 수 없는 질병의 초기 진단이나 원격 진료에서도 크게 활약할 것으로 예상하고 있다.
멀티모달 AI는 인공지능의 새로운 지평을 열며, 인간과의 소통을 더욱 자연스럽고 효율적으로 만들어 줄 것이다. 이러한 기술의 발전은 우리의 일상 생활을 크게 변화시킬 잠재력을 가지고 있다. 지속적인 연구와 개발을 통해 멀티모달 AI는 더욱 발전할 것이며, 이는 다양한 산업에 혁신을 가져올 것이다.
그런 반면에 멀티모달 AI에 대해서 우려가 없는 것은 아니다. 모든 AI의 가장 큰 위험요소는 '딥페이크'와 같은 AI 기반으로 만들어진 가짜가 범죄에 활용되거나, 편향되거나 폭력적인 이미지와 텍스트 등을 기반으로 학습되어서 나쁜 결과물을 만들어내는 것이기 때문에, 그래서 멀티 모달 AI(DALL-E 2)에서는 폭력과 혐오, 성인용 이미지는 학습 대상에서 제거하고, 공적인 인물을 포함해서 실제 개인의 얼굴을 보여주지 않는다. 멀티 모달 AI(DALL-E 2)의 결과물을 보면 사람 얼굴이 조금 이상하게 표현되는 것은 그런 이유 때문이다. AI의 미래는 사람과 동일한 책임이 따르도록 규제하는 것이 필요한 시대가 되었다.
[출처: SUPERB AI 홈페이지, 구글 클라우드, 삼성SDS, CLUNIX]
'프로그래밍 및 기타 > 프로그래밍 용어, 상식, 마케팅 등' 카테고리의 다른 글
[LLM]검색 증강 생성(RAG)이란? (0) | 2024.08.15 |
---|---|
[웹개발] MVC(Model-View-Controller) 패턴이란? (0) | 2024.08.15 |
[제품 수명 주기] PLC(Product Life Cycle) 란? (0) | 2024.08.08 |
[AI 플랫폼] 허깅페이스: AI와 머신러닝의 새로운 지평 (0) | 2024.08.07 |
[HBM] 고대역폭 메모리(High Bandwidth Memory) 란? (0) | 2024.08.07 |