본문 바로가기

인공지능

Multi-Modal (멀티 모달) AI

Multi-Modal AI는 무엇일까?

인류는 '사과'라는 개념을 이해하기 위해 시각, 미각, 촉각, 텍스트까지 여러 개념을 통합해서 인식을 한다. 

그렇다면, AI는 어떻게 '사과'라는 개념을 받아들일까? 이왕이면 인간이 학습했던 방법으로 배워야 인간과 제대로 소통할 줄 아는 AI가 될 것이다.

 

그래서 등장한 것이

 

Multi Modality

 

Modality는 어떤 형태로 나타나는 현상이나 그것을 받아들이는 방식을 말한다.

 

지금의 multi modal은 시각, 청각을 비롯한 여러 인터페이스를 통해서 정보를 주고받는 것을 말하는 개념이며, 이렇게 다양한 채널의 모달리티를 동시에 받아들여서 학습하고 사고하는 AI를 Multi Modal AI라고 한다.

 

쉽게 말하면, 인간이 사물을 받아들이는 다양한 방식과 동일하게 학습하는 AI이다.

 

Multi-Modal AI는 기존의 AI와는 어떻게 다를까?

기존에 있던 AI는 텍스트나 자연어를 이해하는 데 중점을 두었다. (ex. 챗봇)

 

그러나, AI는 실제 그 단어가 의미하는 것이 어떻게 생겼고, 실제 세상에는 어떤 형태로 존재하는지 이해하지 못했다.

예를 들어 '남자가 말을 타고 있다'라는 문장에서 '탄다'라는 개념을 이해하지 못하고, 말의 크기가 얼마만 한 것인지, 어떤 형태로 타는 것인지 알 수 없다.

데이터 처리나 통계, 텍스트를 검색해서 보여주는 것은 가능하지만, 인간과 유사한 방식의 사고는 할 수가 없었던 것이었다.

따라서 AI가 인간의 세상을 제대로 인식할 수 있도록 하려면 multi modal AI의 등장은 필수적이었다.

 

OpenAI에서 만든 DALL-E 2는 'AI 시스템이 인류를 어떻게 보고 어떻게 이해하는지 도움되도록 하고자' 멀티모달 AI를 활용해 만들었다고 밝혔다.

DALL-E 2는 문장을 입력하면, 해당 문장이 어떤 형태의 그림과 사진으로 이해되는지를 보여준다.

 

DALL-E 2의 결과 이미지

An astronaut riding a horse in the style of Andy Warhol

 

Multi-Modal AI의 시대가 오면 어떻게 바뀔까?

국내에서는 LG에서 텍스트를 이미지로 만들어주는 '엑사원'을 발표했다. 엑사원은 이미지를 텍스트로 설명해주는 것도 가능한 양방향 멀티모달 AI라고 한다.

인텔과 카네기멜론대학이 손잡고 만든 'WebQA'는 웹상의 데이터와 이미지를 학습한 다음 사용자 질문에 답을 찾아주는 서비스이다. 

Qustion) What colour is the ring arond the eye of Trogon surrucura?

Generated Answer) The ring around the eye of Trogon surrucura is red

 

아직까지는 이미지를 만들어내고 검색하는 정도로만 활용하는 단계이다.

텍스트와 이미지, 개체 간의 관계를 통해 AI가 학습하는 Diffusion model을 사용해서 지식을 축적하는 단계이다.

 

멀티모달 AI가 활성화되면, '번호판이 3x가 1234인 차량의 전면부가 크게 파손되어 있는 사진'만 보험사에 전송하면, 해당 차량이 가입된 보험 상품을 검색하고, 고객의 피해 정도가 얼마나 될지 예측한 다음 담당자와 고객에게 사고 접수와 처리를 바로 진행하도록 할 수 있다.

 

또한 첩보영화에서 테러범의 이미지를 분석해서 CCTV에서 실시간으로 찾아내는 상상 속의 이야기가 실제가 될 것이다.

자동차 산업에서는 필수적인 속도, 차선 위반, 운전자의 상태, 날씨까지 여러 정보를 기반으로 하여 만들어진 자율주행 소프트웨어가 만들어질 것이다.

의료계에서는 사람의 눈으로 알아낼 수 없는 질병의 초기 진단이나 원격 진료에서도 크게 활약할 것이다.

 

참고

https://www.samsungsds.com/kr/insights/multi-modal-ai.html

 

인간처럼 사고하는 멀티모달(Multi Modal) AI란?

AI는 어떻게 사물의 개념을 받아들일까요? AI는 명령어만으로는 그 단어가 어떤 형태로 세상에 존재하는지 이해하지 못해요! 그래서 AI가 인간처럼 인식할 수 있도록 만들어진 것이 '멀티모달 AI'

www.samsungsds.com

https://openai.com/dall-e-2/

 

DALL·E 2

DALL·E 2 is a new AI system that can create realistic images and art from a description in natural language.

openai.com