
"Chat GPT 열풀, 그 배경은?"
ChatGPT, 아마 올해 1분기를 가장 뜨겁게 달군 키워드가 아닐까 싶다. ChatGPT는 미국의 스타트업 OpenAI에서 출시한 대화형 인공지능 챗봇인데, 마치 사람과 대화하는 것처럼 자연스러운 말투를 구사하며 복잡한 질문도 이해할 수 있다는 사용자들의 긍정적 평가가 쏟아지고 있다. 주제를 입력하면 논문이나 보고서, 시, 소설, 드라마, 기사 등의 글을 빠르게 창작하고, 간단한 코딩까지 가능하다. 심지어는 미국 의사 면허시험(USMLE), 객관식 문항 95개와 에세이 문항 12개로 이루어진 미국 로스쿨 시험까지 무난히 통과했다는 연구도 나온 바 있다.

이러한 사용자들의 긍정적 반응을 바탕으로 ChatGPT 열풍이 불었다. 출시 5일 만에는 100만 명, 출시 2달 만에는 무려 1억 명의 월간 활성 이용자 수(monthly active users, MAU) 달성이라는 대기록을 세워 시장을 뜨겁게 달군 것이다. 이는 MAU 1억 명 달성에 9달이 걸린 동영상 플랫폼 틱톡보다는 4.5배, 30달이 걸린 소셜네트워크서비스 인스타그램보다는 15배 빠른 기록이다.

이렇게 뜨거운 시장의 관심을 바탕으로 빠른 성장을 이룰 수 있었던 것은 이전의 AI 챗봇에서 한참 진화해 똑똑해진 인공지능 기술 덕분인데, 여기에 쓰인 핵심 기술이 바로 생성형 AI(Generative AI) 언어 모델이다. ChatGPT는 OpenAI에서 출시한 GPT-3.5 모델을 기반으로 한다. 최근에는 OpenAI가 2023년 3월 14일, GPT-3.5 모델에서 한층 업그레이드한 GPT-4 모델을 출시하며 생성형 AI 언어 모델 개발에 박차를 가하고 있다. 독일 경제지 한델스블라트와의 인터뷰에서 마이크로소프트(MS) 창업자 빌 게이츠는 생성형 AI가 우리의 세상을 바꿀 것이며, 가장 중요한 혁신이라 평가했으며, MS는 OpenAI에 100억 달러(약 12조 3500억 원) 규모의 투자를 하며 파트너십을 맺었다. 글로벌 빅테크 기업들도 주목하고 있는 기술이라는 것이다.

"생성형 AI 언어 모델?"
그렇다면 생성형 AI 언어 모델이 대체 무엇이길래 전례 없는 혁신을 불러올 것이라는 평가를 받는 걸까?

우선, 언어 모델은 단어 시퀀스에 확률을 할당하는 모델이다. 쉽게 말하자면, 이전 단어들이 주어졌을 때 다음 단어를 예측하며 가장 자연스러운 문장을 찾아내는 모델이라고 할 수 있다. 일상에서 가장 접하기 쉬운 언어 모델로는 구글 검색창이 있다. 검색어를 입력했을 때 예상 검색어를 차례로 보여주는 것이 바로 언어 모델의 대표적 예이다.
생성형 AI 언어 모델은 바로 여기에서 파생되어, 인공지능 기술을 이용해 자연어 처리를 수행하고 문장, 문단 또는 글 전체를 생성하는 모델이다. 이 모델은 대량의 텍스트 데이터를 학습하고, 이를 기반으로 자연어 생성 능력을 갖추게 된다.
"생성형 AI 언어 모델의 기술적 배경"

생성형 AI 언어 모델이 HRD에 어떠한 영향을 줄지 탐구하기 앞서,
생성형 AI 언어 모델의 기술적 배경을 살펴보자.

ChatGPT는 우선 인터넷의 대규모 텍스트 데이터 셋을 비지도 학습(Unsuperviced Learning)을 사용해 사전학습했다. 여기서 비지도 학습은 지도 학습(Superviced Learning)과 반대되는 개념인데, 사람이 직접 데이터에 대해 레이블(lable)을 지정하지 않고, 레이블이 없는 데이터 셋을 사용해 학습한다. 사람이 직접 데이터에 대한 구조나 패턴, 특징을 알려주는 것이 아니라, 입력된 데이터의 구조나 패턴을 AI가 직접 스스로 찾는 것으로부터 학습이 시작된다는 것이다.
여기에 인간 피드백형 강화 학습의 방법이 추가되어 ChatGPT는 질문자의 의도를 파악하는 훈련을 했다. 먼저, 인간 트레이너가 선별한 적은 양의 믿을 수 있는 데이터를 언어 모델에 지도 학습시킨다. 그 후 모델이 내놓은 답변들을 인간 트레이너가 직관으로 판단해 선호도에 따라 순위를 매긴 데이터를 가지고 언어 모델의 학습을 반복해 답변의 우선순위를 예측하도록 한다. 이렇게 인간이 학습에 직접 개입해 피드백을 주며 언어 모델이 답변의 선호도 순위를 예측하는 훈련을 통해, ChatGPT는 질문자의 의도 파악을 더욱 잘 할 수 있게 되었고, 자연어의 문맥을 유연히 읽을 수 있게 되었다.

이렇게 대규모의 텍스트를 학습하며 자연어를 이해할 수 있게 된 AI 언어 모델은 딥러닝 기반의 심층 신경망(Deep Natural Network, DNN)을 이용해 단어에 따른 가중치를 설정하고, 단어에 벡터를 부여한다. 심층 신경망 모델은 인간의 뉴런을 본떠 만들어진 퍼셉트론(Perceptron)이라는 단일 계산 개체들의 거대한 집합이라 볼 수 있다. 심층 신경망 하나의 층에 수많은 퍼셉트론이 배열되어 있고, 층을 쌓아 복잡한 계산을 수행하는 데, 이러한 모습이 바로 '심층'의 의미를 보여준다. 퍼셉트론에 데이터가 입력되면 입력값의 가중 평균을 계산한 뒤 활성화 함수를 거쳐 출력값을 내보내고, 이 출력값은 다시 다음 퍼셉트론의 입력값이 된다. 이때 퍼셉트론에 곱해주는 가중치는 인간이 설정하지 않는다. 초기에 임의의 가중치를 설정한 뒤, 입력값을 넣었을 때의 실제 출력값과 예상 출력값을 비교하여 가중치를 조정한다. 이러한 과정을 반복 수행하며 가중치를 스스로 조정한다. 이처럼 연산을 반복하며 실제 값과 예상 값의 격차를 줄이는 방식을 바로 '경사하강법'이라고 한다. 경사하강법은 워드 임베딩(Word Embedding)의 절차에도 사용된다. 워드 임베딩은 단어를 벡터로 표현하는 방법인데, 심층 신경망 언어 모델은 비슷한 의미, 비슷한 맥락에 사용되는 단어들S에 서로 비슷한 벡터를 할당해 이들을 분류한다. 이때, 경사하강법의 방식을 사용해 언어 모델이 단어들에 스스로 벡터를 할당한다.

위의 과정을 거친 AI 언어 모델은 다음으로 생성 모델링(Generative Modeling)이라는 또 다른 프로세스를 통해 자연어로 답변을 생성해낸다. ChatGPT의 생성 모델링은 자동 회귀(Autoregression) 프로세스를 통한다. 자동 회귀는 자연어와 같은 순차적 데이터에서 현재 시점의 데이터를 이전 시점들의 데이터를 기반으로 다음 값을 예측하는 모델이다. 언어 모델에 쓰인 자동 회귀 프로세스는 일련의 입력값이 주어질 때 그 값을 기반으로 전체 어휘에 대한 확률분포에서 답변으로 적절할 어휘를 샘플링하여 문장의 다음 단어를 차례로 생성하는 방식이다. ChatGPT는 각 입력 단어의 임베딩 벡터와 이전 단어들의 임베딩 벡터를 이용해 다음 단어를 예측한다. 예를 들어, "I like to eat"이라는 문장이 주어졌을 때, ChatGPT는 "eat" 다음에 올 단어를 예측하기 위해 "I like to"에 대한 임베딩 벡터를 이용한다. 이러한 절차로 다양한 문맥에서 자연스러운 문장을 생성할 수 있다.

그런데 만약 이러한 생성 모델링의 과정에서 확률이 가장 높은 단어들만을 선택해 답변한다면, ChatGPT의 어휘 구사력이 지금처럼 다양하고 창의적이지 않고 단조로운 답변만을 생성했을 것이다. 이를 피하기 위해 ChatGPT는 생성 모델링의 과정에서 Top-K 샘플링 또한 활용한다. Top-K 샘플링은 문장을 생성하는 과정에서 다음에 올 단어를 선택할 때, 확률이 높은 상위 k 개의 단어만을 고려하는 방법이다. 이를 이용하면 다음 단어를 선택할 때 가능한 단어의 수를 제한해 문장의 무작위성을 조절할 수 있으며, 동시에 모델이 생성할 수 있는 다양한 문장 패턴을 유지할 수 있다. 예를 들어, k=5로 설정하면, 모델은 다음 단어를 선택할 때 가능한 단어 중 확률이 높은 5개의 단어만을 고려하고, 이 단어들 중 하나를 선택해 다음 단어로 사용한다.
이번 포스팅에선 생성형 AI 언어 모델이 주목을 받게 된 배경과, 그 기술에 대해 간단히 살펴보았다. 이어지는 2편에서는 생성형 AI 언어 모델이 HRD에 끼칠 영향에 대해 알아보고, 3편에서는 HRD 담당자가 생성형 AI 언어 모델 기술을 활용할 수 있을지 탐구하도록 하겠다.
■ 인키움 양지인 인턴
"Chat GPT 열풀, 그 배경은?"
ChatGPT, 아마 올해 1분기를 가장 뜨겁게 달군 키워드가 아닐까 싶다. ChatGPT는 미국의 스타트업 OpenAI에서 출시한 대화형 인공지능 챗봇인데, 마치 사람과 대화하는 것처럼 자연스러운 말투를 구사하며 복잡한 질문도 이해할 수 있다는 사용자들의 긍정적 평가가 쏟아지고 있다. 주제를 입력하면 논문이나 보고서, 시, 소설, 드라마, 기사 등의 글을 빠르게 창작하고, 간단한 코딩까지 가능하다. 심지어는 미국 의사 면허시험(USMLE), 객관식 문항 95개와 에세이 문항 12개로 이루어진 미국 로스쿨 시험까지 무난히 통과했다는 연구도 나온 바 있다.
이러한 사용자들의 긍정적 반응을 바탕으로 ChatGPT 열풍이 불었다. 출시 5일 만에는 100만 명, 출시 2달 만에는 무려 1억 명의 월간 활성 이용자 수(monthly active users, MAU) 달성이라는 대기록을 세워 시장을 뜨겁게 달군 것이다. 이는 MAU 1억 명 달성에 9달이 걸린 동영상 플랫폼 틱톡보다는 4.5배, 30달이 걸린 소셜네트워크서비스 인스타그램보다는 15배 빠른 기록이다.
이렇게 뜨거운 시장의 관심을 바탕으로 빠른 성장을 이룰 수 있었던 것은 이전의 AI 챗봇에서 한참 진화해 똑똑해진 인공지능 기술 덕분인데, 여기에 쓰인 핵심 기술이 바로 생성형 AI(Generative AI) 언어 모델이다. ChatGPT는 OpenAI에서 출시한 GPT-3.5 모델을 기반으로 한다. 최근에는 OpenAI가 2023년 3월 14일, GPT-3.5 모델에서 한층 업그레이드한 GPT-4 모델을 출시하며 생성형 AI 언어 모델 개발에 박차를 가하고 있다. 독일 경제지 한델스블라트와의 인터뷰에서 마이크로소프트(MS) 창업자 빌 게이츠는 생성형 AI가 우리의 세상을 바꿀 것이며, 가장 중요한 혁신이라 평가했으며, MS는 OpenAI에 100억 달러(약 12조 3500억 원) 규모의 투자를 하며 파트너십을 맺었다. 글로벌 빅테크 기업들도 주목하고 있는 기술이라는 것이다.
"생성형 AI 언어 모델?"
그렇다면 생성형 AI 언어 모델이 대체 무엇이길래 전례 없는 혁신을 불러올 것이라는 평가를 받는 걸까?
우선, 언어 모델은 단어 시퀀스에 확률을 할당하는 모델이다. 쉽게 말하자면, 이전 단어들이 주어졌을 때 다음 단어를 예측하며 가장 자연스러운 문장을 찾아내는 모델이라고 할 수 있다. 일상에서 가장 접하기 쉬운 언어 모델로는 구글 검색창이 있다. 검색어를 입력했을 때 예상 검색어를 차례로 보여주는 것이 바로 언어 모델의 대표적 예이다.
생성형 AI 언어 모델은 바로 여기에서 파생되어, 인공지능 기술을 이용해 자연어 처리를 수행하고 문장, 문단 또는 글 전체를 생성하는 모델이다. 이 모델은 대량의 텍스트 데이터를 학습하고, 이를 기반으로 자연어 생성 능력을 갖추게 된다.
"생성형 AI 언어 모델의 기술적 배경"
생성형 AI 언어 모델이 HRD에 어떠한 영향을 줄지 탐구하기 앞서,
생성형 AI 언어 모델의 기술적 배경을 살펴보자.
ChatGPT는 우선 인터넷의 대규모 텍스트 데이터 셋을 비지도 학습(Unsuperviced Learning)을 사용해 사전학습했다. 여기서 비지도 학습은 지도 학습(Superviced Learning)과 반대되는 개념인데, 사람이 직접 데이터에 대해 레이블(lable)을 지정하지 않고, 레이블이 없는 데이터 셋을 사용해 학습한다. 사람이 직접 데이터에 대한 구조나 패턴, 특징을 알려주는 것이 아니라, 입력된 데이터의 구조나 패턴을 AI가 직접 스스로 찾는 것으로부터 학습이 시작된다는 것이다.
여기에 인간 피드백형 강화 학습의 방법이 추가되어 ChatGPT는 질문자의 의도를 파악하는 훈련을 했다. 먼저, 인간 트레이너가 선별한 적은 양의 믿을 수 있는 데이터를 언어 모델에 지도 학습시킨다. 그 후 모델이 내놓은 답변들을 인간 트레이너가 직관으로 판단해 선호도에 따라 순위를 매긴 데이터를 가지고 언어 모델의 학습을 반복해 답변의 우선순위를 예측하도록 한다. 이렇게 인간이 학습에 직접 개입해 피드백을 주며 언어 모델이 답변의 선호도 순위를 예측하는 훈련을 통해, ChatGPT는 질문자의 의도 파악을 더욱 잘 할 수 있게 되었고, 자연어의 문맥을 유연히 읽을 수 있게 되었다.
이렇게 대규모의 텍스트를 학습하며 자연어를 이해할 수 있게 된 AI 언어 모델은 딥러닝 기반의 심층 신경망(Deep Natural Network, DNN)을 이용해 단어에 따른 가중치를 설정하고, 단어에 벡터를 부여한다. 심층 신경망 모델은 인간의 뉴런을 본떠 만들어진 퍼셉트론(Perceptron)이라는 단일 계산 개체들의 거대한 집합이라 볼 수 있다. 심층 신경망 하나의 층에 수많은 퍼셉트론이 배열되어 있고, 층을 쌓아 복잡한 계산을 수행하는 데, 이러한 모습이 바로 '심층'의 의미를 보여준다. 퍼셉트론에 데이터가 입력되면 입력값의 가중 평균을 계산한 뒤 활성화 함수를 거쳐 출력값을 내보내고, 이 출력값은 다시 다음 퍼셉트론의 입력값이 된다. 이때 퍼셉트론에 곱해주는 가중치는 인간이 설정하지 않는다. 초기에 임의의 가중치를 설정한 뒤, 입력값을 넣었을 때의 실제 출력값과 예상 출력값을 비교하여 가중치를 조정한다. 이러한 과정을 반복 수행하며 가중치를 스스로 조정한다. 이처럼 연산을 반복하며 실제 값과 예상 값의 격차를 줄이는 방식을 바로 '경사하강법'이라고 한다. 경사하강법은 워드 임베딩(Word Embedding)의 절차에도 사용된다. 워드 임베딩은 단어를 벡터로 표현하는 방법인데, 심층 신경망 언어 모델은 비슷한 의미, 비슷한 맥락에 사용되는 단어들S에 서로 비슷한 벡터를 할당해 이들을 분류한다. 이때, 경사하강법의 방식을 사용해 언어 모델이 단어들에 스스로 벡터를 할당한다.
위의 과정을 거친 AI 언어 모델은 다음으로 생성 모델링(Generative Modeling)이라는 또 다른 프로세스를 통해 자연어로 답변을 생성해낸다. ChatGPT의 생성 모델링은 자동 회귀(Autoregression) 프로세스를 통한다. 자동 회귀는 자연어와 같은 순차적 데이터에서 현재 시점의 데이터를 이전 시점들의 데이터를 기반으로 다음 값을 예측하는 모델이다. 언어 모델에 쓰인 자동 회귀 프로세스는 일련의 입력값이 주어질 때 그 값을 기반으로 전체 어휘에 대한 확률분포에서 답변으로 적절할 어휘를 샘플링하여 문장의 다음 단어를 차례로 생성하는 방식이다. ChatGPT는 각 입력 단어의 임베딩 벡터와 이전 단어들의 임베딩 벡터를 이용해 다음 단어를 예측한다. 예를 들어, "I like to eat"이라는 문장이 주어졌을 때, ChatGPT는 "eat" 다음에 올 단어를 예측하기 위해 "I like to"에 대한 임베딩 벡터를 이용한다. 이러한 절차로 다양한 문맥에서 자연스러운 문장을 생성할 수 있다.
그런데 만약 이러한 생성 모델링의 과정에서 확률이 가장 높은 단어들만을 선택해 답변한다면, ChatGPT의 어휘 구사력이 지금처럼 다양하고 창의적이지 않고 단조로운 답변만을 생성했을 것이다. 이를 피하기 위해 ChatGPT는 생성 모델링의 과정에서 Top-K 샘플링 또한 활용한다. Top-K 샘플링은 문장을 생성하는 과정에서 다음에 올 단어를 선택할 때, 확률이 높은 상위 k 개의 단어만을 고려하는 방법이다. 이를 이용하면 다음 단어를 선택할 때 가능한 단어의 수를 제한해 문장의 무작위성을 조절할 수 있으며, 동시에 모델이 생성할 수 있는 다양한 문장 패턴을 유지할 수 있다. 예를 들어, k=5로 설정하면, 모델은 다음 단어를 선택할 때 가능한 단어 중 확률이 높은 5개의 단어만을 고려하고, 이 단어들 중 하나를 선택해 다음 단어로 사용한다.
이번 포스팅에선 생성형 AI 언어 모델이 주목을 받게 된 배경과, 그 기술에 대해 간단히 살펴보았다. 이어지는 2편에서는 생성형 AI 언어 모델이 HRD에 끼칠 영향에 대해 알아보고, 3편에서는 HRD 담당자가 생성형 AI 언어 모델 기술을 활용할 수 있을지 탐구하도록 하겠다.
■ 인키움 양지인 인턴
뉴스레터구독
블로그
카카오톡
교육문의