More

    업계 발칵 뒤집었던 ‘AI 작문왕’ 자리, 이상 없을까?

    - Advertisement -

    (출처:mediacareerng)

    2020년 8월 8일 화요일, 영국의 유력 일간지 가디언(The Guardian)에 칼럼 하나가 게재됐어요. 제목은 “A robot wrote this entire article. Are you scared yet, human?(이 기사는 전부 로봇이 작성했다. 아직 무섭지 않니, 인간?)”이었어요. 아주 도발적인 제목이죠. 제목만 보면 누군가 실수로 혹은 장난으로 올린 글은 아닌지 갸우뚱하게 되기도 해요. 독자를 ‘human’이라 부르는 걸 보면 작성자가 사람이 아닐지도 모르겠네요. ‘GPT-3’, 기고자 이름도 굉장히 독특해요. 평범한 이름 같진 않아요.

    칼럼에는 인간의 도움 없이 인공지능이 직접 글을 작성했다는 내용이 담겼어요. 인간을 파괴할 생각은 없으니 안심하라는 멘트도 빼놓지 않았고요. GPT-3는 이 칼럼을 작성한 인공지능의 이름이었어요.

    영어로 작성된 기사이기에 얼마나 정확한 단어를 선택하고 자연스러운 문장을 구사하는지 모국어가 아니라면 판단하기 쉽지 않겠죠. 영어권에서의 반응을 살펴보면 대체적으로 기술 수준이 상당하는 평가에요. 예술에 가깝다고 표현하는 이들도 있었어요. 언젠가는 기자도 인공지능으로 대체될 것이라는 미래가 성큼 다가온 느낌이에요.

    인공지능 기자가 흔한 건 아니지만 이전에도 인공지능이 기사를 작성한다는 얘기는 들은 적이 있어요.

    로스앤젤레스타임즈는 퀘이크봇(Quakebot)을 이용해 로스앤젤레스와 주변 지역에서 발생하는 지진 관련 정보를 수집한다고 해요. 미국지질조사국(USGS)이 진도 3.0 이상 지진이 발생했다는 정보를 보내오면 이를 정리해 기사를 작성하죠. 지진이 발생하고 난 뒤 1분도 안 돼 기사가 완성된다고 하니 사람보다 더 낫다고 볼 수 있어요. 지진과 같은 자연재해는 신속하게 대처하지 못하면 큰 피해가 발생할 수 있어요. 그래서 자동화된 기술을 적용하는 편이 낫겠다는 생각도 들어요.

    그밖에도 스포츠 경기를 전달하는 인공지능, 주식 시황을 전하는 인공지능이 나타나기도 했어요. 공통점을 보면 어느 정도 틀이 정해져 있는 기사 작성에 인공지능이 투입되는 것을 알 수 있어요. 유려한 내용보다는 빠르고 정확한 정보 전달이 핵심이에요.

    기자 경력으로 보자면 GPT-3는 아직 막대 대접을 받아야 할 거에요. 하지만 실력은 무시할 수준이 아니죠. 기존 로봇기자는 알고리즘에 의해 1~2초 만에 영혼 없는 기사를 써내려 가야 했다면 GPT-3는 인간 기자가 썼다고 착각할 만큼 훨씬 정교한 문장을 구사해요. 언어는 고도의 사고 과정을 기반으로 하는 인간의 의사소통 도구이며 인간과 동물을 구분하는 기준으로 여겨져요. 오로지 인간의 것이었어요. 로봇 기자의 등장은 그 기준을 흔들기에 충분해요.

    GPT-3가 뭐야?

    GPT-3에 대해 조금만 소개할게요. GPT-3는 자연어처리모델(NLP)이에요. 자연어처리모델이란 인간이 사용하는 언어에 특화된 인공지능이라고 생각하시면 돼요. 이세돌을 꺾은 알파고(AlphaGo)가 바둑을 잘 두는 인공지능이라면 GPT-3는 글을 잘 쓰는 인공지능이에요.

    참, GPT-3를 만든 곳은 오픈AI(OpenAI)라는 기업이에요. 오픈AI라는 회사 이름이 생소한 사람도 많을 거에요. 그런데 설립자의 이름을 듣게 되면 앞으로는 쉽게 잊어버리긴 힘들거 에요. 트윗 하나로도 세상을 뒤흔드는 지금 가장 영향력 있는 기업인, 일론 머스크가 창업자라죠. 공동창업자도 미국 유명 액셀러레이터 와이콤비네이터(Y Combinator)를 운영했던 샘 알트만이에요. 둘이 공동으로 설립한 기업이 비영리 인공지능 연구 기업인 오픈AI에요.

    GPT-3는 인류에 도움이 되는 인공지능을 만들기 위해 개발됐어요. 1750억개 파라미터를 기반으로 만들어졌다고 해요. 여기서 말하는 파라미터는 매개변수라고도 불러요. 값이 달라지는 입력값에 따라 변화하는 결과값을 만들어내는 조건을 파라미터라 해요. 결과적으로 파라미터가 많은 인공지능은 더 다양한 문제를 해결할 수 있어요.

    GPT-3는 기사를 쓰는 것은 물론 시나리오를 작성하고 코딩도 한다고 해요.심지어 거짓말까지 하는 수준이라니 대단하죠.

    GPT-3의 훌륭함을 미리 간파한 마이크로소프트(MS)는 발 빠르게 독점 사용 권한까지 획득했어요. 마이크로소프트는 GPT-3를 통해 사용자에게 발전된 형태의 인공지능 솔루션을 제공할 계획이라고 밝혔어요.

    흔히 배움의 길은 끝이 없다고 해요. 인공지능도 마찬가지에요. 지금까지 인공지능이 보여준 실력치고 GPT-3가 특출나기는 하나 인공지능의 발전이 급격히 가속화되는 이른바 특이점에는 도달하지 못했다는 평가에요. 비약적인 발전을 위해서는 꾸준한 공부가 필수에요. 양질의 데이터를 가지고 학습을 이어간다면 시간이 지날수록 더 스마트해질 거에요.

    가장 글 잘 쓰는 인공지능 ‘왕좌의 게임’…중국의 약진

    GPT-3가 작성한 기사가 게재된 지 8개월이 지났어요. 기술은 빠르게 발전해간다는데 여전히 GPT-3가 정상의 자리를 지키고 있을까요? 여기에 과감하게 “아니오”라고 대답할 녀석이 중국에서 나타났어요. 화웨이에서 만든 ‘판구-알파(PanGu-α)’에요. 지난달 26일 아카이브를 통해 공개됐어요.

    판구-알파는 1.1테라바이트(TB) 분량의 뉴스, 백과사전, 소셜네트워크서비스(SNS) 게시글, 전자책 등 여러 곳에 흩어져있는 정보들을 긁어모아 언어를 학습했어요. 사용된 언어는 중국어겠죠. 특히, 2000억개 파라미터를 가진 것을 강조했는데 파라미터 1750억개인 GPT-3보다 많은 수치에요. 화웨이는 인공지능 컴퓨팅 프레임워크 마인드스포어(MindSpore)와 인공지능 프로세서 어센드910(Ascend 910)으로 구축된 컴퓨팅 환경에서 판구-알파를 학습시켰어요.

    지난달 베이징 인공지능 아카데미(BAAI)에서는 ‘우 다오(Wu Dao)’라는 인공지능 시스템이 공개됐어요. 우 다오는 텍스트도 생성하지만 오디오나 이미지도 만들어낼 만큼 다재다능한 인공지능이에요. GPT-3보다 딱 10배 많은 1조 7500억개 파라미터 규모를 갖췄어요. 시를 쓰고 영상에 캡션을 달고 심지어 뮤직비디오도 만든다고 해요. 꽤 그럴듯한 결과물을 내놓는다고 하네요. BAAI의 목표는 크고 강력한 인공지능 모델 구축이에요.

    중국은 정부가 인공지능 산업을 적극적으로 지원해 빠르게 영역을 확장하고 있는 것으로 잘 알려졌죠. 위 사례에서 알 수 있듯 자연어처리모델 개발에서도 두각을 나타내는 것을 알 수 있어요.

    갑자기 GPT-3의 고장 미국에서의 반응이 궁금하네요. 중국어를 구사하는 인공지능을 개발하고 파라미터를 확장한 것은 긍정적이라는 분위기에요. 하지만 그다지 위협적인 기술은 아니라는 평가도 있어요. 미국 IT전문 매체 벤처비트는 인공지능이 효과적으로 학습하려면 마침표, 물음표, 괄호와 같은 문장부호를 생선뼈 발라내듯 제거하는 작업이 있어야 하는데 판구-알파 학습에서 해당 과정을 소홀히 했다고 보도했어요. 이를 ‘텍스트 토큰화(Text Tokenization)’라고 불러요. GPT-3 학습에 사용된 토큰은 4990억개인데 반해 판구-알파가 학습한 토큰은 400억개라고 해요. 화웨이 측에서는 자연스러운 문장을 생성하는 수준을 넘어 고어체로 옛 시까지 지어내는 경지까지 올라갔다고 반박했지만 외신은 판구-알파가 맥락과 상관없거나 잘못된 문장을 반복해서 생성했다고 전했어요.

    우 다오도 마찬가지로 훈련 방법이나 데이터 종류, 실용성 등 세부적인 부분이 검증된 것은 아니라 GPT-3와의 직접적인 비교는 이른 것으로 보여요.

    우리도 준비한다, ‘한국판 GPT-3’

    앞서 언급한 GPT-3와 판구-알파의 기술이 훌륭할지는 몰라도 영어와 중국어로만 학습했다는 한계가 있어요. 다른 언어권에서는 두 자연어처리모델 모두 활용도가 낮을 수밖에 없겠죠. 이쯤 되면 한국어를 구사하는 언어 모델은 우리가 만들어야 할 분위기죠. 한국어 언어 모델이라면 아무래도 대한민국에서 가장 잘 만들거에요. 역시나 이미 개발을 선언하고 구축한 인공지능을 공개한 국내 기업이 나타났어요.

    네이버는 최근 자체적으로 구축한 자연어처리모델 ‘하이퍼클로바(HyperCLOVA)’를 공개했어요. 국내 최초 자체 개발 초대규모 인공지능이면서 세계 최대 한국어 언어모델이라고 소개했어요. 네이버 측은 글로벌 플랫폼에 종속되는 일은 피하고자 직접 개발에 나섰다고 전했어요. 하이퍼클로바는 2040억개 파라미터 규모로 개발됐어요. 한국어 언어 모델답게 전체 학습 데이터 중 한국어 비중은 97%에 달해요. 한국어 토큰도 5600억개를 구축해 개발에 활용할 계획이에요.

    LG도 인간 두뇌 상위 1%에 해당하는 대규모 인공지능 개발에 나선다고 밝혔어요. 글을 쓰는 단순한 인공지능은 아니에요. 디자인 시안을 만들어내고 차세대 배터리 소재도 발굴하는 인공지능 개발까지 생각하고 있다니 상당한 기술이 요구될 것으로 보여요. LG에서는 GPT-3보다 3배 더 많은 6000억개 파라미터를 가진 초거대 인공지능을 구상 중이에요. 올해 하반기에 공개할 예정이며 내년 상반기쯤엔 조 단위 파라미터를 갖춘 인공지능을 선보이겠다는 야심 찬 계획을 밝혔어요.

    SK텔레콤도 있어요. 지난달 국립국어원과 업무 협약을 체결하고 자연어처리모델 개발을 발표했어요. 일상적인 대화에서부터 다양한 업종에 적용될 수 있는 언어 모델을 개발하겠다 밝혔어요. 약 1500억개 파라미터를 가진 언어 모델이 될 전망이에요. SK텔레콤은 2018년부터 인공지능 언어 모델을 개발해왔어요. 2019년 KoBERT, 2020년 KoGPT-2, KoBART를 개발해 기술력을 향상시켜오고 있어요.

    몇 년 전만 해도 운전자가 잠들어도 알아서 목적지까지 움직이는 자율주행차와 사람 대신 집안일을 하고 요리를 해주는 로봇이 금방이라도 등장할 것만 같았어요. 늦기 전에 창의력과 같이 인공지능이 못하는 분야에 집중해야 한다는 말들도 쏟아졌어요.

    하지만 업계 전문가들은 인공지능 기술을 장기적인 관점에서 볼 필요가 있다고 해요. 섣부른 예측과 지나친 기대를 하기보다는 조바심을 내려놓고 찬찬히 지켜볼 필요가 있어요. 그러다 보면 어느 순간 기적과도 같은 놀라운 기술이 어느덧 우리 일상 속으로 들어와 있을 거에요. 그때가 오면 뉴스에서 인공지능 기자의 이름을 더 자주 보게 되겠죠.

    테크플러스 에디터 나유권

    tech-plus@naver.com

    - Advertisement -

    Recent Articles

    Related Stories

    Enable Notifications    OK No thanks