AI가 내 생각대로 그린 그림, 얼마나 정확할까

- Advertisement -

생각하는 대로 그림이 그려진다면 얼마나 신기할까.

미국의 인공지능(AI) 연구소 ‘오픈AI(OpenAI)’가 텍스트를 이미지로 만들어 주는 AI 시스템을 개발했다. 이름은 ‘DALL-E’로, 유명한 화가 살바도르 달리와 디즈니 영화 ‘월-E(WALL-E)’에서 따왔다.

DALL-E는 작년 1월 처음 등장했다. 당시에도 텍스트로 설명한 내용을 이미지로 만든다는 기초 개념은 동일했지만 생성한 이미지의 해상도는 256×256으로 낮았다.

‘일출 때 평야에 앉아있는 여우를 모네 스타일로 그린 그림’을 주문했을 때 DALL-E 1세대(왼쪽)와 2세대(오른쪽)의 결과물 (출처 : OpenAI)

이번에 공개한 것은 기능을 개선한 DALL-E 2세대다. 이미지 해상도는 1024×1024로 웹용·문서용으로 사용할 정도로 향상됐다. 또한 이미지를 생성하는 데 소요되는 시간이 단축되고 사용자가 이미지를 업로드해 부분적으로 편집하는 새로운 기능이 추가됐다.

◆ 원리는 ‘특징 파악 → 이미지 합성’…얼마나 사실적일까

‘아보카도 모양 주전자’를 적었을 때 DALL-E 2세대가 그린 결과물 (출처 : OpenAI)

DALL-E 2세대에는 오픈AI가 개발한 ‘클립(CLIP)’이라는 이미지 인식 시스템을 응용해 적용했다. 클립은 이미지가 주어졌을 때 이를 텍스트로 묘사하는 AI 시스템이다. DALL-E에 적용한 건 ‘언클립(unCLIP)’이다. 클립과는 반대로 텍스트 내용을 이미지로 그리는 역할을 한다.

언클립은 화면에 임의의 점 패턴을 생성한 다음, 텍스트 속 특징을 추려 AI가 가지고 있는 수많은 디지털 이미지와 대조한 다음 적합한 것을 골라 합성하는 과정을 거친다.

말을 타는 우주인을 사실적인 스타일로 그린 그림 (출처 : OpenAI)

결과는 상당히 놀랍다. ‘말을 타는 우주인을 사실적인 스타일로 그린 그림’을 입력했을 때 DALL-E 2세대가 생성한 그림들은 위와 같다. 주문한 내용이 잘 반영된 것을 알 수 있다. 우주인이라는 키워드에 영향을 받았는지 배경은 달이나 화성, 은하 같은 우수 요소로 구성됐다. 일부 느낌이 어색한 이미지도 섬세한 유화라고 하면 수긍이 된다.

업로드한 이미지를 재구성하는 작업도 가능하다 (출처 : OpenAI)

이외에도 다양한 스타일로 이미지를 주문하는 게 가능하다. 오픈AI가 예로 든 스타일에는 1960년대 포스터, 디지털 아트, 동굴 벽화, 1990년대 토요 아침신문 만화 같은 구체적인 키워드도 포함돼 있다. 또한 사용자가 업로드한 이미지를 다르게 해석해 다시 그리는 기능도 제공한다.

오픈AI는 DALL-E 1세대와 2세대로 생성한 이미지 1000개를 테스터에게 비교하도록 요청한 결과 텍스트 내용을 정확하게 묘사했다는 응답은 71.7%, 사실적인 묘사가 마음에 든다는 응답은 88.8%에 달했다.

◆ 이미지 편집도 가능, 원본 분위기까지 반영해

수영장 이미지에 플라밍고를 추가한 모습 (출처 : OpenAI)

DALL-E 2세대는 이미지 일부만 편집하는 기능도 지원한다. 예시를 보면 수영장 배경에 플라밍고를 추가하는 주문을 하고 있다. 이때 플라밍고를 어느 곳에 놓을지에 따라 결과물에 추가되는 플라밍고의 구도와 광택, 질감이 원본 이미지와 어색하지 않게 그려진다.

또한 사전적 의미뿐만 아니라 이미지 전체 분위기를 고려해 편집한다는 특징도 엿보인다. 수영장 창문 바깥에 플라밍고를 그리는 경우 실제 동물이 그려지고, 수영장 물이나 바닥에 배치하면 플라밍고 모양의 튜브가 그려진다. 사람이 대신 그려주는 게 아닐까 싶을 정도로 높은 이해도를 자랑한다.

◆ 해결 과제 남아 공개는 ‘아직’

DALL-E 2세대의 기능은 아직 일반 사용자에게 배포되지 않은 상태다. 묘사 수준이 상당히 높다 보니 DALL-E가 가짜 뉴스 같은 유해 콘텐츠를 만드는 데 악용될 수 있기 때문이다. 연구팀은 책임감 있게 기술을 개발한 다음 배포하기 위해 DALL-E의 한계와 기능을 테스터 그룹과 함께 연구 중이라고 밝혔다.

연구팀에 의하면 지금까지 DALL-E 2세대에 적용된 안전장치는 다음과 같다.

– 유해 콘텐츠 방지 : 폭력·증오·성인 이미지 생성을 제한한다. 또한 공인을 포함한 실제 개인 얼굴이 사실적으로 묘사되는 것도 방지한다.

– 오용 방지 : 정치적 콘텐츠 생성을 허용하지 않는다. 또한 사용자가 입력한 텍스트 내용이나 업로드한 원본 이미지를 필터로 분석한 다음 구글 정책을 위반한다고 판단되면 콘텐츠 생성을 중단한다. 또한 오용 방지용 AI 모니터링 시스템도 갖췄다.

– 단계적 배포 : 현재 DALL-E 2세대는 신뢰할 만한 사용자 그룹을 대상으로 테스트 중이다. 향후 연구를 통해 안전장치가 충분히 갖춰지고 개선된 다음 더 많은 사람들이 사용할 수 있게끔 공개할 계획이다.

폭발하는 화학 물질을 매드 사이언티스트처럼 섞고 있는 테디 베어의 스팀펑크 스타일 그림 (출처 : OpenAI)

이외에도 DALL-E로 생성한 이미지에는 특정 워터마크가 추가된다. 또한 결과물을 사용하기 위해서는 AI가 이미지를 생성했다는 사실도 함께 명시하도록 규정했다.

현재 DALL-E 2세대는 홈페이지에서 미리 보기 대기자로 등록한 연구원을 대상으로 사용 권한이 부여되고 있다. 나중에는 기술 관련 애플리케이션 프로그래밍 인터페이스(API)를 공개해 여러 앱에서 사용하도록 공유할 예정이다.

테크플러스 에디터 이병찬

tech-plus@naver.com​

[fv0012]

- Advertisement -

댓글

Please enter your comment!
Please enter your name here


Related Stories