주요 메뉴 바로가기 (상단) 본문 컨텐츠 바로가기 주요 메뉴 바로가기 (하단)

오픈AI, 웹 크롤링하는 ‘GPT봇’ 출시

조회수  

미국 인공지능(AI) 개발사 ‘오픈AI(OpenAI)’가 웹 크롤링 도구 ‘GPT봇(GPTBot)’을 출시했다. GPT봇은 웹페이지 정보를 수집하는 ‘크롤러’ 소프트웨어다. 웹사이트를 돌아다니며 정보를 모은 다음 색인(Index)으로 정리한다.

크롤러는 구글이나 빙(Bing) 같은 검색 엔진 서비스에 빠져서는 안 될 기능이다. 웹페이지 정보를 미리 수집하고 정리해 놓아야 검색 결과에 표시할 수 있기 때문이다. 이외에도 크롤러를 사이트 백업에 사용하는 사례도 있다. 메인 사이트 내용을 주기적으로 긁어다 백업 사이트에 복제하는 ‘미러링’이 대표적이다.

하지만 오픈AI는 검색 엔진이 아니다. 하물며 사이트를 미러링하는 서비스 제공 업체도 아니다. 크롤러를 만든 다른 이유가 있을 것이라고 의심할 만하다. 이유는 명백하게 드러났다. 오픈AI 공식 블로그를 보면 GPT봇이 크롤링한 웹페이지 정보를 향후 출시할 AI 모델 개선에 사용할 수 있다는 내용이 명시됐다. 즉, 수많은 웹사이트에 축적된 정보들을 긁어다 AI 모델 훈련에 사용하겠다고 대놓고 밝힌 셈이다.

■ 예상 논란 미리 차단…정보 수집 기준과 방지 방법도 알려

자신의 웹페이지가 오픈AI의 돈벌이에 사용된다는데 기분이 좋을 사람은 없을 테다. 반발이 들끓을 것이라고 예상했을까. 오픈AI는 정보 수집 기준과 수집 방지 방법을 함께 공개해 논란을 미연에 방지하려는 모습을 보였다.

GPT봇으로 웹페이지를 크롤링할 때 3가지 분류에 해당하는 사이트 정보는 수집하지 않을 예정이다. △개인식별정보(PII)를 수집·이용하는 사이트 △정책을 위반하는 문구가 있는 사이트 △페이월(Paywall) 방식으로 운영하는 유료 구독 사이트가 해당된다. 이들 사이트에서 정보를 수집하면 법적 분쟁 여지가 있다 보니 자발적으로 제한했을 가능성이 높다.

또한 GPT봇이 자신의 웹페이지를 크롤링하는 걸 막는 방법도 공개했다. 웹페이지 운영자가 사이트의 로봇 파일(robot.txt)에 특정 문구를 추가하면 GPT봇을 막거나 일부 정보만 접근할 수 있게 제한한다.

User-agent: GPTBot Disallow: /

robot.txt 파일 내용에 위 문구를 입력하면 GPT봇이 웹페이지를 크롤링하지 못하게 차단한다.

User-agent: GPTBot Allow: / (경로 1) Disallow: / (경로 2)

웹페이지 일부만 GPT봇이 크롤링하게 제한하고 싶다면 위 코드를 활용해 보자. Allow 뒤에는 GPT봇이 크롤링해도 괜찮은 페이지 경로를, Disallow 뒤에는 크롤링을 차단하고 싶은 페이지 경로를 각각 입력하면 된다.

오픈AI는 두 가지 제동 장치를 통해 GPT봇의 무분별한 데이터 수집을 예방했다. GPT봇 차단 방법까지 공개한 이유는 알려지지 않았다. 오픈AI의 데이터 수집을 경계했던 각국의 대응 방침이 영향을 끼쳤을 가능성은 있다.

올해 4월 이탈리아 데이터 보호 당국(IDPA)은 오픈AI의 인공지능 서비스 ‘챗GPT(ChatGPT)’가 유럽 연합의 일반 데이터 보호 규정(GDPR)을 준수할 때까지 국내 사용자 데이터를 다루지 못하도록 제한했다. 당국은 사용자의 대화 내용이나 결제 정보 같은 민감한 데이터가 유출되는 점, 챗봇 훈련에 개인정보를 수집·사용하는 데 법적 근거가 부족하다는 점을 들어 이 같은 조치를 취했다.

6월 일본 개인정보 보호 위원회는 오픈AI에게 챗봇 훈련 목적으로 민감한 데이터 수집을 최소화하고 사용자의 동의를 얻으라는 내용을 전했다. 이탈리아처럼 서비스를 중단시키지는 않았지만 문제가 발생하면 언제든지 조치를 취할 수 있다는 의향을 내비쳤다.

■ AI에게 정보는 다다익선…차기 모델 훈련에 사용될 수도

하지만 오픈AI는 내심 더 많은 데이터를 긁어모으고 싶다는 욕심을 드러냈다. GPT봇이 웹페이지에 접근하는 것을 허용하면 향후 출시할 AI 모델의 정확도가 올라가고 기능과 안정성이 향상될 것이라고 주장했다. 더 많은 데이터를 수집할수록 성능이 향상되는 AI 특징을 강조하는 모양이다.

GPT봇이 수집한 웹페이지 정보는 차기 언어 모델 훈련에 사용될 가능성이 높다. 7월 18일(현지시간) 오픈AI는 차기 대규모 언어 모델(LLM)로 추정되는 ‘GPT-5’ 상표를 미국 특허상표청(USPTO)에 출원했다. 내용에 따르면 GPT-5는 AI 기반 음성 출력과 글 작성, 오디오를 텍스트로 변환하는 기능, 음성 인식 기능을 포함한다.

테크플러스 에디터 이병찬

tech-plus@naver.com​

CP-2023-0021@fastviewkorea.com

댓글0

300

댓글0

[Techplus] 랭킹 뉴스

  • 낫싱이 선보인 첫 스마트워치 강점은 '가격’
  • 테크노 ‘팬텀 V 플립’, 갤럭시 Z5 절반 가격?
  • 스포티파이 ‘잼(Jam)’, 좋아하는 음원 실시간으로 동시 청취해봐
  • 구글 ‘픽셀 8 시리즈’ 카메라, 예상되는 다양한 기능은?
  • 게티 이미지, AI 이미지 생성 도구 출시…저작권은?
  • ‘도조 슈퍼컴 D1 칩 생산 늘린다’…테슬라, TSMC와 파트너십 확대

[Techplus] 공감 뉴스

  • 아이폰15 "문제 많네"...소비자 고민 더한다
  • 아이폰 15 프로 맥스, 10배 광학 줌 지원않는 이유는?
  • 요가도 해? 성장한 테슬라의 휴머노이드, 새로운 영상 공개
  • [용어로 읽는 IT] - 어떻게 줄였을까? 1.5mm 베젤 선보인 아이폰 15 프로
  • 소문과 다르네…취약한 아이폰 15 프로 모델 ‘내구성’
  • '저렴한 구독료 이젠 없다'…유튜브, 프리미엄 라이트 폐지

[Techplus] 인기 뉴스

  • 낫싱이 선보인 첫 스마트워치 강점은 '가격’
  • 테크노 ‘팬텀 V 플립’, 갤럭시 Z5 절반 가격?
  • 스포티파이 ‘잼(Jam)’, 좋아하는 음원 실시간으로 동시 청취해봐
  • 구글 ‘픽셀 8 시리즈’ 카메라, 예상되는 다양한 기능은?
  • 게티 이미지, AI 이미지 생성 도구 출시…저작권은?
  • ‘도조 슈퍼컴 D1 칩 생산 늘린다’…테슬라, TSMC와 파트너십 확대

[Techplus] 추천 뉴스

  • 아이폰15 "문제 많네"...소비자 고민 더한다
  • 아이폰 15 프로 맥스, 10배 광학 줌 지원않는 이유는?
  • 요가도 해? 성장한 테슬라의 휴머노이드, 새로운 영상 공개
  • [용어로 읽는 IT] - 어떻게 줄였을까? 1.5mm 베젤 선보인 아이폰 15 프로
  • 소문과 다르네…취약한 아이폰 15 프로 모델 ‘내구성’
  • '저렴한 구독료 이젠 없다'…유튜브, 프리미엄 라이트 폐지

공유하기