(출처: 스태빌리티 AI)
인공지능(AI) 기업 스태빌리티 AI(Stability AI)가 자체 언어 모델 ‘스테이블LM’(StableLM)을 4월 19일(현지시간) 출시했다. 이미지 생성 모델 스테이블 디퓨전(Stable Diffusion)으로 유명한 이 기업은 이제 텍스트와 코드를 생성하는 언어 모델까지 갖추게 됐다.
해당 모델은 초기 테스트 단계인 알파버전이다. 현재 오픈소스로 무료 배포 중이며 소스코드는 오픈소스 플랫폼 깃허브와 허깅 페이스에 올라와 있다.
깃허브에 올라온 ‘스테이블LM’ (출처: 깃허브)
스태빌리티 AI 자사 블로그에 의하면, 스테이블LM은 ‘더 파일’(The Pile)이라는 오픈 소스 데이터셋으로 학습됐다. 더 파일은 위키피디아, 유튜브 등의 웹사이트에서 스크랩된 텍스트 샘플이다. 스태빌리티 AI는 더 파일의 크기를 3배로 확장해 맞춤형 데이터셋을 만들었다고 말했다.
하지만 매셔블, 테크크런치 등 몇몇 IT 매체에서는 스테이블LM의 문제점을 지적했다. 특히, 민감한 콘텐츠에 대한 보호 장치가 부족하는 점을 짚었다.도덕적 문제에 대한 판단 근거가 아직 부족하다는 것이다. 또한 더 파일에 이미 외설적이고 거친 언어들이 포함돼 있어 스테이블LM에서 이러한 데이터까지 학습했는지 여부도 조사해봐야 한다.
또 다른 문제점은 정보와 문서 작성능력 부족이다. 스테이블LM에서 미국의 래퍼 투팍 샤커에 대한 기사 작성을 요청해봤다. 하지만 설득력 있는 기사는커녕 그가 누구인지도 모르고 있었다.
스태빌리티 AI는 자사 블로그를 통해 현재 모델은 비윤리적이고 공격적인 언어를 포함할 수 있다고 말했다. 이는 모델 규모, 데이터 품질, 커뮤니티 피드백 등을 통해 개선할 것이라 밝혔다. 또한 스테이블LM은 오픈 소스로 제공돼 누구든 문제의 원인을 파악할 수 있다. 이를 통해서도 추가적인 개선이 가능할 것으로 보인다.
스태빌리티 AI는 현재 30~70억 개의 매개변수에 150~650억 개의 변수를 추가할 계획이다. 이는 오픈 AI의 GPT-3에 있는 1750억 개의 매개변수에 비하면 많은 수는 아니다. 스테이블LM은 이를 통해 저비용으로 높은 접근성을 갖출 계획이다. 사용자의 응용 프로그램 작업에도 도움을 줄 것으로 예상된다.
테크플러스 에디터 김하영
tech-plus@naver.com
댓글0