엔비디아가 구글(Google)과 협력해 모든 엔비디아 AI 플랫폼에서 AI 모델 ’젬마(Gemma)’를 위한 최적화를 실시했다고 밝혔다.
어디서나 실행 가능한 젬마는 구글의 새로운 경량 오픈 언어 모델로, 20억 파라미터와 70억 파라미터 크기로 제공된다.
젬마는 구글의 멀티모달 모델인 ‘제미나이(Gemini)’ 개발에 사용된 동일한 연구와 기술을 기반으로 구축됐다. 엔비디아는 구글과 협력해 엔비디아 ‘텐서RT-LLM’으로 젬마의 성능을 가속화했다. 텐서RT-LLM은 데이터센터, 클라우드 혹은 엔비디아 RTX GPU가 탑재된 PC에서 대규모 언어 모델(LLM) 추론을 최적화하는 오픈 소스 라이브러리다. 이를 통해 개발자는 전 세계 고성능 AI PC에 탑재된 1억 개 이상의 엔비디아 RTX GPU를 활용할 수 있다.
개발자들은 클라우드 상의 엔비디아 GPU에서도 젬마를 실행할 수 있다. 여기에는 H100 텐서 코어 GPU를 기반으로 하는 구글 클라우드 ‘A3 인스턴스’가 포함되며, 초당 4.8테라바이트의 141GB HBM3e 메모리를 갖춘 엔비디아 H200 텐서 코어 GPU도 합류한다. 구글은 올해 안에 이를 배포할 예정이라고 전했다.
엔비디아는 네모 프레임워크(NeMo Framework)가 적용된 엔비디아 AI 엔터프라이즈(AI Enterprise)와 텐서RT-LLM을 비롯한 광범위한 도구를 갖추고 있다. 엔터프라이즈 개발자들은 이들을 추가로 활용해 젬마를 미세 조정하고 최적화된 모델을 프로덕션 애플리케이션에 배포할 수 있다. 또한, 엔비디아 AI 플레이그라운드(AI Playground)를 통해 브라우저에서 직접 젬마 2B와 젬마 7B를 체험해 볼 수 있다.
엔비디아 기술 데모인 ‘챗 위드 RTX’에 곧 젬마가 추가로 지원된다. 챗 위드 RTX는 검색 증강 생성(Retrieval-augmented generation, RAG)과 텐서RT-LLM 소프트웨어를 사용해 로컬 RTX 기반 윈도우 PC에서 사용자에게 생성형 AI 기능을 제공하는 기술이다. 사용자는 챗 위드 RTX를 통해 PC의 로컬 파일을 LLM에 쉽게 연결하고 자신의 데이터로 챗봇을 개인화 할 수 있다.
챗 위드 RTX는 로컬에서 모델이 실행되므로 결과가 빠르게 제공되며 사용자 데이터가 디바이스에 유지된다. 클라우드 기반 LLM 서비스에 대신 챗 위드 RTX를 사용하면 민감한 데이터를 제3자와 공유하거나 인터넷에 연결할 필요 없이 로컬 PC에서 처리할 수 있다.
관련기사
- ‘최대 클럭 3GHz’ 차세대 RTX50 그래픽카드 성능에 기대감↑
- 엔비디아, 2023년에 43조 벌었다… GPU 가격 안정화 기대해볼까
- 향후 그래픽카드 성능 향상에 중요 키워드는 ‘프레임 보간기술’
- 엔비디아, ‘챗 위드 RTX’로 RTX 기반 AI PC에 맞춤형 챗봇 제공
- 엔비디아, 안전한 AI 인프라 솔루션 위해 시스코와 협력 강화
- 엔비디아 RTX 리믹스, ‘하프라이프2 RTX’ 등 게임에 지원
- 엔비디아, CES 2024서 게이밍 신기술 공개
- 게임용 CPU는 쓰레드 수보다 클럭 속도가 더 중요
- 올해 하드웨어 시장… AI PC 진화하고 디스플레이는 공급 과잉
- 엔비디아, ‘디아블로4’에 레이 트레이싱 업데이트 지원
- 엔비디아, '일하기 좋은 미국 100대 기업' 3위 선정
- 인텔 12세대 CPU PC방, 지포스 드라이버 업데이트해야
- 엔비디아, 모든 플랫폼에서 메타 ‘라마3’ 추론 가속화 지원