728x90 멀티 헤드 어텐션1 [LLM] 모델 가볍게 만들기 이전 내용 [LLM] sLLM 학습하기이전 내용 [LLM] GPU 효율적인 학습이전 내용 [LLM] 텍스트 분류 모델 학습시키기이전 내용 [LLM] 허깅페이스 라이브러리 사용법 익히기허깅페이스 [AI 플랫폼] 허깅페이스: AI와 머신러닝의 새로운puppy-foot-it.tistory.com모델 가볍게 만들기 LLM을 배포하는 경우 GPU에서 가장 많은 비용이 발생하므로, GPU를 가능하면 적게 사용해서 비용을 낮춰야 비용 효율적인 서빙을 할 수 있다. LLM은 기존 딥러닝 모델에 비해 크기가 훨씬 크므로 효율적인 서빙이 중요하다.※ 모델 서빙모델 서빙이란, 훈련된 모델을 실서비스에 사용할 수 있도록, 클라이언트에게 모델 예측 결과를 효율적으로 전달하는 방식을 말한다. [GPU를 효율적으로 활용하는 방식].. 2025. 1. 2. 이전 1 다음 728x90