| 제목 | 최근 연구 | 작성일 | 2026.03.06 |
|---|---|---|---|
| 첨부파일 | 조회수 | 2 | |
최근 연구에서는 여러 전문 전문가를 재사용하고 추론 시 동적으로 선택하거나 결합하기 위해 라우팅을 적용하는 MoErging을 탐구했습니다. 10 , 11 , 12 마찬가지로, 혼합 전문가(MoE) 모델 13 , 14 , 15 은 매개변수를 전문가로 나누고 각 입력에 대해 가장 관련성이 높은 전문가만 활성화합니다. 두 접근 방식 모두 작업 전문화를 유지하지만 라우팅 복잡성을 도입합니다. 이와 대조적으로, 매개변수 수준 모델 병합은 다중 작업 모델을 단일 매개변수 세트로 통합하여 저장 및 배포를 간소화하는 동시에 효율적인 추론을 가능하게 합니다. 그림 1 에서 볼 수 있듯이 , 단일 모델 융합 방법은 크게 파라미터 수준 병합과 지식 증류 기반 융합으로 분류할 수 있습니다. 파라미터 수준 병합은 여러 모델의 가중치를 직접 결합하는 저비용 솔루션을 제공합니다. 가중 평균 ¹⁶ 및 피셔 기반 병합 ¹⁷ 과 같은 초기 접근 방식은 이러한 아이디어의 실현 가능성을 입증했지만, 모델 간의 충돌을 간과하는 경우가 많았습니다. DARE¹⁸ 및 TIES-Merging¹⁹ 과 같은 고급 기술은 부호 충돌을 해결하고 중복 파라미터를 제거하여 이러한 문제를 해결함으로써 다양한 작업에서 더욱 견고한 성능을 제공합니다. 그러나 이러한 방법은 일반적으로 동일한 아키텍처와 어휘를 가진 모델로 제한되며, 충돌하는 작업 표현 간의 파괴적 간섭 문제를 여전히 겪을 수 있습니다. CALM(composition to augment language models²⁰)과 같은 모듈화된 접근 방식은 구성 성을 달성하기 위해 교차 주의 메커니즘을 도입하지만, 통합 유연성을 위해 적응성을 희생합니다. |
|||