[논문 리뷰] AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head

Rongjie Huang, Mingze Li, Dongchao Yang, Jiatong Shi, Xuankai Chang, Zhenhui Ye, Yuning Wu, Zhiqing Hong, Jiawei Huang, Jinglin Liu, Yi Ren, Zhou Zhao, Shinji Watanabe
25 Apr 2023

Introduction

LLM의 텍스트 처리 및 생성 분야에서 성공적인 응용에도 불구하고 오디오 모달리티(담화, 음악, 소리, 인터뷰)에 대한 성공은 제한적이지만, 다음과 같은 이유로 매우 유용하다.

실제 상황에서 인간은 일상 대화를 통해 음성 언어를 사용하여 의사 소통하고, 편의성을 높이기 위해 음성 비서(e.g., Siri or Alexa)를 활용한다.
지능의 고유한 부분으로서, 오디오 모달리티 정보를 처리하는 것은 일반적인 인공 지능을 달성하기 위한 필수 사항이다. 담화, 음악, 소리, 인터뷰를 이해하고 생성하는 것은 보다 발전된 AI 시스템을 향한 LLM의 중요한 단계일 수 있다.

오디오 모달리티의 이점에도 불구하고 오디오 처리를 지원하는 LLM을 훈련하는 것은 다음과 같은 문제로 인해 여전히 어렵다.

데이터: 사람이 레이블로 지정한 음성 데이터를 획득하는 것은 비용과 시간이 많이 드는 작업이며, 실제 음성 대화를 제공하는 리소스는 거의 없다. 또한 방대한 말뭉치의 웹 텍스트 데이터에 비해 데이터의 양이 제한적이며, 다국어 대화형 음성 데이터는 더욱 부족하다.
계산 리소스: 멀티모달 LLM을 처음부터 훈련하는 것은 계산 집약적이고 시간이 많이 소요된다. 담화, 음악, 소리, 인터뷰를 이해하고 생성할 수 있는 기존의 오디오 기반 모델이 이미 존재한다는 점을 고려할 때, 처음부터 훈련을 시작하는 것은 낭비일 것이다.

이 연구에서는 음성 대화에서 오디오 양식을 이해하고 생성하는 데 탁월하도록 설계된 시스템인 "AudioGPT"를 소개한다.

멀티모달 LLM을 처음부터 훈련하는 대신, 다양한 오디오 기반 모델을 활용하여 복잡한 오디오 정보를 처리한다.
- 여기서 LLM(즉, ChatGPT)은 AudioGPT로 하여금 수많은 오디오 이해 및 생성 작업을 해결하도록 하는 범용 인터페이스로 간주된다.
음성 언어 모델을 훈련하는 대신, LLM을 음성 대화를 위한 입출력 인터페이스(ASR, TTS)와 연결한다.
- ASR(Automatic Speech Recognition): 음성 → 텍스트
- TTS(Text to Speech): 텍스트 → 음성

AudioGPT의 4단계 프로세스

4단계 : 모달리티 변환, 태스크 분석, 모델 할당, 응답 생성

모달리티 변환: 음성과 텍스트 사이의 모달리티 변환을 위해 입출력 인터페이스를 사용하여 음성 언어 LLM과 ChatGPT 사이의 간극을 메운다.
태스크 분석: 대화 엔진과 프롬프트 관리자를 활용하여 ChatGPT가 오디오 정보를 처리하려는 사용자의 의도를 파악한다.
모델 할당: 운율, 음색, 언어 제어에 대한 구조화된 인수를 받은 ChatGPT는 이해와 생성을 위해 오디오 기반 모델을 할당한다.
응답 생성: 오디오 기반 모델 실행 후 사용자에게 최종 응답을 생성하고 반환한다.

복잡한 오디오 작업을 처리하기 위해 ChatGPT에 오디오 기반 모델을 갖추고 있으며, 음성 대화가 가능하도록 모달리티 변환 인터페이스와 연결되어 있다.
Consistency, Capability, Robustness 측면에서 멀티모달 LLM을 평가하기 위한 원칙을 설계한다.

꽃피는 연구 주제로서, 인간의 의도를 이해하고 다양한 기반 모델의 협력을 구성하는 데 있어 멀티모달 LLM의 성능을 평가해야 하는 요구가 증가하고 있다.

Contributions

복잡한 오디오 작업을 처리하기 위해 ChatGPT에 오디오 기반 모델을 장착하는 AudioGPT를 제안한다. 범용 인터페이스로서 ChatGPT는 음성 대화가 가능하도록 모달리티 변환 인터페이스와 연결된다.
멀티모달 LLM을 평가하는 설계 원리와 프로세스를 개략적으로 설명하고 Consistency, Capability, Robustness 측면에서 AudioGPT를 테스트한다.
시연은 여러 차례의 대화를 통해 오디오 이해 및 생성에 있어 AudioGPT의 효율성을 제시하며, 이는 인간이 전례 없이 쉽게 풍부하고 다양한 오디오 콘텐츠를 생성할 수 있도록 한다.

AudioGPT

System Formulation

AudioGPT는 다음과 같이 정의되는 프롬프트 기반 시스템이다. $AudioGPT = (T, L, M, H, {P_{i}}_{i = 1}^{P})$

T: 모달리티 변환기
L: 대화 엔진 (즉, LLM)
M: 프롬프트 관리자
H: 태스크 핸들러
P: 오디오 기반 모델

C: (n-1) 차례의 상호작용 context
- qi: i번째 라운드의 쿼리
- ri: i번째 라운드의 답변

qn: 새 쿼리
rn: 위 공식의 AudioGPT의 실행에 의해 생성된 답변

추론하는 동안, AudioGPT는 크게 4단계로 분해됨

모달리티 변환: qn 내의 다양한 입력 양식을 일관된 양식을 가진 쿼리 q’n로 전송한다
태스크 분석: 대화 엔진 L과 프롬프트 관리자 M을 활용하여 (q’n, C)를 태스크 핸들러 H에 대한 구조 인수 an로 파싱한다
모델 할당: 태스크 핸들러 H는 구조화된 인수 an을 소비하고, 인수를 해당하는 오디오 태스크 프로세서 Ps로 전송한다 (s는 선택된 태스크 인덱스)
응답 생성: Ps(an) 실행 후, (q’n, C, Ps(an)의 정보를 조합하여 L을 통해 최종 응답 rn을 생성한다

Modality Transformation

목표: 쿼리 qn을 일관된 모달리티의 새로운 쿼리 q’n으로 변환하는 것

사용자 입력 쿼리 qn: 쿼리 description q_n^(d)와 크기가 k인 쿼리 관련 리소스 집합으로 구성됨

q_n^(d)는 텍스트 또는 오디오 모달리티일 수 있음 → 모달리티 변환기 T는 먼저 q_n^(d)의 모달리티를 확인해야 하며, 오디오인 경우, T는 다음과 같이 오디오에서 텍스트로 변환해야 함

Task Analysis

Task 분석 단계는 $(q_{n}^{'}, C)$ 에서 구조화된 argument $a_{n}$ 을 추출하는 데 중점을 둔다. 특히 컨텍스트 $C$ 는 argument 추출에 앞서 대화 엔진 $L$ 에 공급된다. $q_{n}^{'}$ 의 query resource의 유형에 따라 task handler $H$ 는 먼저 query를 입출력 modality를 통해 분류되는 여러 task family로 분류한다. 그런 다음 선택된 task family가 주어지면 query description ${q_{n}^{'}}^{(d)}$ 가 prompt manager $M$ 으로 전달되어 선택된 오디오 foundation model $P_{p}$ 와 해당 task 관련 argument $h_{P_{p}}$ 를 포함하는 argument $a_{n}$ 을 생성한다. 여기서 $p$ 는 오디오 모델 집합 ${P_{i}}_{i = 1}^{P}$ 에서 선택된 오디오 모델의 인덱스다.

Model Assignment

선택된 모델 $P_{p}$ 와 argument $h_{P_{p}}$ 가 주어지면 모델 할당 단계는 모델에 관련된 리소스를 할당하고 $P_{p}$ 를 실행하여 task 출력 $o_{P_{p}}$ 를 얻는다.

AudioGPT의 효율성을 유지하기 위해 환경 설정 또는 서버 초기화 중에 오디오 모델 초기화를 수행한다.

Response Generation

응답 생성은 $P_{p}$ 와 해당 출력 $o_{P_{p}}$ 와 밀접한 관련이 있다. 특히 오디오 생성 task의 경우 AudioGPT는 waveform을 이미지와 다운로드/재생을 위한 해당 오디오 파일을 모두 보여준다. 텍스트를 생성하는 task의 경우 모델은 transcribe된 텍스트를 직접 return한다. 동영상 생성 task의 경우 출력 동영상과 일부 관련 이미지 프레임을 보여준다. Classification task의 경우 카테고리의 posteriorgram이 시간 범위에 걸쳐 보여진다.

Evaluating Multi-Modal LLMs

다음 세 가지 측면에서 LLM을 평가한다.

Consistency: LLM이 사용자의 의도를 제대로 이해하고 인간의 인지 및 문제 해결과 밀접하게 일치하는 오디오 foundation model을 할당하는지 여부를 평가한다.
Capabilitity: 복잡한 오디오 task를 처리하고, zero-shot 방식으로 음성, 음악, 소리, talking head를 이해하고 생성하는 오디오 foundation model의 성능을 측정한다.
Robustness: special case들을 다루는 LLM의 능력을 측정한다.

Consistency

Zero-shot 세팅에 대한 일관성 평가에서 모델은 특정 task의 prior example을 제공받지 않고 질문에 대해 직접 평가되며, 이는 multi-modal LLM이 명시적 학습 없이 문제를 추론하고 해결할 수 있는지 여부를 평가한다.

위 그림에서와 같이 consistency 평가는 벤치마크의 각 task에 대해 3단계로 수행된다.

human annotator들에게 {prompts, task_name} 형식으로 각 task에 대한 프롬프트를 제공하도록 요청한다. 이를 통해 복잡한 task를 이해하는 모델의 능력을 평가하고 성공적인 task 할당에 필요한 필수 프롬프트를 식별할 수 있다.
LLM의 뛰어난 언어 생성 능력을 활용하여 다른 표현을 사용하면서 동일한 semantic 의미로 설명을 생성하여 LLM이 더 많은 사용자의 의도를 이해하는지 여부를 종합적으로 평가할 수 있다.
Amazon Mechanical Turk를 통해 크라우드 소싱된 human evaluation을 사용한다. 여기서 AudioGPT는 다양한 task와 의도에 해당하는 이러한 자연어 설명과 함께 프롬프트된다. 인간 평가자는 multi-modal LLM의 응답과 즉각적인 입력을 보여주고 “응답이 인간의 인지 및 의도와 밀접하게 일치합니까?”라는 질문을 받는다. 평가자는 “완전히”, “대부분” 또는 “다소”로 응답해야 한다. (95% 신뢰 구간(CI), 20-100 Likert scale)

Capability

복잡한 오디오 정보를 처리하기 위한 task 실행자로서 오디오 foundation model은 복잡한 하위 task를 처리하는 데 상당한 영향을 미친다. AudioGPT의 경우 음성, 음악, 소리, talking head를 이해하고 생성하기 위한 평가 metric들과 하위 데이터셋은 아래 표와 같다.

Robustness

Special case를 처리하는 능력을 평가하여 multi-modal LLM의 robustness를 평가한다. 이러한 케이스들은 다음 카테고리로 분류할 수 있다.

Long chains of evaluation: Multi-modal LLM은 multi-modal 생성과 재사용에서 단기 및 장기 컨텍스트 종속성을 고려하면서 긴 평가 체인을 처리할 것으로 예상된다. Task의 체인은 후보 오디오 모델의 순차적 적용이 필요한 query나 다른 task를 요청하는 연속 query 또는 두 가지 유형의 혼합으로 표시될 수 있다.
Unsupported tasks: Multi-modal LLM은 foundation model에서 다루지 않는 지원하지 않는 task가 필요한 query에 합리적인 피드백을 제공할 수 있어야 한다.
Error handling of multi-modal models: Multi-modal foundation model은 지원하지 않는 argument 또는 지원하지 않는 입력 modality와 같은 다양한 이유로 인해 실패할 수 있다. 이러한 시나리오에서 multi-modal LLM은 발생한 문제를 설명하고 잠재적 해결책을 제안하는 query에 합리적인 피드백을 제공해야 한다.
Breaks in context: Multi-modal LLM은 논리적 순서가 아닌 query를 처리할 것으로 예상된다. 예를 들어, 사용자는 query 시퀀스에서 임의의 query를 제출할 수 있지만 더 많은 task가 있는 이전 query를 계속 진행할 수 있다.

Robustness을 평가하기 위해 Consistency 평가와 유사하게 3단계의 주관적 사용자 평가 프로세스를 수행한다. 첫 번째 단계에서 human annotator들은 위의 네 가지 카테고리를 기반으로 프롬프트를 제공한다. 두 번째 단계에서는 프롬프트가 LLM에 입력되어 완전한 상호 작용 세션을 구성한다. 마지막으로, 모집된 다른 피험자들은 Consistency 평가와 동일한 20-100 scale로 상호 작용을 평가한다.

Experiments

GPT 모델의 gpt-3.5-turbo를 LLM으로 사용하고 LangChain으로 LLM을 안내한다. 오디오 foundation model의 배포에는 허깅페이스에 유연한 NVIDIA T4 GPU만 필요하다. Greedy search를 사용하여 출력을 생성하기 위해 0의 temperature를 사용하고 생성을 위한 최대 토큰 수를 2048로 설정한다.

1. Case Study on Multiple Rounds Dialogue

위 그림은 AudioGPT의 12-round 대화 사례이다. 음성, 음악, 소리, talking head를 생성하고 이해하는 일련의 AI task를 다루는 오디오 modality 처리를 위한 AudioGPT의 능력을 보여준다. 대화에는 오디오 정보를 처리하기 위한 여러 요청이 포함되며 AudioGPT가 현재 대화의 컨텍스트를 유지하고 후속 질문을 처리하며 사용자와 적극적으로 상호 작용함을 보여준다.

2. Case Study on Simple Tasks

다음은 AudioGPT의 간단한 task들에 대한 사례들이다.

Limitation

신속한 엔지니어링: AudioGPT는 ChatGPT를 사용하여 많은 foundation model을 연결하므로 오디오 foundation model을 자연어로 설명하기 위해 신속한 엔지니어링이 필요하며 이는 시간이 많이 걸리고 전문 지식이 필요할 수 있다.
길이 제한: ChatGPT의 최대 토큰 길이는 multi-round 대화를 제한할 수 있으며, 이는 사용자의 컨텍스트 지침에도 영향을 미친다.
능력 제한: AudioGPT는 오디오 정보를 처리하기 위해 오디오 foundation model에 크게 의존하며, 이러한 모델의 정확성과 효율성에 크게 영향을 받는다.

AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head

Large language models (LLMs) have exhibited remarkable capabilities across a variety of domains and tasks, challenging our understanding of learning and cognition. Despite the recent success, current LLMs are not capable of processing complex audio informa

arxiv.org

GitHub - AIGC-Audio/AudioGPT: AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head

AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head - AIGC-Audio/AudioGPT

github.com

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

🐢🐢🐢