๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

๋…ผ๋ฌธ ๋ฆฌ๋ทฐ

[๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head

Rongjie Huang, Mingze Li, Dongchao Yang, Jiatong Shi, Xuankai Chang, Zhenhui Ye, Yuning Wu, Zhiqing Hong, Jiawei Huang, Jinglin Liu, Yi Ren, Zhou Zhao, Shinji Watanabe
25 Apr 2023

 

Introduction

LLM์˜ ํ…์ŠคํŠธ ์ฒ˜๋ฆฌ ๋ฐ ์ƒ์„ฑ ๋ถ„์•ผ์—์„œ ์„ฑ๊ณต์ ์ธ ์‘์šฉ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์˜ค๋””์˜ค ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ(๋‹ดํ™”, ์Œ์•…, ์†Œ๋ฆฌ, ์ธํ„ฐ๋ทฐ)์— ๋Œ€ํ•œ ์„ฑ๊ณต์€ ์ œํ•œ์ ์ด์ง€๋งŒ, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ด์œ ๋กœ ๋งค์šฐ ์œ ์šฉํ•˜๋‹ค.

  1. ์‹ค์ œ ์ƒํ™ฉ์—์„œ ์ธ๊ฐ„์€ ์ผ์ƒ ๋Œ€ํ™”๋ฅผ ํ†ตํ•ด ์Œ์„ฑ ์–ธ์–ด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์˜์‚ฌ ์†Œํ†ตํ•˜๊ณ , ํŽธ์˜์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด ์Œ์„ฑ ๋น„์„œ(e.g., Siri or Alexa)๋ฅผ ํ™œ์šฉํ•œ๋‹ค.
  2. ์ง€๋Šฅ์˜ ๊ณ ์œ ํ•œ ๋ถ€๋ถ„์œผ๋กœ์„œ, ์˜ค๋””์˜ค ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ์€ ์ผ๋ฐ˜์ ์ธ ์ธ๊ณต ์ง€๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•œ ํ•„์ˆ˜ ์‚ฌํ•ญ์ด๋‹ค. ๋‹ดํ™”, ์Œ์•…, ์†Œ๋ฆฌ, ์ธํ„ฐ๋ทฐ๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์€ ๋ณด๋‹ค ๋ฐœ์ „๋œ AI ์‹œ์Šคํ…œ์„ ํ–ฅํ•œ LLM์˜ ์ค‘์š”ํ•œ ๋‹จ๊ณ„์ผ ์ˆ˜ ์žˆ๋‹ค.

 

์˜ค๋””์˜ค ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์˜ ์ด์ ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์˜ค๋””์˜ค ์ฒ˜๋ฆฌ๋ฅผ ์ง€์›ํ•˜๋Š” LLM์„ ํ›ˆ๋ จํ•˜๋Š” ๊ฒƒ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฌธ์ œ๋กœ ์ธํ•ด ์—ฌ์ „ํžˆ ์–ด๋ ต๋‹ค.

  1. ๋ฐ์ดํ„ฐ: ์‚ฌ๋žŒ์ด ๋ ˆ์ด๋ธ”๋กœ ์ง€์ •ํ•œ ์Œ์„ฑ ๋ฐ์ดํ„ฐ๋ฅผ ํš๋“ํ•˜๋Š” ๊ฒƒ์€ ๋น„์šฉ๊ณผ ์‹œ๊ฐ„์ด ๋งŽ์ด ๋“œ๋Š” ์ž‘์—…์ด๋ฉฐ, ์‹ค์ œ ์Œ์„ฑ ๋Œ€ํ™”๋ฅผ ์ œ๊ณตํ•˜๋Š” ๋ฆฌ์†Œ์Šค๋Š” ๊ฑฐ์˜ ์—†๋‹ค. ๋˜ํ•œ ๋ฐฉ๋Œ€ํ•œ ๋ง๋ญ‰์น˜์˜ ์›น ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์— ๋น„ํ•ด ๋ฐ์ดํ„ฐ์˜ ์–‘์ด ์ œํ•œ์ ์ด๋ฉฐ, ๋‹ค๊ตญ์–ด ๋Œ€ํ™”ํ˜• ์Œ์„ฑ ๋ฐ์ดํ„ฐ๋Š” ๋”์šฑ ๋ถ€์กฑํ•˜๋‹ค.
  2. ๊ณ„์‚ฐ ๋ฆฌ์†Œ์Šค: ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์„ ์ฒ˜์Œ๋ถ€ํ„ฐ ํ›ˆ๋ จํ•˜๋Š” ๊ฒƒ์€ ๊ณ„์‚ฐ ์ง‘์•ฝ์ ์ด๊ณ  ์‹œ๊ฐ„์ด ๋งŽ์ด ์†Œ์š”๋œ๋‹ค. ๋‹ดํ™”, ์Œ์•…, ์†Œ๋ฆฌ, ์ธํ„ฐ๋ทฐ๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ์กด์˜ ์˜ค๋””์˜ค ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์ด ์ด๋ฏธ ์กด์žฌํ•œ๋‹ค๋Š” ์ ์„ ๊ณ ๋ คํ•  ๋•Œ, ์ฒ˜์Œ๋ถ€ํ„ฐ ํ›ˆ๋ จ์„ ์‹œ์ž‘ํ•˜๋Š” ๊ฒƒ์€ ๋‚ญ๋น„์ผ ๊ฒƒ์ด๋‹ค.

 

์ด ์—ฐ๊ตฌ์—์„œ๋Š” ์Œ์„ฑ ๋Œ€ํ™”์—์„œ ์˜ค๋””์˜ค ์–‘์‹์„ ์ดํ•ดํ•˜๊ณ  ์ƒ์„ฑํ•˜๋Š” ๋ฐ ํƒ์›”ํ•˜๋„๋ก ์„ค๊ณ„๋œ ์‹œ์Šคํ…œ์ธ "AudioGPT"๋ฅผ ์†Œ๊ฐœํ•œ๋‹ค.

  1. ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์„ ์ฒ˜์Œ๋ถ€ํ„ฐ ํ›ˆ๋ จํ•˜๋Š” ๋Œ€์‹ , ๋‹ค์–‘ํ•œ ์˜ค๋””์˜ค ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ ๋ณต์žกํ•œ ์˜ค๋””์˜ค ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•œ๋‹ค.
    • ์—ฌ๊ธฐ์„œ LLM(์ฆ‰, ChatGPT)์€ AudioGPT๋กœ ํ•˜์—ฌ๊ธˆ ์ˆ˜๋งŽ์€ ์˜ค๋””์˜ค ์ดํ•ด ๋ฐ ์ƒ์„ฑ ์ž‘์—…์„ ํ•ด๊ฒฐํ•˜๋„๋ก ํ•˜๋Š” ๋ฒ”์šฉ ์ธํ„ฐํŽ˜์ด์Šค๋กœ ๊ฐ„์ฃผ๋œ๋‹ค.
  2. ์Œ์„ฑ ์–ธ์–ด ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•˜๋Š” ๋Œ€์‹ , LLM์„ ์Œ์„ฑ ๋Œ€ํ™”๋ฅผ ์œ„ํ•œ ์ž…์ถœ๋ ฅ ์ธํ„ฐํŽ˜์ด์Šค(ASR, TTS)์™€ ์—ฐ๊ฒฐํ•œ๋‹ค.
    • ASR(Automatic Speech Recognition): ์Œ์„ฑ โ†’ ํ…์ŠคํŠธ
    • TTS(Text to Speech): ํ…์ŠคํŠธ โ†’ ์Œ์„ฑ

 

AudioGPT์˜ 4๋‹จ๊ณ„ ํ”„๋กœ์„ธ์Šค

4๋‹จ๊ณ„ : ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๋ณ€ํ™˜, ํƒœ์Šคํฌ ๋ถ„์„, ๋ชจ๋ธ ํ• ๋‹น, ์‘๋‹ต ์ƒ์„ฑ

  1. ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๋ณ€ํ™˜: ์Œ์„ฑ๊ณผ ํ…์ŠคํŠธ ์‚ฌ์ด์˜ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๋ณ€ํ™˜์„ ์œ„ํ•ด ์ž…์ถœ๋ ฅ ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์Œ์„ฑ ์–ธ์–ด LLM๊ณผ ChatGPT ์‚ฌ์ด์˜ ๊ฐ„๊ทน์„ ๋ฉ”์šด๋‹ค.
  2. ํƒœ์Šคํฌ ๋ถ„์„: ๋Œ€ํ™” ์—”์ง„๊ณผ ํ”„๋กฌํ”„ํŠธ ๊ด€๋ฆฌ์ž๋ฅผ ํ™œ์šฉํ•˜์—ฌ ChatGPT๊ฐ€ ์˜ค๋””์˜ค ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•˜๋ ค๋Š” ์‚ฌ์šฉ์ž์˜ ์˜๋„๋ฅผ ํŒŒ์•…ํ•œ๋‹ค.
  3. ๋ชจ๋ธ ํ• ๋‹น: ์šด์œจ, ์Œ์ƒ‰, ์–ธ์–ด ์ œ์–ด์— ๋Œ€ํ•œ ๊ตฌ์กฐํ™”๋œ ์ธ์ˆ˜๋ฅผ ๋ฐ›์€ ChatGPT๋Š” ์ดํ•ด์™€ ์ƒ์„ฑ์„ ์œ„ํ•ด ์˜ค๋””์˜ค ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์„ ํ• ๋‹นํ•œ๋‹ค.
  4. ์‘๋‹ต ์ƒ์„ฑ: ์˜ค๋””์˜ค ๊ธฐ๋ฐ˜ ๋ชจ๋ธ ์‹คํ–‰ ํ›„ ์‚ฌ์šฉ์ž์—๊ฒŒ ์ตœ์ข… ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๊ณ  ๋ฐ˜ํ™˜ํ•œ๋‹ค.

Fig 1. AudioGPT ๊ฐœ์š”

  • ๋ณต์žกํ•œ ์˜ค๋””์˜ค ์ž‘์—…์„ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ChatGPT์— ์˜ค๋””์˜ค ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์„ ๊ฐ–์ถ”๊ณ  ์žˆ์œผ๋ฉฐ, ์Œ์„ฑ ๋Œ€ํ™”๊ฐ€ ๊ฐ€๋Šฅํ•˜๋„๋ก ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๋ณ€ํ™˜ ์ธํ„ฐํŽ˜์ด์Šค์™€ ์—ฐ๊ฒฐ๋˜์–ด ์žˆ๋‹ค.
  • Consistency, Capability, Robustness ์ธก๋ฉด์—์„œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์›์น™์„ ์„ค๊ณ„ํ•œ๋‹ค.

 

๊ฝƒํ”ผ๋Š” ์—ฐ๊ตฌ ์ฃผ์ œ๋กœ์„œ, ์ธ๊ฐ„์˜ ์˜๋„๋ฅผ ์ดํ•ดํ•˜๊ณ  ๋‹ค์–‘ํ•œ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์˜ ํ˜‘๋ ฅ์„ ๊ตฌ์„ฑํ•˜๋Š” ๋ฐ ์žˆ์–ด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•ด์•ผ ํ•˜๋Š” ์š”๊ตฌ๊ฐ€ ์ฆ๊ฐ€ํ•˜๊ณ  ์žˆ๋‹ค.

Contributions

  • ๋ณต์žกํ•œ ์˜ค๋””์˜ค ์ž‘์—…์„ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ChatGPT์— ์˜ค๋””์˜ค ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์„ ์žฅ์ฐฉํ•˜๋Š” AudioGPT๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ๋ฒ”์šฉ ์ธํ„ฐํŽ˜์ด์Šค๋กœ์„œ ChatGPT๋Š” ์Œ์„ฑ ๋Œ€ํ™”๊ฐ€ ๊ฐ€๋Šฅํ•˜๋„๋ก ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๋ณ€ํ™˜ ์ธํ„ฐํŽ˜์ด์Šค์™€ ์—ฐ๊ฒฐ๋œ๋‹ค.
  • ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์„ ํ‰๊ฐ€ํ•˜๋Š” ์„ค๊ณ„ ์›๋ฆฌ์™€ ํ”„๋กœ์„ธ์Šค๋ฅผ ๊ฐœ๋žต์ ์œผ๋กœ ์„ค๋ช…ํ•˜๊ณ  Consistency, Capability, Robustness ์ธก๋ฉด์—์„œ AudioGPT๋ฅผ ํ…Œ์ŠคํŠธํ•œ๋‹ค.
  • ์‹œ์—ฐ์€ ์—ฌ๋Ÿฌ ์ฐจ๋ก€์˜ ๋Œ€ํ™”๋ฅผ ํ†ตํ•ด ์˜ค๋””์˜ค ์ดํ•ด ๋ฐ ์ƒ์„ฑ์— ์žˆ์–ด AudioGPT์˜ ํšจ์œจ์„ฑ์„ ์ œ์‹œํ•˜๋ฉฐ, ์ด๋Š” ์ธ๊ฐ„์ด ์ „๋ก€ ์—†์ด ์‰ฝ๊ฒŒ ํ’๋ถ€ํ•˜๊ณ  ๋‹ค์–‘ํ•œ ์˜ค๋””์˜ค ์ฝ˜ํ…์ธ ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•œ๋‹ค.

 

AudioGPT

System Formulation

AudioGPT๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜๋˜๋Š” ํ”„๋กฌํ”„ํŠธ ๊ธฐ๋ฐ˜ ์‹œ์Šคํ…œ์ด๋‹ค.

  • T: ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๋ณ€ํ™˜๊ธฐ
  • L: ๋Œ€ํ™” ์—”์ง„ (์ฆ‰, LLM)
  • M: ํ”„๋กฌํ”„ํŠธ ๊ด€๋ฆฌ์ž
  • H: ํƒœ์Šคํฌ ํ•ธ๋“ค๋Ÿฌ
  • P: ์˜ค๋””์˜ค ๊ธฐ๋ฐ˜ ๋ชจ๋ธ

 

  • C: (n-1) ์ฐจ๋ก€์˜ ์ƒํ˜ธ์ž‘์šฉ context
    • qi: i๋ฒˆ์งธ ๋ผ์šด๋“œ์˜ ์ฟผ๋ฆฌ
    • ri: i๋ฒˆ์งธ ๋ผ์šด๋“œ์˜ ๋‹ต๋ณ€

  • qn: ์ƒˆ ์ฟผ๋ฆฌ
  • rn: ์œ„ ๊ณต์‹์˜ AudioGPT์˜ ์‹คํ–‰์— ์˜ํ•ด ์ƒ์„ฑ๋œ ๋‹ต๋ณ€

์ถ”๋ก ํ•˜๋Š” ๋™์•ˆ, AudioGPT๋Š” ํฌ๊ฒŒ 4๋‹จ๊ณ„๋กœ ๋ถ„ํ•ด๋จ

  1. ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๋ณ€ํ™˜: qn ๋‚ด์˜ ๋‹ค์–‘ํ•œ ์ž…๋ ฅ ์–‘์‹์„ ์ผ๊ด€๋œ ์–‘์‹์„ ๊ฐ€์ง„ ์ฟผ๋ฆฌ qโ€™n๋กœ ์ „์†กํ•œ๋‹ค
  2. ํƒœ์Šคํฌ ๋ถ„์„: ๋Œ€ํ™” ์—”์ง„ L๊ณผ ํ”„๋กฌํ”„ํŠธ ๊ด€๋ฆฌ์ž M์„ ํ™œ์šฉํ•˜์—ฌ (qโ€™n, C)๋ฅผ ํƒœ์Šคํฌ ํ•ธ๋“ค๋Ÿฌ H์— ๋Œ€ํ•œ ๊ตฌ์กฐ ์ธ์ˆ˜ an๋กœ ํŒŒ์‹ฑํ•œ๋‹ค
  3. ๋ชจ๋ธ ํ• ๋‹น: ํƒœ์Šคํฌ ํ•ธ๋“ค๋Ÿฌ H๋Š” ๊ตฌ์กฐํ™”๋œ ์ธ์ˆ˜ an์„ ์†Œ๋น„ํ•˜๊ณ , ์ธ์ˆ˜๋ฅผ ํ•ด๋‹นํ•˜๋Š” ์˜ค๋””์˜ค ํƒœ์Šคํฌ ํ”„๋กœ์„ธ์„œ Ps๋กœ ์ „์†กํ•œ๋‹ค (s๋Š” ์„ ํƒ๋œ ํƒœ์Šคํฌ ์ธ๋ฑ์Šค)
  4. ์‘๋‹ต ์ƒ์„ฑ: Ps(an) ์‹คํ–‰ ํ›„, (qโ€™n, C, Ps(an)์˜ ์ •๋ณด๋ฅผ ์กฐํ•ฉํ•˜์—ฌ L์„ ํ†ตํ•ด ์ตœ์ข… ์‘๋‹ต rn์„ ์ƒ์„ฑํ•œ๋‹ค

 

Modality Transformation

๋ชฉํ‘œ: ์ฟผ๋ฆฌ qn์„ ์ผ๊ด€๋œ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์˜ ์ƒˆ๋กœ์šด ์ฟผ๋ฆฌ qโ€™n์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ฒƒ

  • ์‚ฌ์šฉ์ž ์ž…๋ ฅ ์ฟผ๋ฆฌ qn: ์ฟผ๋ฆฌ description q_n^(d)์™€ ํฌ๊ธฐ๊ฐ€ k์ธ ์ฟผ๋ฆฌ ๊ด€๋ จ ๋ฆฌ์†Œ์Šค ์ง‘ํ•ฉ์œผ๋กœ ๊ตฌ์„ฑ๋จ

  • q_n^(d)๋Š” ํ…์ŠคํŠธ ๋˜๋Š” ์˜ค๋””์˜ค ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์ผ ์ˆ˜ ์žˆ์Œ โ†’ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๋ณ€ํ™˜๊ธฐ T๋Š” ๋จผ์ € q_n^(d)์˜ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ํ™•์ธํ•ด์•ผ ํ•˜๋ฉฐ, ์˜ค๋””์˜ค์ธ ๊ฒฝ์šฐ, T๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์˜ค๋””์˜ค์—์„œ ํ…์ŠคํŠธ๋กœ ๋ณ€ํ™˜ํ•ด์•ผ ํ•จ

 

Task Analysis

Task ๋ถ„์„ ๋‹จ๊ณ„๋Š” ์—์„œ ๊ตฌ์กฐํ™”๋œ argument ์„ ์ถ”์ถœํ•˜๋Š” ๋ฐ ์ค‘์ ์„ ๋‘”๋‹ค. ํŠนํžˆ ์ปจํ…์ŠคํŠธ ๋Š” argument ์ถ”์ถœ์— ์•ž์„œ ๋Œ€ํ™” ์—”์ง„ ์— ๊ณต๊ธ‰๋œ๋‹ค. ์˜ query resource์˜ ์œ ํ˜•์— ๋”ฐ๋ผ task handler ๋Š” ๋จผ์ € query๋ฅผ ์ž…์ถœ๋ ฅ modality๋ฅผ ํ†ตํ•ด ๋ถ„๋ฅ˜๋˜๋Š” ์—ฌ๋Ÿฌ task family๋กœ ๋ถ„๋ฅ˜ํ•œ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ ์„ ํƒ๋œ task family๊ฐ€ ์ฃผ์–ด์ง€๋ฉด query description ๊ฐ€ prompt manager ์œผ๋กœ ์ „๋‹ฌ๋˜์–ด ์„ ํƒ๋œ ์˜ค๋””์˜ค foundation model ์™€ ํ•ด๋‹น task ๊ด€๋ จ argument ๋ฅผ ํฌํ•จํ•˜๋Š” argument ์„ ์ƒ์„ฑํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ ๋Š” ์˜ค๋””์˜ค ๋ชจ๋ธ ์ง‘ํ•ฉ ์—์„œ ์„ ํƒ๋œ ์˜ค๋””์˜ค ๋ชจ๋ธ์˜ ์ธ๋ฑ์Šค๋‹ค.

 

 

Model Assignment

์„ ํƒ๋œ ๋ชจ๋ธ ์™€ argument ๊ฐ€ ์ฃผ์–ด์ง€๋ฉด ๋ชจ๋ธ ํ• ๋‹น ๋‹จ๊ณ„๋Š” ๋ชจ๋ธ์— ๊ด€๋ จ๋œ ๋ฆฌ์†Œ์Šค๋ฅผ ํ• ๋‹นํ•˜๊ณ  ๋ฅผ ์‹คํ–‰ํ•˜์—ฌ task ์ถœ๋ ฅ ๋ฅผ ์–ป๋Š”๋‹ค.

AudioGPT์˜ ํšจ์œจ์„ฑ์„ ์œ ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ํ™˜๊ฒฝ ์„ค์ • ๋˜๋Š” ์„œ๋ฒ„ ์ดˆ๊ธฐํ™” ์ค‘์— ์˜ค๋””์˜ค ๋ชจ๋ธ ์ดˆ๊ธฐํ™”๋ฅผ ์ˆ˜ํ–‰ํ•œ๋‹ค.

 

Response Generation

์‘๋‹ต ์ƒ์„ฑ์€ ์™€ ํ•ด๋‹น ์ถœ๋ ฅ ์™€ ๋ฐ€์ ‘ํ•œ ๊ด€๋ จ์ด ์žˆ๋‹ค. ํŠนํžˆ ์˜ค๋””์˜ค ์ƒ์„ฑ task์˜ ๊ฒฝ์šฐ AudioGPT๋Š” waveform์„ ์ด๋ฏธ์ง€์™€ ๋‹ค์šด๋กœ๋“œ/์žฌ์ƒ์„ ์œ„ํ•œ ํ•ด๋‹น ์˜ค๋””์˜ค ํŒŒ์ผ์„ ๋ชจ๋‘ ๋ณด์—ฌ์ค€๋‹ค. ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๋Š” task์˜ ๊ฒฝ์šฐ ๋ชจ๋ธ์€ transcribe๋œ ํ…์ŠคํŠธ๋ฅผ ์ง์ ‘ returnํ•œ๋‹ค. ๋™์˜์ƒ ์ƒ์„ฑ task์˜ ๊ฒฝ์šฐ ์ถœ๋ ฅ ๋™์˜์ƒ๊ณผ ์ผ๋ถ€ ๊ด€๋ จ ์ด๋ฏธ์ง€ ํ”„๋ ˆ์ž„์„ ๋ณด์—ฌ์ค€๋‹ค. Classification task์˜ ๊ฒฝ์šฐ ์นดํ…Œ๊ณ ๋ฆฌ์˜ posteriorgram์ด ์‹œ๊ฐ„ ๋ฒ”์œ„์— ๊ฑธ์ณ ๋ณด์—ฌ์ง„๋‹ค.

 

 

Evaluating Multi-Modal LLMs

๋‹ค์Œ ์„ธ ๊ฐ€์ง€ ์ธก๋ฉด์—์„œ LLM์„ ํ‰๊ฐ€ํ•œ๋‹ค.

  1. Consistency: LLM์ด ์‚ฌ์šฉ์ž์˜ ์˜๋„๋ฅผ ์ œ๋Œ€๋กœ ์ดํ•ดํ•˜๊ณ  ์ธ๊ฐ„์˜ ์ธ์ง€ ๋ฐ ๋ฌธ์ œ ํ•ด๊ฒฐ๊ณผ ๋ฐ€์ ‘ํ•˜๊ฒŒ ์ผ์น˜ํ•˜๋Š” ์˜ค๋””์˜ค foundation model์„ ํ• ๋‹นํ•˜๋Š”์ง€ ์—ฌ๋ถ€๋ฅผ ํ‰๊ฐ€ํ•œ๋‹ค.
  2. Capabilitity: ๋ณต์žกํ•œ ์˜ค๋””์˜ค task๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ณ , zero-shot ๋ฐฉ์‹์œผ๋กœ ์Œ์„ฑ, ์Œ์•…, ์†Œ๋ฆฌ, talking head๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ƒ์„ฑํ•˜๋Š” ์˜ค๋””์˜ค foundation model์˜ ์„ฑ๋Šฅ์„ ์ธก์ •ํ•œ๋‹ค.
  3. Robustness: special case๋“ค์„ ๋‹ค๋ฃจ๋Š” LLM์˜ ๋Šฅ๋ ฅ์„ ์ธก์ •ํ•œ๋‹ค.

 

Consistency

Zero-shot ์„ธํŒ…์— ๋Œ€ํ•œ ์ผ๊ด€์„ฑ ํ‰๊ฐ€์—์„œ ๋ชจ๋ธ์€ ํŠน์ • task์˜ prior example์„ ์ œ๊ณต๋ฐ›์ง€ ์•Š๊ณ  ์งˆ๋ฌธ์— ๋Œ€ํ•ด ์ง์ ‘ ํ‰๊ฐ€๋˜๋ฉฐ, ์ด๋Š” multi-modal LLM์ด ๋ช…์‹œ์  ํ•™์Šต ์—†์ด ๋ฌธ์ œ๋ฅผ ์ถ”๋ก ํ•˜๊ณ  ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ์—ฌ๋ถ€๋ฅผ ํ‰๊ฐ€ํ•œ๋‹ค.

์œ„ ๊ทธ๋ฆผ์—์„œ์™€ ๊ฐ™์ด consistency ํ‰๊ฐ€๋Š” ๋ฒค์น˜๋งˆํฌ์˜ ๊ฐ task์— ๋Œ€ํ•ด 3๋‹จ๊ณ„๋กœ ์ˆ˜ํ–‰๋œ๋‹ค.

  1. human annotator๋“ค์—๊ฒŒ {prompts, task_name} ํ˜•์‹์œผ๋กœ ๊ฐ task์— ๋Œ€ํ•œ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ œ๊ณตํ•˜๋„๋ก ์š”์ฒญํ•œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ณต์žกํ•œ task๋ฅผ ์ดํ•ดํ•˜๋Š” ๋ชจ๋ธ์˜ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ณ  ์„ฑ๊ณต์ ์ธ task ํ• ๋‹น์— ํ•„์š”ํ•œ ํ•„์ˆ˜ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์‹๋ณ„ํ•  ์ˆ˜ ์žˆ๋‹ค.
  2. LLM์˜ ๋›ฐ์–ด๋‚œ ์–ธ์–ด ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ํ™œ์šฉํ•˜์—ฌ ๋‹ค๋ฅธ ํ‘œํ˜„์„ ์‚ฌ์šฉํ•˜๋ฉด์„œ ๋™์ผํ•œ semantic ์˜๋ฏธ๋กœ ์„ค๋ช…์„ ์ƒ์„ฑํ•˜์—ฌ LLM์ด ๋” ๋งŽ์€ ์‚ฌ์šฉ์ž์˜ ์˜๋„๋ฅผ ์ดํ•ดํ•˜๋Š”์ง€ ์—ฌ๋ถ€๋ฅผ ์ข…ํ•ฉ์ ์œผ๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค.
  3. Amazon Mechanical Turk๋ฅผ ํ†ตํ•ด ํฌ๋ผ์šฐ๋“œ ์†Œ์‹ฑ๋œ human evaluation์„ ์‚ฌ์šฉํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ AudioGPT๋Š” ๋‹ค์–‘ํ•œ task์™€ ์˜๋„์— ํ•ด๋‹นํ•˜๋Š” ์ด๋Ÿฌํ•œ ์ž์—ฐ์–ด ์„ค๋ช…๊ณผ ํ•จ๊ป˜ ํ”„๋กฌํ”„ํŠธ๋œ๋‹ค. ์ธ๊ฐ„ ํ‰๊ฐ€์ž๋Š” multi-modal LLM์˜ ์‘๋‹ต๊ณผ ์ฆ‰๊ฐ์ ์ธ ์ž…๋ ฅ์„ ๋ณด์—ฌ์ฃผ๊ณ  โ€œ์‘๋‹ต์ด ์ธ๊ฐ„์˜ ์ธ์ง€ ๋ฐ ์˜๋„์™€ ๋ฐ€์ ‘ํ•˜๊ฒŒ ์ผ์น˜ํ•ฉ๋‹ˆ๊นŒ?โ€๋ผ๋Š” ์งˆ๋ฌธ์„ ๋ฐ›๋Š”๋‹ค. ํ‰๊ฐ€์ž๋Š” โ€œ์™„์ „ํžˆโ€, โ€œ๋Œ€๋ถ€๋ถ„โ€ ๋˜๋Š” โ€œ๋‹ค์†Œโ€๋กœ ์‘๋‹ตํ•ด์•ผ ํ•œ๋‹ค. (95% ์‹ ๋ขฐ ๊ตฌ๊ฐ„(CI), 20-100 Likert scale)

 

Capability

๋ณต์žกํ•œ ์˜ค๋””์˜ค ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•œ task ์‹คํ–‰์ž๋กœ์„œ ์˜ค๋””์˜ค foundation model์€ ๋ณต์žกํ•œ ํ•˜์œ„ task๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ์ƒ๋‹นํ•œ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค. AudioGPT์˜ ๊ฒฝ์šฐ ์Œ์„ฑ, ์Œ์•…, ์†Œ๋ฆฌ, talking head๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•œ ํ‰๊ฐ€ metric๋“ค๊ณผ ํ•˜์œ„ ๋ฐ์ดํ„ฐ์…‹์€ ์•„๋ž˜ ํ‘œ์™€ ๊ฐ™๋‹ค.

 

Robustness

Special case๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜์—ฌ multi-modal LLM์˜ robustness๋ฅผ ํ‰๊ฐ€ํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ์ผ€์ด์Šค๋“ค์€ ๋‹ค์Œ ์นดํ…Œ๊ณ ๋ฆฌ๋กœ ๋ถ„๋ฅ˜ํ•  ์ˆ˜ ์žˆ๋‹ค.

  • Long chains of evaluation: Multi-modal LLM์€ multi-modal ์ƒ์„ฑ๊ณผ ์žฌ์‚ฌ์šฉ์—์„œ ๋‹จ๊ธฐ ๋ฐ ์žฅ๊ธฐ ์ปจํ…์ŠคํŠธ ์ข…์†์„ฑ์„ ๊ณ ๋ คํ•˜๋ฉด์„œ ๊ธด ํ‰๊ฐ€ ์ฒด์ธ์„ ์ฒ˜๋ฆฌํ•  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋œ๋‹ค. Task์˜ ์ฒด์ธ์€ ํ›„๋ณด ์˜ค๋””์˜ค ๋ชจ๋ธ์˜ ์ˆœ์ฐจ์  ์ ์šฉ์ด ํ•„์š”ํ•œ query๋‚˜ ๋‹ค๋ฅธ task๋ฅผ ์š”์ฒญํ•˜๋Š” ์—ฐ์† query ๋˜๋Š” ๋‘ ๊ฐ€์ง€ ์œ ํ˜•์˜ ํ˜ผํ•ฉ์œผ๋กœ ํ‘œ์‹œ๋  ์ˆ˜ ์žˆ๋‹ค.
  • Unsupported tasks: Multi-modal LLM์€ foundation model์—์„œ ๋‹ค๋ฃจ์ง€ ์•Š๋Š” ์ง€์›ํ•˜์ง€ ์•Š๋Š” task๊ฐ€ ํ•„์š”ํ•œ query์— ํ•ฉ๋ฆฌ์ ์ธ ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•œ๋‹ค.
  • Error handling of multi-modal models: Multi-modal foundation model์€ ์ง€์›ํ•˜์ง€ ์•Š๋Š” argument ๋˜๋Š” ์ง€์›ํ•˜์ง€ ์•Š๋Š” ์ž…๋ ฅ modality์™€ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ์ด์œ ๋กœ ์ธํ•ด ์‹คํŒจํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋Ÿฌํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ multi-modal LLM์€ ๋ฐœ์ƒํ•œ ๋ฌธ์ œ๋ฅผ ์„ค๋ช…ํ•˜๊ณ  ์ž ์žฌ์  ํ•ด๊ฒฐ์ฑ…์„ ์ œ์•ˆํ•˜๋Š” query์— ํ•ฉ๋ฆฌ์ ์ธ ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•ด์•ผ ํ•œ๋‹ค.
  • Breaks in context: Multi-modal LLM์€ ๋…ผ๋ฆฌ์  ์ˆœ์„œ๊ฐ€ ์•„๋‹Œ query๋ฅผ ์ฒ˜๋ฆฌํ•  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‚ฌ์šฉ์ž๋Š” query ์‹œํ€€์Šค์—์„œ ์ž„์˜์˜ query๋ฅผ ์ œ์ถœํ•  ์ˆ˜ ์žˆ์ง€๋งŒ ๋” ๋งŽ์€ task๊ฐ€ ์žˆ๋Š” ์ด์ „ query๋ฅผ ๊ณ„์† ์ง„ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค.

Robustness์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด Consistency ํ‰๊ฐ€์™€ ์œ ์‚ฌํ•˜๊ฒŒ 3๋‹จ๊ณ„์˜ ์ฃผ๊ด€์  ์‚ฌ์šฉ์ž ํ‰๊ฐ€ ํ”„๋กœ์„ธ์Šค๋ฅผ ์ˆ˜ํ–‰ํ•œ๋‹ค. ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ human annotator๋“ค์€ ์œ„์˜ ๋„ค ๊ฐ€์ง€ ์นดํ…Œ๊ณ ๋ฆฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ œ๊ณตํ•œ๋‹ค. ๋‘ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ๋Š” ํ”„๋กฌํ”„ํŠธ๊ฐ€ LLM์— ์ž…๋ ฅ๋˜์–ด ์™„์ „ํ•œ ์ƒํ˜ธ ์ž‘์šฉ ์„ธ์…˜์„ ๊ตฌ์„ฑํ•œ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ, ๋ชจ์ง‘๋œ ๋‹ค๋ฅธ ํ”ผํ—˜์ž๋“ค์€ Consistency ํ‰๊ฐ€์™€ ๋™์ผํ•œ 20-100 scale๋กœ ์ƒํ˜ธ ์ž‘์šฉ์„ ํ‰๊ฐ€ํ•œ๋‹ค.

 

 

Experiments

GPT ๋ชจ๋ธ์˜ gpt-3.5-turbo๋ฅผ LLM์œผ๋กœ ์‚ฌ์šฉํ•˜๊ณ  LangChain์œผ๋กœ LLM์„ ์•ˆ๋‚ดํ•œ๋‹ค. ์˜ค๋””์˜ค foundation model์˜ ๋ฐฐํฌ์—๋Š” ํ—ˆ๊น…ํŽ˜์ด์Šค์— ์œ ์—ฐํ•œ NVIDIA T4 GPU๋งŒ ํ•„์š”ํ•˜๋‹ค. Greedy search๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด 0์˜ temperature๋ฅผ ์‚ฌ์šฉํ•˜๊ณ  ์ƒ์„ฑ์„ ์œ„ํ•œ ์ตœ๋Œ€ ํ† ํฐ ์ˆ˜๋ฅผ 2048๋กœ ์„ค์ •ํ•œ๋‹ค.

 

1. Case Study on Multiple Rounds Dialogue

์œ„ ๊ทธ๋ฆผ์€ AudioGPT์˜ 12-round ๋Œ€ํ™” ์‚ฌ๋ก€์ด๋‹ค. ์Œ์„ฑ, ์Œ์•…, ์†Œ๋ฆฌ, talking head๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ์ดํ•ดํ•˜๋Š” ์ผ๋ จ์˜ AI task๋ฅผ ๋‹ค๋ฃจ๋Š” ์˜ค๋””์˜ค modality ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ AudioGPT์˜ ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ค€๋‹ค. ๋Œ€ํ™”์—๋Š” ์˜ค๋””์˜ค ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•œ ์—ฌ๋Ÿฌ ์š”์ฒญ์ด ํฌํ•จ๋˜๋ฉฐ AudioGPT๊ฐ€ ํ˜„์žฌ ๋Œ€ํ™”์˜ ์ปจํ…์ŠคํŠธ๋ฅผ ์œ ์ง€ํ•˜๊ณ  ํ›„์† ์งˆ๋ฌธ์„ ์ฒ˜๋ฆฌํ•˜๋ฉฐ ์‚ฌ์šฉ์ž์™€ ์ ๊ทน์ ์œผ๋กœ ์ƒํ˜ธ ์ž‘์šฉํ•จ์„ ๋ณด์—ฌ์ค€๋‹ค.

 

2. Case Study on Simple Tasks

๋‹ค์Œ์€ AudioGPT์˜ ๊ฐ„๋‹จํ•œ task๋“ค์— ๋Œ€ํ•œ ์‚ฌ๋ก€๋“ค์ด๋‹ค.

 

 

Limitation

  1. ์‹ ์†ํ•œ ์—”์ง€๋‹ˆ์–ด๋ง: AudioGPT๋Š” ChatGPT๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋งŽ์€ foundation model์„ ์—ฐ๊ฒฐํ•˜๋ฏ€๋กœ ์˜ค๋””์˜ค foundation model์„ ์ž์—ฐ์–ด๋กœ ์„ค๋ช…ํ•˜๊ธฐ ์œ„ํ•ด ์‹ ์†ํ•œ ์—”์ง€๋‹ˆ์–ด๋ง์ด ํ•„์š”ํ•˜๋ฉฐ ์ด๋Š” ์‹œ๊ฐ„์ด ๋งŽ์ด ๊ฑธ๋ฆฌ๊ณ  ์ „๋ฌธ ์ง€์‹์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ๋‹ค.
  2. ๊ธธ์ด ์ œํ•œ: ChatGPT์˜ ์ตœ๋Œ€ ํ† ํฐ ๊ธธ์ด๋Š” multi-round ๋Œ€ํ™”๋ฅผ ์ œํ•œํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” ์‚ฌ์šฉ์ž์˜ ์ปจํ…์ŠคํŠธ ์ง€์นจ์—๋„ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค.
  3. ๋Šฅ๋ ฅ ์ œํ•œ: AudioGPT๋Š” ์˜ค๋””์˜ค ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ์˜ค๋””์˜ค foundation model์— ํฌ๊ฒŒ ์˜์กดํ•˜๋ฉฐ, ์ด๋Ÿฌํ•œ ๋ชจ๋ธ์˜ ์ •ํ™•์„ฑ๊ณผ ํšจ์œจ์„ฑ์— ํฌ๊ฒŒ ์˜ํ–ฅ์„ ๋ฐ›๋Š”๋‹ค.

 

 

 

AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head

Large language models (LLMs) have exhibited remarkable capabilities across a variety of domains and tasks, challenging our understanding of learning and cognition. Despite the recent success, current LLMs are not capable of processing complex audio informa

arxiv.org

 

 

GitHub - AIGC-Audio/AudioGPT: AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head

AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head - AIGC-Audio/AudioGPT

github.com