Latest revision as of 02:32, 16 September 2025

MMAR Results

System	ACC	music ACC	mix-sound-music	mix-music-speech	mix-sound-music-speech
SAR-LM (w/ Qwen2.5-Omni)	40.00%	33.98%	27.27%	48.78%	37.50%
Qwen2.5-Omni	56.70%	40.78%	54.55%	67.07%	58.33%

System	ACC	music ACC
SAR-LM (w/ Qwen2.5-Omni)	31.26%	41.50%
Qwen2-Audio-7B-Instruct	40.72%	38.68%

@@ Line 4: / Line 4: @@
 |- style="font-weight:bold;"
 ! System
-! Methods Used
 ! style="text-align:right;" | ACC
 ! style="text-align:right;" | music ACC
@@ Line 11: / Line 10: @@
 ! style="text-align:right;" | mix-sound-music-speech
 |-
-| Baseline 1
+| SAR-LM (w/ Qwen2.5-Omni)
-| SAR-LM (w/ Qwen3)
 | style="text-align:right;" | 40.00%
 | style="text-align:right;" | 33.98%
@@ Line 19: / Line 17: @@
 | style="text-align:right;" | 37.50%
 |-
-| Baseline 2
 | Qwen2.5-Omni
 | style="text-align:right;" | 56.70%
@@ Line 33: / Line 30: @@
 |- style="font-weight:bold;"
 ! System
-! Methods Used
 ! style="text-align:right;" | ACC
 ! style="text-align:right;" | music ACC
 |-
-| Baseline 1
+| SAR-LM (w/ Qwen2.5-Omni)
-| SAR-LM
 | style="text-align:right;" | 31.26%
 | style="text-align:right;" | 41.50%
 |-
-| Baseline 2
 | Qwen2-Audio-7B-Instruct
 | style="text-align:right;" | 40.72%