{"id":"https://openalex.org/W7148302236","doi":"https://doi.org/10.1109/asru65441.2025.11434694","title":"Audio Aesthetics Prediction System QAM16k Based on Pre-trained Audio Encoder","display_name":"Audio Aesthetics Prediction System QAM16k Based on Pre-trained Audio Encoder","publication_year":2025,"publication_date":"2025-12-06","ids":{"openalex":"https://openalex.org/W7148302236","doi":"https://doi.org/10.1109/asru65441.2025.11434694"},"language":null,"primary_location":{"id":"doi:10.1109/asru65441.2025.11434694","is_oa":false,"landing_page_url":"https://doi.org/10.1109/asru65441.2025.11434694","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5027244970","display_name":"Linping Xu","orcid":null},"institutions":[{"id":"https://openalex.org/I4210140416","display_name":"New England Biolabs (China)","ror":"https://ror.org/03nb3ch98","country_code":"CN","type":"company","lineage":["https://openalex.org/I115020962","https://openalex.org/I4210140416"]}],"countries":["CN"],"is_corresponding":true,"raw_author_name":"Linping Xu","raw_affiliation_strings":["ByteDance,MMLab,Beijing,China"],"affiliations":[{"raw_affiliation_string":"ByteDance,MMLab,Beijing,China","institution_ids":["https://openalex.org/I4210140416"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5132747569","display_name":"Ziqian Wu","orcid":null},"institutions":[{"id":"https://openalex.org/I4210140416","display_name":"New England Biolabs (China)","ror":"https://ror.org/03nb3ch98","country_code":"CN","type":"company","lineage":["https://openalex.org/I115020962","https://openalex.org/I4210140416"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Ziqian Wu","raw_affiliation_strings":["ByteDance,MMLab,Beijing,China"],"affiliations":[{"raw_affiliation_string":"ByteDance,MMLab,Beijing,China","institution_ids":["https://openalex.org/I4210140416"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5132737456","display_name":"Dejun Zhang","orcid":null},"institutions":[{"id":"https://openalex.org/I4210140416","display_name":"New England Biolabs (China)","ror":"https://ror.org/03nb3ch98","country_code":"CN","type":"company","lineage":["https://openalex.org/I115020962","https://openalex.org/I4210140416"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Dejun Zhang","raw_affiliation_strings":["ByteDance,MMLab,Beijing,China"],"affiliations":[{"raw_affiliation_string":"ByteDance,MMLab,Beijing,China","institution_ids":["https://openalex.org/I4210140416"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5027244970"],"corresponding_institution_ids":["https://openalex.org/I4210140416"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.75200494,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"4"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.23100000619888306,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.23100000619888306,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11349","display_name":"Music Technology and Sound Studies","score":0.10320000350475311,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.07150000333786011,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/encoder","display_name":"Encoder","score":0.5073999762535095},{"id":"https://openalex.org/keywords/audio-signal","display_name":"Audio signal","score":0.3197999894618988},{"id":"https://openalex.org/keywords/key","display_name":"Key (lock)","score":0.27079999446868896},{"id":"https://openalex.org/keywords/sound-quality","display_name":"Sound quality","score":0.27059999108314514},{"id":"https://openalex.org/keywords/data-compression","display_name":"Data compression","score":0.267300009727478}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6468999981880188},{"id":"https://openalex.org/C118505674","wikidata":"https://www.wikidata.org/wiki/Q42586063","display_name":"Encoder","level":2,"score":0.5073999762535095},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.4401000142097473},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4341999888420105},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.3763999938964844},{"id":"https://openalex.org/C64922751","wikidata":"https://www.wikidata.org/wiki/Q4650799","display_name":"Audio signal","level":3,"score":0.3197999894618988},{"id":"https://openalex.org/C121684516","wikidata":"https://www.wikidata.org/wiki/Q7600677","display_name":"Computer graphics (images)","level":1,"score":0.2784000039100647},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.27079999446868896},{"id":"https://openalex.org/C167310288","wikidata":"https://www.wikidata.org/wiki/Q7564808","display_name":"Sound quality","level":2,"score":0.27059999108314514},{"id":"https://openalex.org/C78548338","wikidata":"https://www.wikidata.org/wiki/Q2493","display_name":"Data compression","level":2,"score":0.267300009727478},{"id":"https://openalex.org/C160372630","wikidata":"https://www.wikidata.org/wiki/Q4819855","display_name":"Audio analyzer","level":5,"score":0.2558000087738037},{"id":"https://openalex.org/C127220857","wikidata":"https://www.wikidata.org/wiki/Q2719318","display_name":"Audio signal processing","level":4,"score":0.2542000114917755},{"id":"https://openalex.org/C3017588708","wikidata":"https://www.wikidata.org/wiki/Q758901","display_name":"Audio visual","level":2,"score":0.2535000145435333}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/asru65441.2025.11434694","is_oa":false,"landing_page_url":"https://doi.org/10.1109/asru65441.2025.11434694","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":3,"referenced_works":["https://openalex.org/W1552314771","https://openalex.org/W4402112407","https://openalex.org/W4403780831"],"related_works":[],"abstract_inverted_index":{"Meta":[0,133],"Audiobox":[1,134],"introduces":[2],"a":[3,55,87],"groundbreaking":[4],"framework":[5],"for":[6,51,61,111],"audio":[7,62],"aesthetics":[8],"assessment,":[9],"effectively":[10],"addressing":[11],"the":[12,30,46,67,80,98,117,131,143,158,161],"core":[13],"limitations":[14],"of":[15,82,139,151,160],"traditional":[16],"MOS-like":[17],"evaluation":[18,153],"systems,":[19],"namely":[20],"ambiguous":[21],"scoring":[22],"objectives":[23],"and":[24,65],"imprecise":[25],"quality":[26],"deficit":[27],"attribution.":[28],"In":[29,136],"AudioMOS":[31,140],"Challenge":[32,141,166,171],"2025<sup":[33],"xmlns:mml=\"http://www.w3.org/1998/Math/MathML\"":[34,155,164,169],"xmlns:xlink=\"http://www.w3.org/1999/xlink\">1</sup>,":[35],"Track":[36,52,137],"2":[37,138],"focuses":[38],"on":[39,116],"Audiobox-aesthetics-style":[40],"prediction":[41],"tasks.":[42],"This":[43],"study":[44],"presents":[45],"T04":[47,144],"team's":[48],"system":[49,101,145],"QAM16k":[50,122],"2:":[53],"leveraging":[54],"pre-trained":[56],"16":[57,99],"kHz":[58,100],"Qwen2-Audio":[59],"Encoder":[60],"feature":[63,89],"extraction,":[64],"mapping":[66],"representations":[68],"to":[69,130],"four-dimensional":[70],"scores":[71],"via":[72],"four":[73],"customized":[74],"multi-layer":[75],"perceptrons":[76],"(MLPs).":[77],"To":[78],"explore":[79],"potential":[81],"full-band":[83],"information,":[84],"we":[85],"investigated":[86],"band-split":[88],"fusion":[90],"architecture.":[91],"Although":[92],"this":[93],"approach":[94],"did":[95],"not":[96],"outperform":[97],"in":[102,148],"empirical":[103],"tests,":[104],"its":[105],"design":[106],"principles":[107],"provide":[108],"valuable":[109],"insights":[110],"future":[112],"research.":[113],"Experimental":[114],"results":[115],"AES-Natural":[118],"dataset":[119],"demonstrate":[120],"that":[121],"achieved":[123],"superior":[124],"performance":[125],"across":[126],"multiple":[127],"metrics":[128],"compared":[129],"open-source":[132],"baseline.":[135],"2025,":[142],"ranked":[146],"second":[147],"18":[149],"out":[150],"32":[152],"metrics<sup":[154],"xmlns:xlink=\"http://www.w3.org/1999/xlink\">2</sup>,":[156],"validating":[157],"effectiveness":[159],"proposed":[162],"system.A<sup":[163],"xmlns:xlink=\"http://www.w3.org/1999/xlink\">1</sup>udioMOS":[165],"2025:":[167],"https://sites.google.com/view/voicemos-challenge/audiomos-challenge-2025<sup":[168],"xmlns:xlink=\"http://www.w3.org/1999/xlink\">2</sup>AudioMOS":[170],"2025":[172],"Track2":[173],"Results:":[174],"https://docs.google.com/spreadsheets/d/17s9hKRwbvDlcGDgJUm5tN6UHX7rqBk2lyv8xFwUsUPg/edit?gid=0#gid=0":[175]},"counts_by_year":[],"updated_date":"2026-04-03T16:44:17.987007","created_date":"2026-04-03T00:00:00"}