{"id":"https://openalex.org/W7148267593","doi":"https://doi.org/10.1109/asru65441.2025.11434688","title":"Improving Perceptual Audio Aesthetic Assessment via Triplet Loss and Self-Supervised Embeddings","display_name":"Improving Perceptual Audio Aesthetic Assessment via Triplet Loss and Self-Supervised Embeddings","publication_year":2025,"publication_date":"2025-12-06","ids":{"openalex":"https://openalex.org/W7148267593","doi":"https://doi.org/10.1109/asru65441.2025.11434688"},"language":null,"primary_location":{"id":"doi:10.1109/asru65441.2025.11434688","is_oa":false,"landing_page_url":"https://doi.org/10.1109/asru65441.2025.11434688","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5093650148","display_name":"Dyah A. M. G. Wisnu","orcid":null},"institutions":[{"id":"https://openalex.org/I4210086894","display_name":"Research Center for Information Technology Innovation, Academia Sinica","ror":"https://ror.org/000zgvm20","country_code":"TW","type":"facility","lineage":["https://openalex.org/I4210086894","https://openalex.org/I84653119"]}],"countries":["TW"],"is_corresponding":false,"raw_author_name":"Dyah A. M. G. Wisnu","raw_affiliation_strings":["Research Center for Information Technology Innovation,Academia Sinica"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Research Center for Information Technology Innovation,Academia Sinica","institution_ids":["https://openalex.org/I4210086894"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5030281426","display_name":"Ryandhimas E. Zezario","orcid":"https://orcid.org/0000-0001-7319-8263"},"institutions":[{"id":"https://openalex.org/I4210086894","display_name":"Research Center for Information Technology Innovation, Academia Sinica","ror":"https://ror.org/000zgvm20","country_code":"TW","type":"facility","lineage":["https://openalex.org/I4210086894","https://openalex.org/I84653119"]}],"countries":["TW"],"is_corresponding":false,"raw_author_name":"Ryandhimas E. Zezario","raw_affiliation_strings":["Research Center for Information Technology Innovation,Academia Sinica"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Research Center for Information Technology Innovation,Academia Sinica","institution_ids":["https://openalex.org/I4210086894"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5067224441","display_name":"Stefano Rini","orcid":"https://orcid.org/0000-0003-1681-3316"},"institutions":[{"id":"https://openalex.org/I148366613","display_name":"National Yang Ming Chiao Tung University","ror":"https://ror.org/00se2k293","country_code":"TW","type":"education","lineage":["https://openalex.org/I148366613"]}],"countries":["TW"],"is_corresponding":false,"raw_author_name":"Stefano Rini","raw_affiliation_strings":["Institute of Communications Engineering National Yang Ming Chiao Tung University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Institute of Communications Engineering National Yang Ming Chiao Tung University","institution_ids":["https://openalex.org/I148366613"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5132806812","display_name":"Hsin-Min Wang","orcid":null},"institutions":[{"id":"https://openalex.org/I4210098366","display_name":"Institute of Information Science, Academia Sinica","ror":"https://ror.org/00z83z196","country_code":"TW","type":"facility","lineage":["https://openalex.org/I4210098366","https://openalex.org/I84653119"]}],"countries":["TW"],"is_corresponding":false,"raw_author_name":"Hsin-Min Wang","raw_affiliation_strings":["Institute of Information Science Academia Sinica"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Institute of Information Science Academia Sinica","institution_ids":["https://openalex.org/I4210098366"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5132801538","display_name":"Yu Tsao","orcid":null},"institutions":[{"id":"https://openalex.org/I4210086894","display_name":"Research Center for Information Technology Innovation, Academia Sinica","ror":"https://ror.org/000zgvm20","country_code":"TW","type":"facility","lineage":["https://openalex.org/I4210086894","https://openalex.org/I84653119"]}],"countries":["TW"],"is_corresponding":false,"raw_author_name":"Yu Tsao","raw_affiliation_strings":["Research Center for Information Technology Innovation,Academia Sinica"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Research Center for Information Technology Innovation,Academia Sinica","institution_ids":["https://openalex.org/I4210086894"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":1.5078,"has_fulltext":false,"cited_by_count":1,"citation_normalized_percentile":{"value":0.87498691,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":94,"max":97},"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"4"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.49380001425743103,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.49380001425743103,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.12950000166893005,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10283","display_name":"Hearing Loss and Rehabilitation","score":0.11840000003576279,"subfield":{"id":"https://openalex.org/subfields/2805","display_name":"Cognitive Neuroscience"},"field":{"id":"https://openalex.org/fields/28","display_name":"Neuroscience"},"domain":{"id":"https://openalex.org/domains/1","display_name":"Life Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/embedding","display_name":"Embedding","score":0.678600013256073},{"id":"https://openalex.org/keywords/perception","display_name":"Perception","score":0.6018000245094299},{"id":"https://openalex.org/keywords/generative-model","display_name":"Generative model","score":0.46540001034736633},{"id":"https://openalex.org/keywords/training-set","display_name":"Training set","score":0.4510999917984009},{"id":"https://openalex.org/keywords/transformer","display_name":"Transformer","score":0.4359999895095825},{"id":"https://openalex.org/keywords/sound-quality","display_name":"Sound quality","score":0.43540000915527344},{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.4271000027656555},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.4147000014781952},{"id":"https://openalex.org/keywords/domain","display_name":"Domain (mathematical analysis)","score":0.41200000047683716}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7204999923706055},{"id":"https://openalex.org/C41608201","wikidata":"https://www.wikidata.org/wiki/Q980509","display_name":"Embedding","level":2,"score":0.678600013256073},{"id":"https://openalex.org/C26760741","wikidata":"https://www.wikidata.org/wiki/Q160402","display_name":"Perception","level":2,"score":0.6018000245094299},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.5958999991416931},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5564000010490417},{"id":"https://openalex.org/C167966045","wikidata":"https://www.wikidata.org/wiki/Q5532625","display_name":"Generative model","level":3,"score":0.46540001034736633},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.4510999917984009},{"id":"https://openalex.org/C66322947","wikidata":"https://www.wikidata.org/wiki/Q11658","display_name":"Transformer","level":3,"score":0.4359999895095825},{"id":"https://openalex.org/C167310288","wikidata":"https://www.wikidata.org/wiki/Q7564808","display_name":"Sound quality","level":2,"score":0.43540000915527344},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.4271000027656555},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.4147000014781952},{"id":"https://openalex.org/C36503486","wikidata":"https://www.wikidata.org/wiki/Q11235244","display_name":"Domain (mathematical analysis)","level":2,"score":0.41200000047683716},{"id":"https://openalex.org/C204321447","wikidata":"https://www.wikidata.org/wiki/Q30642","display_name":"Natural language processing","level":1,"score":0.3765999972820282},{"id":"https://openalex.org/C64922751","wikidata":"https://www.wikidata.org/wiki/Q4650799","display_name":"Audio signal","level":3,"score":0.3587000072002411},{"id":"https://openalex.org/C59404180","wikidata":"https://www.wikidata.org/wiki/Q17013334","display_name":"Feature learning","level":2,"score":0.3398999869823456},{"id":"https://openalex.org/C2779530757","wikidata":"https://www.wikidata.org/wiki/Q1207505","display_name":"Quality (philosophy)","level":2,"score":0.3230000138282776},{"id":"https://openalex.org/C2778572836","wikidata":"https://www.wikidata.org/wiki/Q380933","display_name":"Space (punctuation)","level":2,"score":0.30880001187324524},{"id":"https://openalex.org/C39890363","wikidata":"https://www.wikidata.org/wiki/Q36108","display_name":"Generative grammar","level":2,"score":0.30329999327659607},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.3009999990463257},{"id":"https://openalex.org/C146849305","wikidata":"https://www.wikidata.org/wiki/Q370766","display_name":"Ground truth","level":2,"score":0.2946999967098236},{"id":"https://openalex.org/C3020001037","wikidata":"https://www.wikidata.org/wiki/Q836575","display_name":"Quality assessment","level":3,"score":0.2922999858856201},{"id":"https://openalex.org/C127220857","wikidata":"https://www.wikidata.org/wiki/Q2719318","display_name":"Audio signal processing","level":4,"score":0.2867000102996826},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.2849000096321106},{"id":"https://openalex.org/C13895895","wikidata":"https://www.wikidata.org/wiki/Q3270773","display_name":"Speech coding","level":2,"score":0.2842999994754791},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.28380000591278076},{"id":"https://openalex.org/C175154964","wikidata":"https://www.wikidata.org/wiki/Q380077","display_name":"Task analysis","level":3,"score":0.2815999984741211},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.26649999618530273},{"id":"https://openalex.org/C19118579","wikidata":"https://www.wikidata.org/wiki/Q786423","display_name":"Frequency domain","level":2,"score":0.2590000033378601},{"id":"https://openalex.org/C63479239","wikidata":"https://www.wikidata.org/wiki/Q7353546","display_name":"Robustness (evolution)","level":3,"score":0.2515000104904175}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/asru65441.2025.11434688","is_oa":false,"landing_page_url":"https://doi.org/10.1109/asru65441.2025.11434688","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"display_name":"Reduced inequalities","id":"https://metadata.un.org/sdg/10","score":0.7508916258811951}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":19,"referenced_works":["https://openalex.org/W2096733369","https://openalex.org/W2798991696","https://openalex.org/W3161558238","https://openalex.org/W3202278141","https://openalex.org/W3207932315","https://openalex.org/W4223503417","https://openalex.org/W4225956675","https://openalex.org/W4296068974","https://openalex.org/W4311167834","https://openalex.org/W4372260534","https://openalex.org/W4391021560","https://openalex.org/W4392903532","https://openalex.org/W4392903985","https://openalex.org/W4392904968","https://openalex.org/W4393859250","https://openalex.org/W4402981815","https://openalex.org/W4406461503","https://openalex.org/W4407098018","https://openalex.org/W4408345667"],"related_works":[],"abstract_inverted_index":{"We":[0],"present":[1],"a":[2,71,79,88],"system":[3],"for":[4,14],"automatic":[5],"multi-axis":[6],"perceptual":[7,100],"quality":[8,116],"prediction":[9],"of":[10,17],"generative":[11],"audio,":[12],"developed":[13],"Track":[15],"2":[16],"the":[18,54,96],"AudioMOS":[19],"Challenge":[20],"2025.":[21],"The":[22],"task":[23],"is":[24,53],"to":[25,94],"predict":[26],"four":[27],"Audio":[28],"Aesthetic":[29],"Scores\u2014Production":[30],"Quality,":[31],"Production":[32],"Complexity,":[33],"Content":[34,37],"Enjoyment,":[35],"and":[36,46,61,86,110],"Usefulness\u2014for":[38],"audio":[39,75,115],"generated":[40],"by":[41,99],"text-to-speech":[42],"(TTS),":[43],"text-to-audio":[44],"(TTA),":[45],"text-to-music":[47],"(TTM)":[48],"systems.":[49],"A":[50],"main":[51],"challenge":[52],"domain":[55,113],"shift":[56],"between":[57],"natural":[58],"training":[59,120],"data":[60],"synthetic":[62,119],"evaluation":[63],"data.":[64,121],"To":[65],"address":[66],"this,":[67],"we":[68],"combine":[69],"BEATs,":[70],"pretrained":[72],"transformer":[73],"based":[74],"representation":[76],"model,":[77],"with":[78,91],"multi-branch":[80],"long":[81],"short-term":[82],"memory":[83],"(LSTM)":[84],"predictor":[85],"use":[87],"triplet":[89],"loss":[90],"buffer-based":[92],"sampling":[93],"structure":[95],"embedding":[97,108],"space":[98],"similarity.":[101],"Our":[102],"results":[103],"show":[104],"that":[105],"this":[106],"improves":[107],"discriminability":[109],"generalization,":[111],"enabling":[112],"robust":[114],"assessment":[117],"without":[118]},"counts_by_year":[{"year":2026,"cited_by_count":1}],"updated_date":"2026-07-29T14:22:42.915294","created_date":"2026-04-03T00:00:00"}