{"id":"https://openalex.org/W7148517407","doi":"https://doi.org/10.1109/asru65441.2025.11434692","title":"The T12 System for AudioMOS Challenge 2025: Audio Aesthetics Score Prediction System Using KAN- and VERSA-based Models","display_name":"The T12 System for AudioMOS Challenge 2025: Audio Aesthetics Score Prediction System Using KAN- and VERSA-based Models","publication_year":2025,"publication_date":"2025-12-06","ids":{"openalex":"https://openalex.org/W7148517407","doi":"https://doi.org/10.1109/asru65441.2025.11434692"},"language":null,"primary_location":{"id":"doi:10.1109/asru65441.2025.11434692","is_oa":false,"landing_page_url":"https://doi.org/10.1109/asru65441.2025.11434692","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":null,"display_name":"Katsuhiko Yamamoto","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Katsuhiko Yamamoto","raw_affiliation_strings":["CyberAgent,Tokyo,Japan"],"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"Koichi Miyazaki","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Koichi Miyazaki","raw_affiliation_strings":["CyberAgent,Tokyo,Japan"],"affiliations":[]},{"author_position":"last","author":{"id":null,"display_name":"Shogo Seki","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Shogo Seki","raw_affiliation_strings":["CyberAgent,Tokyo,Japan"],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":3,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.75496137,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"4"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11349","display_name":"Music Technology and Sound Studies","score":0.2948000133037567,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11349","display_name":"Music Technology and Sound Studies","score":0.2948000133037567,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.24879999458789825,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10667","display_name":"Emotion and Mood Recognition","score":0.06549999862909317,"subfield":{"id":"https://openalex.org/subfields/3205","display_name":"Experimental and Cognitive Psychology"},"field":{"id":"https://openalex.org/fields/32","display_name":"Psychology"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/metric","display_name":"Metric (unit)","score":0.649399995803833},{"id":"https://openalex.org/keywords/perceptron","display_name":"Perceptron","score":0.5647000074386597},{"id":"https://openalex.org/keywords/predictive-modelling","display_name":"Predictive modelling","score":0.5069000124931335},{"id":"https://openalex.org/keywords/baseline","display_name":"Baseline (sea)","score":0.4465999901294708},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.382099986076355},{"id":"https://openalex.org/keywords/regression","display_name":"Regression","score":0.35760000348091125},{"id":"https://openalex.org/keywords/regression-analysis","display_name":"Regression analysis","score":0.3555000126361847}],"concepts":[{"id":"https://openalex.org/C176217482","wikidata":"https://www.wikidata.org/wiki/Q860554","display_name":"Metric (unit)","level":2,"score":0.649399995803833},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6223000288009644},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.578000009059906},{"id":"https://openalex.org/C60908668","wikidata":"https://www.wikidata.org/wiki/Q690207","display_name":"Perceptron","level":3,"score":0.5647000074386597},{"id":"https://openalex.org/C45804977","wikidata":"https://www.wikidata.org/wiki/Q7239673","display_name":"Predictive modelling","level":2,"score":0.5069000124931335},{"id":"https://openalex.org/C12725497","wikidata":"https://www.wikidata.org/wiki/Q810247","display_name":"Baseline (sea)","level":2,"score":0.4465999901294708},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.382099986076355},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.3596999943256378},{"id":"https://openalex.org/C83546350","wikidata":"https://www.wikidata.org/wiki/Q1139051","display_name":"Regression","level":2,"score":0.35760000348091125},{"id":"https://openalex.org/C152877465","wikidata":"https://www.wikidata.org/wiki/Q208042","display_name":"Regression analysis","level":2,"score":0.3555000126361847},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.33869999647140503},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.31769999861717224},{"id":"https://openalex.org/C2779227376","wikidata":"https://www.wikidata.org/wiki/Q6505497","display_name":"Layer (electronics)","level":2,"score":0.30809998512268066},{"id":"https://openalex.org/C179717631","wikidata":"https://www.wikidata.org/wiki/Q2991667","display_name":"Multilayer perceptron","level":3,"score":0.3050000071525574},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.29319998621940613},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.27950000762939453},{"id":"https://openalex.org/C67186912","wikidata":"https://www.wikidata.org/wiki/Q367664","display_name":"Data modeling","level":2,"score":0.27219998836517334},{"id":"https://openalex.org/C2775852435","wikidata":"https://www.wikidata.org/wiki/Q258403","display_name":"Utterance","level":2,"score":0.2718000113964081},{"id":"https://openalex.org/C2778334786","wikidata":"https://www.wikidata.org/wiki/Q1586270","display_name":"Variation (astronomy)","level":2,"score":0.2628999948501587},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.2606000006198883}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/asru65441.2025.11434692","is_oa":false,"landing_page_url":"https://doi.org/10.1109/asru65441.2025.11434692","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":18,"referenced_works":["https://openalex.org/W2295598076","https://openalex.org/W2593116425","https://openalex.org/W2949676527","https://openalex.org/W2972359262","https://openalex.org/W3096338464","https://openalex.org/W3161480375","https://openalex.org/W3196475561","https://openalex.org/W3209984917","https://openalex.org/W4225529283","https://openalex.org/W4296068974","https://openalex.org/W4372260337","https://openalex.org/W4391021560","https://openalex.org/W4402112400","https://openalex.org/W4402112435","https://openalex.org/W4406461503","https://openalex.org/W4406461865","https://openalex.org/W4411119792","https://openalex.org/W4415799054"],"related_works":[],"abstract_inverted_index":{"We":[0],"propose":[1],"an":[2,106],"audio":[3,65],"aesthetics":[4,27],"score":[5],"(AES)":[6],"prediction":[7],"system":[8,121,141],"by":[9],"CyberAgent":[10],"(AESCA)":[11],"for":[12],"AudioMOS":[13],"Challenge":[14],"2025":[15],"(AMC25)":[16],"Track":[17],"2.":[18],"The":[19,67,99],"AESCA":[20],"comprises":[21],"a":[22,29,54,73,115],"Kolmogorov\u2013Arnold":[23],"Network":[24],"(KAN)-based":[25],"audiobox":[26],"and":[28,57,63,88,114,143],"predictor":[30,69],"from":[31,82],"the":[32,36,40,50,59,86,92,95,123,127,134,140,144],"metric":[33],"scores":[34],"using":[35,76,105],"VERSA":[37],"toolkit.":[38],"In":[39],"KANbased":[41],"predictor,":[42],"we":[43],"replaced":[44],"each":[45],"multi-layer":[46],"perceptron":[47],"layer":[48],"in":[49,130],"baseline":[51],"model":[52,60,75,108],"with":[53,61],"group-rational":[55],"KAN":[56],"trained":[58],"labeled":[62],"pseudo-labeled":[64],"samples.":[66],"VERSA-based":[68,89,116],"was":[70],"designed":[71],"as":[72],"regression":[74],"extreme":[77],"gradient":[78],"boosting,":[79],"incorporating":[80],"outputs":[81],"existing":[83],"metrics.":[84],"Both":[85],"KAN-":[87],"models":[90,113],"predicted":[91],"AES,":[93],"including":[94],"four":[96,111],"evaluation":[97],"axes.":[98],"final":[100],"AES":[101],"values":[102],"were":[103],"calculated":[104],"ensemble":[107],"that":[109],"combined":[110],"KAN-based":[112],"model.":[117],"Our":[118],"proposed":[119],"T12":[120],"yielded":[122],"best":[124],"correlations":[125],"among":[126],"submitted":[128],"systems,":[129],"three":[131],"axes":[132,138],"at":[133,139],"utterance":[135],"level,":[136,142],"two":[137],"overall":[145],"average.":[146]},"counts_by_year":[],"updated_date":"2026-04-03T22:45:19.894376","created_date":"2026-02-06T00:00:00"}