{"id":"https://openalex.org/W7148390581","doi":"https://doi.org/10.1109/asru65441.2025.11434750","title":"Multi-Distillation from Speech and Music Representation Models","display_name":"Multi-Distillation from Speech and Music Representation Models","publication_year":2025,"publication_date":"2025-12-06","ids":{"openalex":"https://openalex.org/W7148390581","doi":"https://doi.org/10.1109/asru65441.2025.11434750"},"language":null,"primary_location":{"id":"doi:10.1109/asru65441.2025.11434750","is_oa":false,"landing_page_url":"https://doi.org/10.1109/asru65441.2025.11434750","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5106294622","display_name":"J. T. Wei","orcid":null},"institutions":[{"id":"https://openalex.org/I16733864","display_name":"National Taiwan University","ror":"https://ror.org/05bqach95","country_code":"TW","type":"education","lineage":["https://openalex.org/I16733864"]}],"countries":["TW"],"is_corresponding":true,"raw_author_name":"Jui-Chiang Wei","raw_affiliation_strings":["National Taiwan University,Taiwan"],"affiliations":[{"raw_affiliation_string":"National Taiwan University,Taiwan","institution_ids":["https://openalex.org/I16733864"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5083437044","display_name":"Yi\u2010Cheng Lin","orcid":"https://orcid.org/0000-0002-5130-5280"},"institutions":[{"id":"https://openalex.org/I16733864","display_name":"National Taiwan University","ror":"https://ror.org/05bqach95","country_code":"TW","type":"education","lineage":["https://openalex.org/I16733864"]}],"countries":["TW"],"is_corresponding":false,"raw_author_name":"Yi-Cheng Lin","raw_affiliation_strings":["National Taiwan University,Taiwan"],"affiliations":[{"raw_affiliation_string":"National Taiwan University,Taiwan","institution_ids":["https://openalex.org/I16733864"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5092905575","display_name":"Fabian Ritter-Gutierrez","orcid":null},"institutions":[{"id":"https://openalex.org/I172675005","display_name":"Nanyang Technological University","ror":"https://ror.org/02e7b5302","country_code":"SG","type":"education","lineage":["https://openalex.org/I172675005"]}],"countries":["SG"],"is_corresponding":false,"raw_author_name":"Fabian Ritter-Gutierrez","raw_affiliation_strings":["Nanyang Technological University,Singapore"],"affiliations":[{"raw_affiliation_string":"Nanyang Technological University,Singapore","institution_ids":["https://openalex.org/I172675005"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5132807525","display_name":"Hung-Yi Lee","orcid":null},"institutions":[{"id":"https://openalex.org/I16733864","display_name":"National Taiwan University","ror":"https://ror.org/05bqach95","country_code":"TW","type":"education","lineage":["https://openalex.org/I16733864"]}],"countries":["TW"],"is_corresponding":false,"raw_author_name":"Hung-Yi Lee","raw_affiliation_strings":["National Taiwan University,Taiwan"],"affiliations":[{"raw_affiliation_string":"National Taiwan University,Taiwan","institution_ids":["https://openalex.org/I16733864"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":4,"corresponding_author_ids":["https://openalex.org/A5106294622"],"corresponding_institution_ids":["https://openalex.org/I16733864"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.75262184,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"8"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.7229999899864197,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.7229999899864197,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.07800000160932541,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11349","display_name":"Music Technology and Sound Studies","score":0.033399999141693115,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.5827999711036682},{"id":"https://openalex.org/keywords/language-model","display_name":"Language model","score":0.43160000443458557},{"id":"https://openalex.org/keywords/code","display_name":"Code (set theory)","score":0.4302999973297119},{"id":"https://openalex.org/keywords/acoustic-model","display_name":"Acoustic model","score":0.3352000117301941},{"id":"https://openalex.org/keywords/data-modeling","display_name":"Data modeling","score":0.30169999599456787},{"id":"https://openalex.org/keywords/music-information-retrieval","display_name":"Music information retrieval","score":0.3010999858379364},{"id":"https://openalex.org/keywords/feature-learning","display_name":"Feature learning","score":0.29750001430511475}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7883999943733215},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.5827999711036682},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.49880000948905945},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.48910000920295715},{"id":"https://openalex.org/C204321447","wikidata":"https://www.wikidata.org/wiki/Q30642","display_name":"Natural language processing","level":1,"score":0.45350000262260437},{"id":"https://openalex.org/C137293760","wikidata":"https://www.wikidata.org/wiki/Q3621696","display_name":"Language model","level":2,"score":0.43160000443458557},{"id":"https://openalex.org/C2776760102","wikidata":"https://www.wikidata.org/wiki/Q5139990","display_name":"Code (set theory)","level":3,"score":0.4302999973297119},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3643999993801117},{"id":"https://openalex.org/C155635449","wikidata":"https://www.wikidata.org/wiki/Q4674699","display_name":"Acoustic model","level":3,"score":0.3352000117301941},{"id":"https://openalex.org/C67186912","wikidata":"https://www.wikidata.org/wiki/Q367664","display_name":"Data modeling","level":2,"score":0.30169999599456787},{"id":"https://openalex.org/C2777946086","wikidata":"https://www.wikidata.org/wiki/Q1163335","display_name":"Music information retrieval","level":3,"score":0.3010999858379364},{"id":"https://openalex.org/C59404180","wikidata":"https://www.wikidata.org/wiki/Q17013334","display_name":"Feature learning","level":2,"score":0.29750001430511475},{"id":"https://openalex.org/C61328038","wikidata":"https://www.wikidata.org/wiki/Q3358061","display_name":"Speech processing","level":2,"score":0.2842999994754791},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.28360000252723694},{"id":"https://openalex.org/C14999030","wikidata":"https://www.wikidata.org/wiki/Q16346","display_name":"Speech synthesis","level":2,"score":0.2775000035762787},{"id":"https://openalex.org/C13895895","wikidata":"https://www.wikidata.org/wiki/Q3270773","display_name":"Speech coding","level":2,"score":0.2750999927520752},{"id":"https://openalex.org/C183322885","wikidata":"https://www.wikidata.org/wiki/Q17007702","display_name":"Context model","level":3,"score":0.26429998874664307},{"id":"https://openalex.org/C66024118","wikidata":"https://www.wikidata.org/wiki/Q1122506","display_name":"Computational model","level":2,"score":0.258899986743927},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.25130000710487366}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/asru65441.2025.11434750","is_oa":false,"landing_page_url":"https://doi.org/10.1109/asru65441.2025.11434750","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"score":0.6625921130180359,"id":"https://metadata.un.org/sdg/4","display_name":"Quality Education"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":29,"referenced_works":["https://openalex.org/W1494198834","https://openalex.org/W2146334809","https://openalex.org/W2402040300","https://openalex.org/W2508418541","https://openalex.org/W2972584841","https://openalex.org/W2981087920","https://openalex.org/W3041561163","https://openalex.org/W3045349544","https://openalex.org/W3174510164","https://openalex.org/W3197900571","https://openalex.org/W3203140070","https://openalex.org/W3209059054","https://openalex.org/W3209984917","https://openalex.org/W3213687025","https://openalex.org/W4224821750","https://openalex.org/W4225713393","https://openalex.org/W4226302796","https://openalex.org/W4281492411","https://openalex.org/W4297841557","https://openalex.org/W4319862442","https://openalex.org/W4319862641","https://openalex.org/W4368366524","https://openalex.org/W4372346788","https://openalex.org/W4375869224","https://openalex.org/W4401610024","https://openalex.org/W4402112459","https://openalex.org/W4404577219","https://openalex.org/W4415433654","https://openalex.org/W7133238265"],"related_works":[],"abstract_inverted_index":{"Real-world":[0],"audio":[1],"often":[2],"mixes":[3],"speech":[4,23,49],"and":[5,24,50,54,130,139],"music,":[6,53],"yet":[7],"models":[8,26,93,115,140],"typically":[9],"handle":[10],"only":[11,109],"one":[12,30],"domain.":[13],"This":[14],"paper":[15],"introduces":[16],"a":[17,28,125],"multi-teacher":[18],"distillation":[19],"framework":[20],"that":[21,67,105,124],"unifies":[22],"music":[25],"into":[27],"single":[29],"while":[31],"significantly":[32],"reducing":[33],"model":[34,69,107],"size.":[35],"Our":[36,102],"approach":[37,127],"leverages":[38],"the":[39,71,77,89],"strengths":[40],"of":[41,73,79],"domain-specific":[42,74],"teacher":[43],"models,":[44,75],"such":[45],"as":[46],"HuBERT":[47],"for":[48,52,91,132],"MERT":[51],"explores":[55],"various":[56],"strategies":[57],"to":[58],"balance":[59],"both":[60],"domains.":[61],"Experiments":[62],"across":[63],"diverse":[64,133],"tasks":[65,134],"demonstrate":[66],"our":[68,106],"matches":[70],"performance":[72],"showing":[76],"effectiveness":[78],"cross-domain":[80,126],"distillation.":[81],"Additionally,":[82],"we":[83],"conduct":[84],"few-shot":[85,121],"learning":[86],"experiments,":[87],"highlighting":[88],"need":[90],"general":[92],"in":[94,120],"real-world":[95],"scenarios":[96],"where":[97],"labeled":[98],"data":[99],"is":[100,128],"limited.":[101],"results":[103],"show":[104],"not":[108],"performs":[110],"on":[111],"par":[112],"with":[113,135],"specialized":[114],"but":[116],"also":[117],"outperforms":[118],"them":[119],"scenarios,":[122],"proving":[123],"essential":[129],"effective":[131],"limited":[136],"data.":[137],"Code":[138],"are":[141],"released":[142],"at":[143],"https://github.com/johnwei0325/Multi-Distillation-from-Speech-and-Music-Representation-Models":[144]},"counts_by_year":[],"updated_date":"2026-04-03T16:44:17.987007","created_date":"2026-04-03T00:00:00"}