{"id":"https://openalex.org/W4415524551","doi":"https://doi.org/10.1109/mlsp62443.2025.11204308","title":"Efficient Representation Learning for Music Via Likelihood Factorisation of a Variational Autoencoder","display_name":"Efficient Representation Learning for Music Via Likelihood Factorisation of a Variational Autoencoder","publication_year":2025,"publication_date":"2025-08-31","ids":{"openalex":"https://openalex.org/W4415524551","doi":"https://doi.org/10.1109/mlsp62443.2025.11204308"},"language":null,"primary_location":{"id":"doi:10.1109/mlsp62443.2025.11204308","is_oa":false,"landing_page_url":"https://doi.org/10.1109/mlsp62443.2025.11204308","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE 35th International Workshop on Machine Learning for Signal Processing (MLSP)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5104133588","display_name":"Ningzhi Wang","orcid":null},"institutions":[{"id":"https://openalex.org/I166337079","display_name":"Queen Mary University of London","ror":"https://ror.org/026zzn846","country_code":"GB","type":"education","lineage":["https://openalex.org/I124357947","https://openalex.org/I166337079"]}],"countries":["GB"],"is_corresponding":true,"raw_author_name":"Ningzhi Wang","raw_affiliation_strings":["Queen Mary University of London"],"affiliations":[{"raw_affiliation_string":"Queen Mary University of London","institution_ids":["https://openalex.org/I166337079"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5063832676","display_name":"Daniel Stoller","orcid":"https://orcid.org/0000-0002-8615-4144"},"institutions":[{"id":"https://openalex.org/I4210091896","display_name":"Institut f\u00fcr Forschung und Transfer","ror":"https://ror.org/00dq07t65","country_code":"DE","type":"other","lineage":["https://openalex.org/I4210091896"]}],"countries":["DE"],"is_corresponding":false,"raw_author_name":"Daniel Stoller","raw_affiliation_strings":["Spotify GmbH,Germany"],"affiliations":[{"raw_affiliation_string":"Spotify GmbH,Germany","institution_ids":["https://openalex.org/I4210091896"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5077484271","display_name":"Simon Dixon","orcid":"https://orcid.org/0000-0002-6098-481X"},"institutions":[{"id":"https://openalex.org/I166337079","display_name":"Queen Mary University of London","ror":"https://ror.org/026zzn846","country_code":"GB","type":"education","lineage":["https://openalex.org/I124357947","https://openalex.org/I166337079"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Simon Dixon","raw_affiliation_strings":["Queen Mary University of London"],"affiliations":[{"raw_affiliation_string":"Queen Mary University of London","institution_ids":["https://openalex.org/I166337079"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5104133588"],"corresponding_institution_ids":["https://openalex.org/I166337079"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.41258594,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"6"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.9991999864578247,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.9991999864578247,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11349","display_name":"Music Technology and Sound Studies","score":0.9830999970436096,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10775","display_name":"Generative Adversarial Networks and Image Synthesis","score":0.9715999960899353,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/autoencoder","display_name":"Autoencoder","score":0.8956000208854675},{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.7391999959945679},{"id":"https://openalex.org/keywords/feature-learning","display_name":"Feature learning","score":0.7031999826431274},{"id":"https://openalex.org/keywords/focus","display_name":"Focus (optics)","score":0.6110000014305115},{"id":"https://openalex.org/keywords/set","display_name":"Set (abstract data type)","score":0.5688999891281128},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.4620000123977661},{"id":"https://openalex.org/keywords/deep-learning","display_name":"Deep learning","score":0.3560999929904938}],"concepts":[{"id":"https://openalex.org/C101738243","wikidata":"https://www.wikidata.org/wiki/Q786435","display_name":"Autoencoder","level":3,"score":0.8956000208854675},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.7391999959945679},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7221999764442444},{"id":"https://openalex.org/C59404180","wikidata":"https://www.wikidata.org/wiki/Q17013334","display_name":"Feature learning","level":2,"score":0.7031999826431274},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6567000150680542},{"id":"https://openalex.org/C192209626","wikidata":"https://www.wikidata.org/wiki/Q190909","display_name":"Focus (optics)","level":2,"score":0.6110000014305115},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.5688999891281128},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.492000013589859},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.4620000123977661},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.3560999929904938},{"id":"https://openalex.org/C12725497","wikidata":"https://www.wikidata.org/wiki/Q810247","display_name":"Baseline (sea)","level":2,"score":0.35269999504089355},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.32899999618530273},{"id":"https://openalex.org/C2776207758","wikidata":"https://www.wikidata.org/wiki/Q5303302","display_name":"Downstream (manufacturing)","level":2,"score":0.3181000053882599},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.30889999866485596},{"id":"https://openalex.org/C12713177","wikidata":"https://www.wikidata.org/wiki/Q1900281","display_name":"Perspective (graphical)","level":2,"score":0.28679999709129333},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.26249998807907104}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/mlsp62443.2025.11204308","is_oa":false,"landing_page_url":"https://doi.org/10.1109/mlsp62443.2025.11204308","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE 35th International Workshop on Machine Learning for Signal Processing (MLSP)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":6,"referenced_works":["https://openalex.org/W2133824856","https://openalex.org/W2136129419","https://openalex.org/W2163922914","https://openalex.org/W2962904371","https://openalex.org/W2963066995","https://openalex.org/W4287756134"],"related_works":[],"abstract_inverted_index":{"Representation":[0],"learning":[1,47],"aims":[2],"to":[3,13,54,72,76],"find":[4],"a":[5,56,91,99,109,114,139],"minimum":[6],"set":[7],"of":[8,34,79,150],"features":[9],"that":[10,94],"is":[11,18,70],"sufficient":[12],"solve":[14],"downstream":[15,145],"tasks.":[16],"This":[17,105],"particularly":[19],"challenging":[20],"in":[21,143],"Music":[22],"Information":[23],"Retrieval":[24],"(MIR),":[25],"as":[26,117],"different":[27,32,77],"tasks":[28],"may":[29],"focus":[30],"on":[31,49,98,124],"aspects":[33,78],"the":[35,74,122,148],"audio":[36],"input.":[37],"Existing":[38],"methods":[39],"involving":[40],"music":[41],"generation,":[42],"masked":[43],"modelling":[44],"and":[45,68],"contrastive":[46],"rely":[48],"pre-training":[50],"large":[51],"neural":[52],"networks":[53],"build":[55],"single":[57,100],"representation.":[58],"While":[59],"generally":[60],"effective,":[61],"computational":[62],"costs":[63],"for":[64,90,153],"training":[65],"are":[66],"high":[67],"it":[69],"difficult":[71],"adapt":[73],"representation":[75,128,155],"music.":[80],"Instead,":[81],"we":[82],"investigate":[83],"general-purpose":[84],"representations":[85],"using":[86],"parameter-efficient":[87],"models,":[88],"aiming":[89],"flexible":[92],"model":[93],"can":[95],"be":[96],"trained":[97],"GPU":[101],"within":[102],"two":[103],"days.":[104],"paper":[106],"introduces":[107],"Coord-VAE,":[108],"variational":[110],"autoencoder":[111],"(VAE)":[112],"with":[113],"coordinate":[115,125],"network":[116],"its":[118],"decoder.":[119],"By":[120],"conditioning":[121],"likelihood":[123],"distributions,":[126],"our":[127,151],"requires":[129],"300":[130],"times":[131],"less":[132],"parameters":[133],"than":[134],"state-of-the-art":[135],"models":[136],"while":[137],"surpassing":[138],"vanilla":[140],"VAE":[141],"baseline":[142],"most":[144],"tasks,":[146],"demonstrating":[147],"potential":[149],"approach":[152],"efficient":[154],"learning.":[156]},"counts_by_year":[],"updated_date":"2026-03-07T16:01:11.037858","created_date":"2025-10-24T00:00:00"}