{"id":"https://openalex.org/W4416251021","doi":"https://doi.org/10.1109/waspaa66052.2025.11230951","title":"Self-Supervised Representation Learning with a JEPA Framework for Multi-instrument Music Transcription","display_name":"Self-Supervised Representation Learning with a JEPA Framework for Multi-instrument Music Transcription","publication_year":2025,"publication_date":"2025-10-12","ids":{"openalex":"https://openalex.org/W4416251021","doi":"https://doi.org/10.1109/waspaa66052.2025.11230951"},"language":null,"primary_location":{"id":"doi:10.1109/waspaa66052.2025.11230951","is_oa":false,"landing_page_url":"https://doi.org/10.1109/waspaa66052.2025.11230951","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5115686784","display_name":"Mary Pilataki","orcid":null},"institutions":[{"id":"https://openalex.org/I166337079","display_name":"Queen Mary University of London","ror":"https://ror.org/026zzn846","country_code":"GB","type":"education","lineage":["https://openalex.org/I124357947","https://openalex.org/I166337079"]}],"countries":["GB"],"is_corresponding":true,"raw_author_name":"Mary Pilataki","raw_affiliation_strings":["Queen Mary University of London,London,UK"],"affiliations":[{"raw_affiliation_string":"Queen Mary University of London,London,UK","institution_ids":["https://openalex.org/I166337079"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5067270556","display_name":"Matthias Mauch","orcid":"https://orcid.org/0000-0002-4352-6809"},"institutions":[{"id":"https://openalex.org/I4210107260","display_name":"Apple (United Kingdom)","ror":"https://ror.org/01vpeym60","country_code":"GB","type":"company","lineage":["https://openalex.org/I4210107260"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Matthias Mauch","raw_affiliation_strings":["Apple,London,UK"],"affiliations":[{"raw_affiliation_string":"Apple,London,UK","institution_ids":["https://openalex.org/I4210107260"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5053652066","display_name":"Simon Dixon","orcid":"https://orcid.org/0000-0002-8886-7666"},"institutions":[{"id":"https://openalex.org/I166337079","display_name":"Queen Mary University of London","ror":"https://ror.org/026zzn846","country_code":"GB","type":"education","lineage":["https://openalex.org/I124357947","https://openalex.org/I166337079"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Simon Dixon","raw_affiliation_strings":["Queen Mary University of London,London,UK"],"affiliations":[{"raw_affiliation_string":"Queen Mary University of London,London,UK","institution_ids":["https://openalex.org/I166337079"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5115686784"],"corresponding_institution_ids":["https://openalex.org/I166337079"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.45352438,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"5"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.9732000231742859,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.9732000231742859,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11349","display_name":"Music Technology and Sound Studies","score":0.01489999983459711,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10788","display_name":"Neuroscience and Music Perception","score":0.002199999988079071,"subfield":{"id":"https://openalex.org/subfields/2805","display_name":"Cognitive Neuroscience"},"field":{"id":"https://openalex.org/fields/28","display_name":"Neuroscience"},"domain":{"id":"https://openalex.org/domains/1","display_name":"Life Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/transcription","display_name":"Transcription (linguistics)","score":0.7796000242233276},{"id":"https://openalex.org/keywords/music-information-retrieval","display_name":"Music information retrieval","score":0.5493999719619751},{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.45879998803138733},{"id":"https://openalex.org/keywords/feature-learning","display_name":"Feature learning","score":0.4553999900817871},{"id":"https://openalex.org/keywords/cluster-analysis","display_name":"Cluster analysis","score":0.4442000091075897},{"id":"https://openalex.org/keywords/phonetic-transcription","display_name":"Phonetic transcription","score":0.361299991607666}],"concepts":[{"id":"https://openalex.org/C179926584","wikidata":"https://www.wikidata.org/wiki/Q207714","display_name":"Transcription (linguistics)","level":2,"score":0.7796000242233276},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6657999753952026},{"id":"https://openalex.org/C2777946086","wikidata":"https://www.wikidata.org/wiki/Q1163335","display_name":"Music information retrieval","level":3,"score":0.5493999719619751},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5408999919891357},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.48030000925064087},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.45879998803138733},{"id":"https://openalex.org/C59404180","wikidata":"https://www.wikidata.org/wiki/Q17013334","display_name":"Feature learning","level":2,"score":0.4553999900817871},{"id":"https://openalex.org/C73555534","wikidata":"https://www.wikidata.org/wiki/Q622825","display_name":"Cluster analysis","level":2,"score":0.4442000091075897},{"id":"https://openalex.org/C204321447","wikidata":"https://www.wikidata.org/wiki/Q30642","display_name":"Natural language processing","level":1,"score":0.3808000087738037},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3684000074863434},{"id":"https://openalex.org/C2777853878","wikidata":"https://www.wikidata.org/wiki/Q743569","display_name":"Phonetic transcription","level":2,"score":0.361299991607666},{"id":"https://openalex.org/C2777212361","wikidata":"https://www.wikidata.org/wiki/Q5127848","display_name":"Class (philosophy)","level":2,"score":0.34769999980926514},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.30640000104904175},{"id":"https://openalex.org/C2993931450","wikidata":"https://www.wikidata.org/wiki/Q639197","display_name":"Instrumental music","level":3,"score":0.26570001244544983},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.25130000710487366}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/waspaa66052.2025.11230951","is_oa":false,"landing_page_url":"https://doi.org/10.1109/waspaa66052.2025.11230951","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":17,"referenced_works":["https://openalex.org/W2085487226","https://openalex.org/W2133824856","https://openalex.org/W2759171953","https://openalex.org/W2906214917","https://openalex.org/W2998490864","https://openalex.org/W3095303521","https://openalex.org/W3159481202","https://openalex.org/W3206146520","https://openalex.org/W4221145412","https://openalex.org/W4225281045","https://openalex.org/W4386076428","https://openalex.org/W4391021755","https://openalex.org/W4392903082","https://openalex.org/W4392903849","https://openalex.org/W4394862844","https://openalex.org/W4404037281","https://openalex.org/W4405867997"],"related_works":[],"abstract_inverted_index":{"We":[0,35,100],"demonstrate":[1,130],"that":[2,102],"the":[3,37,79,82,103,136],"Joint-Embedding":[4],"Predictive":[5],"Architecture":[6],"is":[7],"effective":[8],"for":[9,13,142],"learning":[10,141],"representations":[11,39,104],"suitable":[12],"Music":[14],"Information":[15],"Retrieval":[16],"tasks.":[17],"Specifically,":[18],"we":[19,85],"explore":[20],"its":[21,109],"application":[22],"to":[23,92],"multi-instrument":[24,143],"automatic":[25],"music":[26,144],"transcription,":[27],"focusing":[28],"on":[29,63,73,152],"multi-pitch":[30],"estimation":[31],"and":[32,67,98,108,117,134,147],"instrument":[33,115],"recognition.":[34],"evaluate":[36],"learned":[38,83,105],"across":[40],"multiple":[41],"settings:":[42],"(1)":[43],"finetuning":[44],"a":[45],"pretrained":[46],"JEPA":[47,65,75,107],"model":[48,148],"with":[49,55,90],"transcription":[50,56,132],"supervision,":[51,57],"(2)":[52],"end-to-end":[53],"training":[54,59,69],"(3)":[58],"an":[60,70],"instrument-aware":[61],"transcriber":[62,72],"frozen":[64,74],"embeddings":[66],"(4)":[68],"instrument-agnostic":[71],"embeddings.":[76],"To":[77],"assess":[78],"structure":[80],"of":[81,138],"representations,":[84],"compute":[86],"Calinski-Harabasz":[87],"clustering":[88],"scores":[89],"respect":[91],"pitch":[93,95,118,123],"index,":[94],"class,":[96],"instrument,":[97],"octave.":[99],"find":[101],"by":[106],"modified":[110],"version":[111],"(2),":[112],"primarily":[113],"capture":[114],"identity":[116],"height":[119],"information,":[120],"rather":[121],"than":[122],"class":[124],"distinctions.":[125],"Despite":[126],"this,":[127],"our":[128],"results":[129],"promising":[131],"performance":[133],"highlight":[135],"potential":[137],"non-generative":[139],"self-supervised":[140],"transcription.":[145],"Code":[146],"configurations":[149],"are":[150],"available":[151],"GitHub.<sup":[153],"xmlns:mml=\"http://www.w3.org/1998/Math/MathML\"":[154],"xmlns:xlink=\"http://www.w3.org/1999/xlink\">1</sup>":[155]},"counts_by_year":[],"updated_date":"2026-03-07T16:01:11.037858","created_date":"2025-11-14T00:00:00"}