{"id":"https://openalex.org/W4392903460","doi":"https://doi.org/10.1109/icassp48485.2024.10448381","title":"Real-Time Low-Latency Music Source Separation Using Hybrid Spectrogram-Tasnet","display_name":"Real-Time Low-Latency Music Source Separation Using Hybrid Spectrogram-Tasnet","publication_year":2024,"publication_date":"2024-03-18","ids":{"openalex":"https://openalex.org/W4392903460","doi":"https://doi.org/10.1109/icassp48485.2024.10448381"},"language":"en","primary_location":{"id":"doi:10.1109/icassp48485.2024.10448381","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icassp48485.2024.10448381","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5059641673","display_name":"Satvik Venkatesh","orcid":"https://orcid.org/0000-0001-5244-3020"},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Satvik Venkatesh","raw_affiliation_strings":["L-Acoustics,London,N65EG"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"L-Acoustics,London,N65EG","institution_ids":[]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5081766976","display_name":"A. Benilov","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Arthur Benilov","raw_affiliation_strings":["L-Acoustics,London,N65EG"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"L-Acoustics,London,N65EG","institution_ids":[]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5054599395","display_name":"Peter John Cusack Coleman","orcid":"https://orcid.org/0000-0002-3266-7358"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Philip Coleman","raw_affiliation_strings":["L-Acoustics,London,N65EG"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"L-Acoustics,London,N65EG","institution_ids":[]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5082006647","display_name":"Frederic Roskam","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Frederic Roskam","raw_affiliation_strings":["L-Acoustics,London,N65EG"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"L-Acoustics,London,N65EG","institution_ids":[]}]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":4,"corresponding_author_ids":["https://openalex.org/A5059641673"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":2.2465,"has_fulltext":false,"cited_by_count":7,"citation_normalized_percentile":{"value":0.88038862,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":90,"max":98},"biblio":{"volume":null,"issue":null,"first_page":"611","last_page":"615"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":1.0,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":1.0,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11349","display_name":"Music Technology and Sound Studies","score":0.9975000023841858,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/spectrogram","display_name":"Spectrogram","score":0.9508163928985596},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7721123695373535},{"id":"https://openalex.org/keywords/latency","display_name":"Latency (audio)","score":0.765347957611084},{"id":"https://openalex.org/keywords/source-separation","display_name":"Source separation","score":0.5899251699447632},{"id":"https://openalex.org/keywords/waveform","display_name":"Waveform","score":0.49795961380004883},{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.4843696057796478},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.4837805926799774},{"id":"https://openalex.org/keywords/deep-learning","display_name":"Deep learning","score":0.48066246509552},{"id":"https://openalex.org/keywords/time-domain","display_name":"Time domain","score":0.4606729745864868},{"id":"https://openalex.org/keywords/low-latency","display_name":"Low latency (capital markets)","score":0.42769572138786316},{"id":"https://openalex.org/keywords/audio-signal","display_name":"Audio signal","score":0.41355741024017334},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.3476227819919586},{"id":"https://openalex.org/keywords/speech-coding","display_name":"Speech coding","score":0.12486663460731506},{"id":"https://openalex.org/keywords/computer-network","display_name":"Computer network","score":0.10459861159324646},{"id":"https://openalex.org/keywords/telecommunications","display_name":"Telecommunications","score":0.08823943138122559}],"concepts":[{"id":"https://openalex.org/C45273575","wikidata":"https://www.wikidata.org/wiki/Q578970","display_name":"Spectrogram","level":2,"score":0.9508163928985596},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7721123695373535},{"id":"https://openalex.org/C82876162","wikidata":"https://www.wikidata.org/wiki/Q17096504","display_name":"Latency (audio)","level":2,"score":0.765347957611084},{"id":"https://openalex.org/C2776864781","wikidata":"https://www.wikidata.org/wiki/Q52617913","display_name":"Source separation","level":2,"score":0.5899251699447632},{"id":"https://openalex.org/C197424946","wikidata":"https://www.wikidata.org/wiki/Q1165717","display_name":"Waveform","level":3,"score":0.49795961380004883},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.4843696057796478},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.4837805926799774},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.48066246509552},{"id":"https://openalex.org/C103824480","wikidata":"https://www.wikidata.org/wiki/Q185889","display_name":"Time domain","level":2,"score":0.4606729745864868},{"id":"https://openalex.org/C46637626","wikidata":"https://www.wikidata.org/wiki/Q6693015","display_name":"Low latency (capital markets)","level":2,"score":0.42769572138786316},{"id":"https://openalex.org/C64922751","wikidata":"https://www.wikidata.org/wiki/Q4650799","display_name":"Audio signal","level":3,"score":0.41355741024017334},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.3476227819919586},{"id":"https://openalex.org/C13895895","wikidata":"https://www.wikidata.org/wiki/Q3270773","display_name":"Speech coding","level":2,"score":0.12486663460731506},{"id":"https://openalex.org/C31258907","wikidata":"https://www.wikidata.org/wiki/Q1301371","display_name":"Computer network","level":1,"score":0.10459861159324646},{"id":"https://openalex.org/C76155785","wikidata":"https://www.wikidata.org/wiki/Q418","display_name":"Telecommunications","level":1,"score":0.08823943138122559},{"id":"https://openalex.org/C554190296","wikidata":"https://www.wikidata.org/wiki/Q47528","display_name":"Radar","level":2,"score":0.0},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/icassp48485.2024.10448381","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icassp48485.2024.10448381","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[{"id":"https://openalex.org/F4320311061","display_name":"Queen Mary University of London","ror":"https://ror.org/026zzn846"}],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":46,"referenced_works":["https://openalex.org/W2013020033","https://openalex.org/W2563659825","https://openalex.org/W2784500888","https://openalex.org/W2791336153","https://openalex.org/W2791686384","https://openalex.org/W2889540509","https://openalex.org/W2891660148","https://openalex.org/W2903502793","https://openalex.org/W2952218014","https://openalex.org/W2962935966","https://openalex.org/W2963191020","https://openalex.org/W2963452667","https://openalex.org/W2964052309","https://openalex.org/W2972411915","https://openalex.org/W2990594533","https://openalex.org/W3001377302","https://openalex.org/W3004940340","https://openalex.org/W3015753416","https://openalex.org/W3015843733","https://openalex.org/W3016027511","https://openalex.org/W3028029645","https://openalex.org/W3037149862","https://openalex.org/W3096408984","https://openalex.org/W3097945073","https://openalex.org/W3099330747","https://openalex.org/W3113346801","https://openalex.org/W3160050861","https://openalex.org/W3160845765","https://openalex.org/W3213726885","https://openalex.org/W3216004336","https://openalex.org/W4226300471","https://openalex.org/W4286980120","https://openalex.org/W4311187069","https://openalex.org/W4372260250","https://openalex.org/W4375869299","https://openalex.org/W4375928773","https://openalex.org/W4400800452","https://openalex.org/W6628812029","https://openalex.org/W6746914816","https://openalex.org/W6751512325","https://openalex.org/W6773772901","https://openalex.org/W6779268856","https://openalex.org/W6787702952","https://openalex.org/W6801426729","https://openalex.org/W6804608017","https://openalex.org/W6893588782"],"related_works":["https://openalex.org/W3094316140","https://openalex.org/W3133205200","https://openalex.org/W2898145319","https://openalex.org/W4289363934","https://openalex.org/W2098101267","https://openalex.org/W2059119686","https://openalex.org/W2898606530","https://openalex.org/W4289362680","https://openalex.org/W2403380333","https://openalex.org/W2761596192"],"abstract_inverted_index":{"There":[0],"have":[1],"been":[2,17],"significant":[3],"advances":[4],"in":[5,11,55,60],"deep":[6],"learning":[7],"for":[8,29,37,63,130],"music":[9,133],"demixing":[10,58,129],"recent":[12],"years.":[13],"However,":[14],"there":[15],"has":[16],"little":[18],"attention":[19],"given":[20],"to":[21,116],"how":[22],"these":[23],"neural":[24],"networks":[25],"can":[26],"be":[27,35],"adapted":[28],"real-time":[30,131],"low-latency":[31,132],"applications,":[32],"which":[33,84],"could":[34],"helpful":[36],"hearing":[38],"aids,":[39],"remixing":[40],"audio":[41],"streams":[42],"and":[43,90,114],"live":[44],"shows.":[45],"In":[46],"this":[47,64],"paper,":[48],"we":[49,74],"investigate":[50],"the":[51,61,70,76,86,99,110,125],"various":[52],"challenges":[53],"involved":[54],"adapting":[56],"current":[57],"models":[59],"literature":[62],"use":[65],"case.":[66],"Subsequently,":[67],"inspired":[68],"by":[69],"Hybrid":[71,77],"Demucs":[72],"architecture,":[73],"propose":[75],"Spectrogram":[78],"Time-domain":[79],"Audio":[80],"Separation":[81],"Network":[82],"(HS-TasNet),":[83],"utilises":[85],"advantages":[87],"of":[88,96,107,127],"spectral":[89],"waveform":[91],"domains.":[92],"For":[93],"a":[94],"latency":[95],"23":[97],"ms,":[98],"HS-TasNet":[100],"obtains":[101],"an":[102],"overall":[103],"signal-to-distortion":[104],"ratio":[105],"(SDR)":[106],"4.65":[108],"on":[109],"MusDB":[111],"test":[112],"set,":[113],"increases":[115],"5.55":[117],"with":[118],"additional":[119],"training":[120],"data.":[121],"These":[122],"results":[123],"demonstrate":[124],"potential":[126],"efficient":[128],"applications.":[134]},"counts_by_year":[{"year":2026,"cited_by_count":1},{"year":2025,"cited_by_count":5},{"year":2024,"cited_by_count":1}],"updated_date":"2026-05-09T13:55:54.758798","created_date":"2025-10-10T00:00:00"}