{"id":"https://openalex.org/W4415709725","doi":"https://doi.org/10.1109/icme59968.2025.11209062","title":"Where\u2019s That Voice Coming? Continual Learning for Sound Source Localization","display_name":"Where\u2019s That Voice Coming? Continual Learning for Sound Source Localization","publication_year":2025,"publication_date":"2025-06-30","ids":{"openalex":"https://openalex.org/W4415709725","doi":"https://doi.org/10.1109/icme59968.2025.11209062"},"language":null,"primary_location":{"id":"doi:10.1109/icme59968.2025.11209062","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icme59968.2025.11209062","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE International Conference on Multimedia and Expo (ICME)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5100754086","display_name":"Yang Xiao","orcid":"https://orcid.org/0000-0003-1705-2213"},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Yang Xiao","raw_affiliation_strings":["Fortemedia Singapore,Singapore"],"affiliations":[{"raw_affiliation_string":"Fortemedia Singapore,Singapore","institution_ids":[]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5029637694","display_name":"Rohan Kumar Das","orcid":"https://orcid.org/0000-0002-1332-3357"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Rohan Kumar Das","raw_affiliation_strings":["Fortemedia Singapore,Singapore"],"affiliations":[{"raw_affiliation_string":"Fortemedia Singapore,Singapore","institution_ids":[]}]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5100754086"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":4.9677,"has_fulltext":false,"cited_by_count":3,"citation_normalized_percentile":{"value":0.95628444,"is_in_top_1_percent":false,"is_in_top_10_percent":true},"cited_by_percentile_year":{"min":95,"max":99},"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"6"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.5795000195503235,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.5795000195503235,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.19660000503063202,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.0803999975323677,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/noise","display_name":"Noise (video)","score":0.6046000123023987},{"id":"https://openalex.org/keywords/microphone","display_name":"Microphone","score":0.5892999768257141},{"id":"https://openalex.org/keywords/inference","display_name":"Inference","score":0.5781000256538391},{"id":"https://openalex.org/keywords/limit","display_name":"Limit (mathematics)","score":0.4975999891757965},{"id":"https://openalex.org/keywords/forgetting","display_name":"Forgetting","score":0.459199994802475},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.35670000314712524},{"id":"https://openalex.org/keywords/deep-learning","display_name":"Deep learning","score":0.3540000021457672},{"id":"https://openalex.org/keywords/scaling","display_name":"Scaling","score":0.35179999470710754},{"id":"https://openalex.org/keywords/acoustic-source-localization","display_name":"Acoustic source localization","score":0.3391999900341034}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6711999773979187},{"id":"https://openalex.org/C99498987","wikidata":"https://www.wikidata.org/wiki/Q2210247","display_name":"Noise (video)","level":3,"score":0.6046000123023987},{"id":"https://openalex.org/C2778263558","wikidata":"https://www.wikidata.org/wiki/Q46384","display_name":"Microphone","level":3,"score":0.5892999768257141},{"id":"https://openalex.org/C2776214188","wikidata":"https://www.wikidata.org/wiki/Q408386","display_name":"Inference","level":2,"score":0.5781000256538391},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.5008000135421753},{"id":"https://openalex.org/C151201525","wikidata":"https://www.wikidata.org/wiki/Q177239","display_name":"Limit (mathematics)","level":2,"score":0.4975999891757965},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.48840001225471497},{"id":"https://openalex.org/C7149132","wikidata":"https://www.wikidata.org/wiki/Q1377840","display_name":"Forgetting","level":2,"score":0.459199994802475},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.35670000314712524},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.3540000021457672},{"id":"https://openalex.org/C99844830","wikidata":"https://www.wikidata.org/wiki/Q102441924","display_name":"Scaling","level":2,"score":0.35179999470710754},{"id":"https://openalex.org/C93240960","wikidata":"https://www.wikidata.org/wiki/Q217270","display_name":"Acoustic source localization","level":3,"score":0.3391999900341034},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.328900009393692},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.32260000705718994},{"id":"https://openalex.org/C59404180","wikidata":"https://www.wikidata.org/wiki/Q17013334","display_name":"Feature learning","level":2,"score":0.3082999885082245},{"id":"https://openalex.org/C2777211547","wikidata":"https://www.wikidata.org/wiki/Q17141490","display_name":"Training (meteorology)","level":2,"score":0.29499998688697815},{"id":"https://openalex.org/C67186912","wikidata":"https://www.wikidata.org/wiki/Q367664","display_name":"Data modeling","level":2,"score":0.29030001163482666},{"id":"https://openalex.org/C100675267","wikidata":"https://www.wikidata.org/wiki/Q1371624","display_name":"Background noise","level":2,"score":0.28529998660087585},{"id":"https://openalex.org/C2778806681","wikidata":"https://www.wikidata.org/wiki/Q907293","display_name":"Microphone array","level":4,"score":0.2831999957561493},{"id":"https://openalex.org/C163294075","wikidata":"https://www.wikidata.org/wiki/Q581861","display_name":"Noise reduction","level":2,"score":0.2784000039100647},{"id":"https://openalex.org/C203718221","wikidata":"https://www.wikidata.org/wiki/Q491713","display_name":"Sound (geography)","level":2,"score":0.27129998803138733},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.2662999927997589},{"id":"https://openalex.org/C155635449","wikidata":"https://www.wikidata.org/wiki/Q4674699","display_name":"Acoustic model","level":3,"score":0.2624000012874603},{"id":"https://openalex.org/C89611455","wikidata":"https://www.wikidata.org/wiki/Q6804646","display_name":"Mechanism (biology)","level":2,"score":0.2587999999523163},{"id":"https://openalex.org/C2780909371","wikidata":"https://www.wikidata.org/wiki/Q4801092","display_name":"Artificial noise","level":4,"score":0.25209999084472656},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.25049999356269836}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/icme59968.2025.11209062","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icme59968.2025.11209062","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE International Conference on Multimedia and Expo (ICME)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":32,"referenced_works":["https://openalex.org/W1494198834","https://openalex.org/W1974387177","https://openalex.org/W2040039958","https://openalex.org/W2046317813","https://openalex.org/W2113638573","https://openalex.org/W2466975593","https://openalex.org/W2473930607","https://openalex.org/W2560647685","https://openalex.org/W2765962757","https://openalex.org/W2772736377","https://openalex.org/W2788388592","https://openalex.org/W2808484484","https://openalex.org/W2888793942","https://openalex.org/W2898268964","https://openalex.org/W2899366542","https://openalex.org/W2963588172","https://openalex.org/W2964342924","https://openalex.org/W3132182240","https://openalex.org/W3162341667","https://openalex.org/W3197097128","https://openalex.org/W4221159370","https://openalex.org/W4221162997","https://openalex.org/W4224329471","https://openalex.org/W4282978615","https://openalex.org/W4283642889","https://openalex.org/W4385822984","https://openalex.org/W4386763850","https://openalex.org/W4401610131","https://openalex.org/W4402684271","https://openalex.org/W4404840087","https://openalex.org/W4408355302","https://openalex.org/W4408355714"],"related_works":[],"abstract_inverted_index":{"Sound":[0],"source":[1],"localization":[2],"(SSL)":[3],"is":[4],"essential":[5],"for":[6,50,124],"many":[7],"speech-processing":[8],"applications.":[9,126],"Deep":[10],"learning":[11,48],"models":[12,29],"have":[13],"achieved":[14],"high":[15,114],"performance,":[16],"but":[17],"often":[18],"fail":[19],"when":[20],"the":[21],"training":[22],"and":[23,100],"inference":[24],"environments":[25,68],"differ.":[26],"Adapting":[27],"SSL":[28,51,125],"to":[30,53,63,80,112],"dynamic":[31],"acoustic":[32,67],"conditions":[33],"faces":[34],"a":[35,56,77],"major":[36],"challenge:":[37],"catastrophic":[38],"forgetting.":[39],"In":[40],"this":[41],"work,":[42],"we":[43],"propose":[44],"an":[45,121],"exemplar-free":[46],"continual":[47],"strategy":[49],"(CL-SSL)":[52],"address":[54],"such":[55],"forgetting":[57],"phenomenon.":[58],"CL-SSL":[59,92],"applies":[60],"task-specific":[61],"sub-networks":[62],"adapt":[64],"across":[65,87],"diverse":[66],"while":[69],"retaining":[70],"previously":[71],"learned":[72],"knowledge.":[73],"It":[74],"also":[75],"uses":[76],"scaling":[78],"mechanism":[79],"limit":[81],"parameter":[82,118],"growth,":[83],"ensuring":[84],"consistent":[85],"performance":[86],"incremental":[88],"tasks.":[89],"We":[90],"evaluated":[91],"on":[93],"simulated":[94],"data":[95,102],"with":[96,103,116],"varying":[97],"microphone":[98],"distances":[99],"real-world":[101],"different":[104],"noise":[105],"levels.":[106],"The":[107],"results":[108],"demonstrate":[109],"CL-SSL\u2019s":[110],"ability":[111],"maintain":[113],"accuracy":[115],"minimal":[117],"increase,":[119],"offering":[120],"efficient":[122],"solution":[123]},"counts_by_year":[{"year":2026,"cited_by_count":1},{"year":2025,"cited_by_count":2}],"updated_date":"2026-03-08T08:50:53.379069","created_date":"2025-10-30T00:00:00"}