{"id":"https://openalex.org/W4416251737","doi":"https://doi.org/10.1109/waspaa66052.2025.11231008","title":"Latent Acoustic Mapping for Direction of Arrival Estimation: A Self-Supervised Approach","display_name":"Latent Acoustic Mapping for Direction of Arrival Estimation: A Self-Supervised Approach","publication_year":2025,"publication_date":"2025-10-12","ids":{"openalex":"https://openalex.org/W4416251737","doi":"https://doi.org/10.1109/waspaa66052.2025.11231008"},"language":null,"primary_location":{"id":"doi:10.1109/waspaa66052.2025.11231008","is_oa":false,"landing_page_url":"https://doi.org/10.1109/waspaa66052.2025.11231008","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5081976456","display_name":"Adrian S. Roman","orcid":null},"institutions":[{"id":"https://openalex.org/I1174212","display_name":"University of Southern California","ror":"https://ror.org/03taz7m60","country_code":"US","type":"education","lineage":["https://openalex.org/I1174212"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"Adrian S. Roman","raw_affiliation_strings":["University of Southern California,Los Angeles,USA"],"affiliations":[{"raw_affiliation_string":"University of Southern California,Los Angeles,USA","institution_ids":["https://openalex.org/I1174212"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5027526258","display_name":"Iran R. Roman","orcid":"https://orcid.org/0000-0003-3781-7244"},"institutions":[{"id":"https://openalex.org/I166337079","display_name":"Queen Mary University of London","ror":"https://ror.org/026zzn846","country_code":"GB","type":"education","lineage":["https://openalex.org/I124357947","https://openalex.org/I166337079"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Iran R. Roman","raw_affiliation_strings":["Queen Mary University of London,London,UK"],"affiliations":[{"raw_affiliation_string":"Queen Mary University of London,London,UK","institution_ids":["https://openalex.org/I166337079"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5031398497","display_name":"Juan Pablo Bello","orcid":"https://orcid.org/0000-0001-8561-5204"},"institutions":[{"id":"https://openalex.org/I57206974","display_name":"New York University","ror":"https://ror.org/0190ak572","country_code":"US","type":"education","lineage":["https://openalex.org/I57206974"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Juan P. Bello","raw_affiliation_strings":["New York University,New York,USA"],"affiliations":[{"raw_affiliation_string":"New York University,New York,USA","institution_ids":["https://openalex.org/I57206974"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5081976456"],"corresponding_institution_ids":["https://openalex.org/I1174212"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.42170407,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"5"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.9648000001907349,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.9648000001907349,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.007600000128149986,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10931","display_name":"Direction-of-Arrival Estimation Techniques","score":0.00559999980032444,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/interpretability","display_name":"Interpretability","score":0.8697999715805054},{"id":"https://openalex.org/keywords/robustness","display_name":"Robustness (evolution)","score":0.7249000072479248},{"id":"https://openalex.org/keywords/beamforming","display_name":"Beamforming","score":0.567799985408783},{"id":"https://openalex.org/keywords/adaptability","display_name":"Adaptability","score":0.5630999803543091},{"id":"https://openalex.org/keywords/microphone","display_name":"Microphone","score":0.5311999917030334},{"id":"https://openalex.org/keywords/acoustic-source-localization","display_name":"Acoustic source localization","score":0.44179999828338623},{"id":"https://openalex.org/keywords/direction-of-arrival","display_name":"Direction of arrival","score":0.4223000109195709},{"id":"https://openalex.org/keywords/microphone-array","display_name":"Microphone array","score":0.4147999882698059},{"id":"https://openalex.org/keywords/signal-processing","display_name":"Signal processing","score":0.3718999922275543}],"concepts":[{"id":"https://openalex.org/C2781067378","wikidata":"https://www.wikidata.org/wiki/Q17027399","display_name":"Interpretability","level":2,"score":0.8697999715805054},{"id":"https://openalex.org/C63479239","wikidata":"https://www.wikidata.org/wiki/Q7353546","display_name":"Robustness (evolution)","level":3,"score":0.7249000072479248},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.707099974155426},{"id":"https://openalex.org/C54197355","wikidata":"https://www.wikidata.org/wiki/Q5782992","display_name":"Beamforming","level":2,"score":0.567799985408783},{"id":"https://openalex.org/C177606310","wikidata":"https://www.wikidata.org/wiki/Q5674297","display_name":"Adaptability","level":2,"score":0.5630999803543091},{"id":"https://openalex.org/C2778263558","wikidata":"https://www.wikidata.org/wiki/Q46384","display_name":"Microphone","level":3,"score":0.5311999917030334},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.47130000591278076},{"id":"https://openalex.org/C93240960","wikidata":"https://www.wikidata.org/wiki/Q217270","display_name":"Acoustic source localization","level":3,"score":0.44179999828338623},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.436599999666214},{"id":"https://openalex.org/C172051844","wikidata":"https://www.wikidata.org/wiki/Q5280438","display_name":"Direction of arrival","level":3,"score":0.4223000109195709},{"id":"https://openalex.org/C2778806681","wikidata":"https://www.wikidata.org/wiki/Q907293","display_name":"Microphone array","level":4,"score":0.4147999882698059},{"id":"https://openalex.org/C104267543","wikidata":"https://www.wikidata.org/wiki/Q208163","display_name":"Signal processing","level":3,"score":0.3718999922275543},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.36880001425743103},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.3506999909877777},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.3391999900341034},{"id":"https://openalex.org/C188198153","wikidata":"https://www.wikidata.org/wiki/Q1613840","display_name":"Limiting","level":2,"score":0.32659998536109924},{"id":"https://openalex.org/C38858127","wikidata":"https://www.wikidata.org/wiki/Q5441228","display_name":"Feed forward","level":2,"score":0.3255999982357025},{"id":"https://openalex.org/C36464697","wikidata":"https://www.wikidata.org/wiki/Q451553","display_name":"Visualization","level":2,"score":0.3102000057697296},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.2996000051498413},{"id":"https://openalex.org/C2984842247","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep neural networks","level":3,"score":0.298799991607666},{"id":"https://openalex.org/C3017552255","wikidata":"https://www.wikidata.org/wiki/Q4135208","display_name":"Arrival time","level":2,"score":0.29269999265670776},{"id":"https://openalex.org/C153083717","wikidata":"https://www.wikidata.org/wiki/Q6535263","display_name":"Leverage (statistics)","level":2,"score":0.2824000120162964},{"id":"https://openalex.org/C136389625","wikidata":"https://www.wikidata.org/wiki/Q334384","display_name":"Supervised learning","level":3,"score":0.2809000015258789},{"id":"https://openalex.org/C38956757","wikidata":"https://www.wikidata.org/wiki/Q716215","display_name":"Audio feedback","level":2,"score":0.28029999136924744},{"id":"https://openalex.org/C155635449","wikidata":"https://www.wikidata.org/wiki/Q4674699","display_name":"Acoustic model","level":3,"score":0.2644999921321869},{"id":"https://openalex.org/C33378366","wikidata":"https://www.wikidata.org/wiki/Q4680719","display_name":"Adaptive beamformer","level":3,"score":0.25459998846054077}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/waspaa66052.2025.11231008","is_oa":false,"landing_page_url":"https://doi.org/10.1109/waspaa66052.2025.11231008","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[{"id":"https://openalex.org/F4320306076","display_name":"National Science Foundation","ror":"https://ror.org/021nxhr62"}],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":27,"referenced_works":["https://openalex.org/W1910115052","https://openalex.org/W1979226744","https://openalex.org/W2004941760","https://openalex.org/W2013722021","https://openalex.org/W2100556411","https://openalex.org/W2113638573","https://openalex.org/W2162654459","https://openalex.org/W2491337109","https://openalex.org/W2508457857","https://openalex.org/W2770337804","https://openalex.org/W2888793942","https://openalex.org/W2963729050","https://openalex.org/W2982341288","https://openalex.org/W3081192838","https://openalex.org/W3083274258","https://openalex.org/W3163232246","https://openalex.org/W3169893408","https://openalex.org/W3197097128","https://openalex.org/W3206329344","https://openalex.org/W3210404408","https://openalex.org/W3213211078","https://openalex.org/W4205689591","https://openalex.org/W4221141618","https://openalex.org/W4386764032","https://openalex.org/W4392376903","https://openalex.org/W4392904318","https://openalex.org/W4392904420"],"related_works":[],"abstract_inverted_index":{"Acoustic":[0,86],"mapping":[1],"techniques":[2],"have":[3],"long":[4],"been":[5],"used":[6],"in":[7],"spatial":[8],"audio":[9],"processing":[10],"for":[11,20,161],"direction":[12],"of":[13,97,105],"arrival":[14],"estimation":[15],"(DoAE).":[16],"Traditional":[17],"beamforming":[18],"methods":[19,66,99],"acoustic":[21,38,73,112,117,154],"mapping,":[22],"while":[23],"interpretable,":[24],"often":[25],"rely":[26],"on":[27,130],"iterative":[28],"solvers":[29],"that":[30,93,152],"can":[31,156],"be":[32],"computationally":[33],"intensive":[34],"and":[35,52,59,75,103,119,135,168],"sensitive":[36],"to":[37,68,115,145,172],"variability.":[39],"On":[40],"the":[41,84,95,101,133],"other":[42],"hand,":[43],"recent":[44],"supervised":[45,147,162],"deep":[46,106],"learning":[47,107],"approaches":[48],"offer":[49],"feedforward":[50],"speed":[51],"robustness":[53,129],"but":[54],"require":[55],"large":[56],"labeled":[57],"datasets":[58],"lack":[60],"interpretability.":[61],"Despite":[62],"their":[63,79],"strengths,":[64],"both":[65],"struggle":[67],"consistently":[69],"generalize":[70],"across":[71,122],"diverse":[72],"setups":[74],"array":[76],"configurations,":[77],"limiting":[78],"broader":[80],"applicability.":[81],"We":[82,126],"introduce":[83],"Latent":[85],"Mapping":[87],"(LAM)":[88],"model,":[89],"a":[90],"self-supervised":[91],"framework":[92],"bridges":[94],"interpretability":[96],"traditional":[98],"with":[100],"adaptability":[102],"efficiency":[104],"methods.":[108,148],"LAM":[109,138],"generates":[110],"high-resolution":[111],"maps,":[113],"adapts":[114],"varying":[116],"conditions,":[118],"operates":[120],"efficiently":[121],"different":[123],"microphone":[124],"arrays.":[125],"assess":[127],"its":[128,170],"DoAE":[131,166],"using":[132],"LOCATA":[134],"STARSS":[136],"benchmarks.":[137],"achieves":[139],"comparable":[140],"or":[141],"superior":[142],"localization":[143,178],"performance":[144,176],"existing":[146],"Additionally,":[149],"we":[150],"show":[151],"LAM\u2019s":[153],"maps":[155],"serve":[157],"as":[158],"effective":[159],"features":[160],"models,":[163],"further":[164],"enhancing":[165],"accuracy":[167],"underscoring":[169],"potential":[171],"advance":[173],"adaptive,":[174],"high-":[175],"sound":[177],"systems.":[179]},"counts_by_year":[],"updated_date":"2026-04-09T08:11:56.329763","created_date":"2025-11-14T00:00:00"}