{"id":"https://openalex.org/W7148583354","doi":"https://doi.org/10.1109/asru65441.2025.11434652","title":"PhysMVNet: Physics-Informed End-to-End MVDR Beamformer with Residual Spectral Mapping for Multichannel Speech Enhancement","display_name":"PhysMVNet: Physics-Informed End-to-End MVDR Beamformer with Residual Spectral Mapping for Multichannel Speech Enhancement","publication_year":2025,"publication_date":"2025-12-06","ids":{"openalex":"https://openalex.org/W7148583354","doi":"https://doi.org/10.1109/asru65441.2025.11434652"},"language":null,"primary_location":{"id":"doi:10.1109/asru65441.2025.11434652","is_oa":false,"landing_page_url":"https://doi.org/10.1109/asru65441.2025.11434652","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5103173665","display_name":"Xingyu Shen","orcid":"https://orcid.org/0000-0002-0248-5588"},"institutions":[{"id":"https://openalex.org/I60158472","display_name":"Concordia University","ror":"https://ror.org/0420zvk78","country_code":"CA","type":"education","lineage":["https://openalex.org/I60158472"]}],"countries":["CA"],"is_corresponding":true,"raw_author_name":"Xingyu Shen","raw_affiliation_strings":["Concordia University,Department of Electrical and Computer Engineering,Montreal,Canada"],"affiliations":[{"raw_affiliation_string":"Concordia University,Department of Electrical and Computer Engineering,Montreal,Canada","institution_ids":["https://openalex.org/I60158472"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5033247734","display_name":"Wei\u2010Ping Zhu","orcid":null},"institutions":[{"id":"https://openalex.org/I60158472","display_name":"Concordia University","ror":"https://ror.org/0420zvk78","country_code":"CA","type":"education","lineage":["https://openalex.org/I60158472"]}],"countries":["CA"],"is_corresponding":false,"raw_author_name":"Wei-Ping Zhu","raw_affiliation_strings":["Concordia University,Department of Electrical and Computer Engineering,Montreal,Canada"],"affiliations":[{"raw_affiliation_string":"Concordia University,Department of Electrical and Computer Engineering,Montreal,Canada","institution_ids":["https://openalex.org/I60158472"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5126957947","display_name":"Benoit Champagne","orcid":null},"institutions":[{"id":"https://openalex.org/I5023651","display_name":"McGill University","ror":"https://ror.org/01pxwe438","country_code":"CA","type":"education","lineage":["https://openalex.org/I5023651"]}],"countries":["CA"],"is_corresponding":false,"raw_author_name":"Benoit Champagne","raw_affiliation_strings":["McGill University,Department of Electrical and Computer Engineering,Montreal,Canada"],"affiliations":[{"raw_affiliation_string":"McGill University,Department of Electrical and Computer Engineering,Montreal,Canada","institution_ids":["https://openalex.org/I5023651"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5103173665"],"corresponding_institution_ids":["https://openalex.org/I60158472"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.75370142,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"7"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.9394000172615051,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.9394000172615051,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.03779999911785126,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10667","display_name":"Emotion and Mood Recognition","score":0.0026000000070780516,"subfield":{"id":"https://openalex.org/subfields/3205","display_name":"Experimental and Cognitive Psychology"},"field":{"id":"https://openalex.org/fields/32","display_name":"Psychology"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/speech-enhancement","display_name":"Speech enhancement","score":0.6218000054359436},{"id":"https://openalex.org/keywords/residual","display_name":"Residual","score":0.41839998960494995},{"id":"https://openalex.org/keywords/noise","display_name":"Noise (video)","score":0.357699990272522},{"id":"https://openalex.org/keywords/noise-reduction","display_name":"Noise reduction","score":0.30230000615119934},{"id":"https://openalex.org/keywords/background-noise","display_name":"Background noise","score":0.29589998722076416},{"id":"https://openalex.org/keywords/power","display_name":"Power (physics)","score":0.2944999933242798}],"concepts":[{"id":"https://openalex.org/C2776182073","wikidata":"https://www.wikidata.org/wiki/Q7575395","display_name":"Speech enhancement","level":3,"score":0.6218000054359436},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.5953999757766724},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.4383000135421753},{"id":"https://openalex.org/C155512373","wikidata":"https://www.wikidata.org/wiki/Q287450","display_name":"Residual","level":2,"score":0.41839998960494995},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.37059998512268066},{"id":"https://openalex.org/C99498987","wikidata":"https://www.wikidata.org/wiki/Q2210247","display_name":"Noise (video)","level":3,"score":0.357699990272522},{"id":"https://openalex.org/C163294075","wikidata":"https://www.wikidata.org/wiki/Q581861","display_name":"Noise reduction","level":2,"score":0.30230000615119934},{"id":"https://openalex.org/C100675267","wikidata":"https://www.wikidata.org/wiki/Q1371624","display_name":"Background noise","level":2,"score":0.29589998722076416},{"id":"https://openalex.org/C163258240","wikidata":"https://www.wikidata.org/wiki/Q25342","display_name":"Power (physics)","level":2,"score":0.2944999933242798},{"id":"https://openalex.org/C104267543","wikidata":"https://www.wikidata.org/wiki/Q208163","display_name":"Signal processing","level":3,"score":0.2903999984264374},{"id":"https://openalex.org/C13944312","wikidata":"https://www.wikidata.org/wiki/Q7512748","display_name":"Signal-to-noise ratio (imaging)","level":2,"score":0.28619998693466187},{"id":"https://openalex.org/C24890656","wikidata":"https://www.wikidata.org/wiki/Q82811","display_name":"Acoustics","level":1,"score":0.2856999933719635},{"id":"https://openalex.org/C9652623","wikidata":"https://www.wikidata.org/wiki/Q190109","display_name":"Field (mathematics)","level":2,"score":0.27889999747276306},{"id":"https://openalex.org/C168110828","wikidata":"https://www.wikidata.org/wiki/Q1331626","display_name":"Spectral density","level":2,"score":0.2615000009536743},{"id":"https://openalex.org/C45273575","wikidata":"https://www.wikidata.org/wiki/Q578970","display_name":"Spectrogram","level":2,"score":0.2596000134944916}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/asru65441.2025.11434652","is_oa":false,"landing_page_url":"https://doi.org/10.1109/asru65441.2025.11434652","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":25,"referenced_works":["https://openalex.org/W653761051","https://openalex.org/W2158143227","https://openalex.org/W2169749822","https://openalex.org/W2289394825","https://openalex.org/W2398042854","https://openalex.org/W2517616541","https://openalex.org/W2568308529","https://openalex.org/W2699350432","https://openalex.org/W2752782242","https://openalex.org/W2892163332","https://openalex.org/W2893370043","https://openalex.org/W2923728956","https://openalex.org/W3015372568","https://openalex.org/W3032514799","https://openalex.org/W3049430014","https://openalex.org/W3196940724","https://openalex.org/W3205004157","https://openalex.org/W4210402803","https://openalex.org/W4312219134","https://openalex.org/W4312416835","https://openalex.org/W4372267870","https://openalex.org/W4392931592","https://openalex.org/W4399939359","https://openalex.org/W4402112019","https://openalex.org/W4402381585"],"related_works":[],"abstract_inverted_index":{"We":[0],"propose":[1],"PhysMVNet,":[2],"a":[3,13,17,22,32,62,86],"physics-inspired":[4,116],"end-to-end":[5],"framework":[6],"for":[7,90,122],"multichannel":[8],"speech":[9,125],"enhancement":[10],"that":[11,76],"integrates":[12],"learnable":[14],"MVDR":[15],"beamformer,":[16],"Helmholtz-inspired":[18],"STFT-domain":[19],"regularizer,":[20],"and":[21,50,82,101],"residual":[23,64],"spectral":[24,55,65],"mapping":[25,66],"module.":[26],"The":[27],"beamformer":[28],"is":[29],"trained":[30],"with":[31],"reconstruction":[33],"loss,":[34],"while":[35,84],"the":[36,42,107,113],"regularizer":[37],"encourages":[38],"local":[39],"smoothness":[40],"in":[41,118],"STFT":[43],"spectrogram":[44],"to":[45,48,68],"improve":[46],"robustness":[47],"noise":[49],"array":[51,102],"perturbations.":[52,103],"To":[53],"mitigate":[54],"distortions":[56],"introduced":[57],"by":[58],"beamforming,":[59],"we":[60],"incorporate":[61],"three-band":[63],"network":[67],"restore":[69],"fine":[70],"details.":[71],"Experiments":[72],"on":[73],"CHiME-3/4":[74],"show":[75],"PhysMVNet":[77],"achieves":[78],"state-of-the-art":[79],"perceptual":[80],"quality":[81],"intelligibility":[83],"maintaining":[85],"lightweight":[87],"design":[88],"suitable":[89],"realtime":[91],"application.":[92],"It":[93],"also":[94],"remains":[95],"stable":[96],"under":[97],"extreme":[98],"low-SNR":[99],"conditions":[100],"Ablation":[104],"studies":[105],"confirm":[106],"contribution":[108],"of":[109,115],"each":[110],"component,":[111],"highlighting":[112],"benefits":[114],"priors":[117],"deep":[119],"beamforming":[120],"networks":[121],"robust,":[123],"high-fidelity":[124],"enhancement.":[126]},"counts_by_year":[],"updated_date":"2026-04-03T16:44:17.987007","created_date":"2026-04-03T00:00:00"}