{"id":"https://openalex.org/W3163208914","doi":"https://doi.org/10.1109/icassp39728.2021.9414677","title":"Count And Separate: Incorporating Speaker Counting For Continuous Speaker Separation","display_name":"Count And Separate: Incorporating Speaker Counting For Continuous Speaker Separation","publication_year":2021,"publication_date":"2021-05-13","ids":{"openalex":"https://openalex.org/W3163208914","doi":"https://doi.org/10.1109/icassp39728.2021.9414677","mag":"3163208914"},"language":"en","primary_location":{"id":"doi:10.1109/icassp39728.2021.9414677","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icassp39728.2021.9414677","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5101607498","display_name":"Zhong-Qiu Wang","orcid":"https://orcid.org/0000-0002-4204-9430"},"institutions":[{"id":"https://openalex.org/I52357470","display_name":"The Ohio State University","ror":"https://ror.org/00rs6vg23","country_code":"US","type":"education","lineage":["https://openalex.org/I52357470"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Zhong-Qiu Wang","raw_affiliation_strings":["The Ohio State University, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"The Ohio State University, USA","institution_ids":["https://openalex.org/I52357470"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5051837453","display_name":"DeLiang Wang","orcid":"https://orcid.org/0000-0001-8195-6319"},"institutions":[{"id":"https://openalex.org/I52357470","display_name":"The Ohio State University","ror":"https://ror.org/00rs6vg23","country_code":"US","type":"education","lineage":["https://openalex.org/I52357470"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"DeLiang Wang","raw_affiliation_strings":["Center for Cognitive and Brain Sciences, The Ohio State University, USA","The Ohio State University, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Center for Cognitive and Brain Sciences, The Ohio State University, USA","institution_ids":["https://openalex.org/I52357470"]},{"raw_affiliation_string":"The Ohio State University, USA","institution_ids":["https://openalex.org/I52357470"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I52357470"],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":16,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"11","last_page":"15"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":1.0,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":1.0,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.9991000294685364,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11233","display_name":"Advanced Adaptive Filtering Techniques","score":0.9941999912261963,"subfield":{"id":"https://openalex.org/subfields/2206","display_name":"Computational Mechanics"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.6916993260383606},{"id":"https://openalex.org/keywords/reverberation","display_name":"Reverberation","score":0.6820060610771179},{"id":"https://openalex.org/keywords/microphone","display_name":"Microphone","score":0.6759991645812988},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6749424338340759},{"id":"https://openalex.org/keywords/microphone-array","display_name":"Microphone array","score":0.5290055871009827},{"id":"https://openalex.org/keywords/separation","display_name":"Separation (statistics)","score":0.5272666215896606},{"id":"https://openalex.org/keywords/noise","display_name":"Noise (video)","score":0.4779910445213318},{"id":"https://openalex.org/keywords/speaker-diarisation","display_name":"Speaker diarisation","score":0.47228747606277466},{"id":"https://openalex.org/keywords/speech-enhancement","display_name":"Speech enhancement","score":0.46802574396133423},{"id":"https://openalex.org/keywords/background-noise","display_name":"Background noise","score":0.4516217112541199},{"id":"https://openalex.org/keywords/source-separation","display_name":"Source separation","score":0.4486624002456665},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.43225717544555664},{"id":"https://openalex.org/keywords/frame","display_name":"Frame (networking)","score":0.4254518449306488},{"id":"https://openalex.org/keywords/speaker-recognition","display_name":"Speaker recognition","score":0.4242284297943115},{"id":"https://openalex.org/keywords/invariant","display_name":"Invariant (physics)","score":0.41250079870224},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.3434907793998718},{"id":"https://openalex.org/keywords/pattern-recognition","display_name":"Pattern recognition (psychology)","score":0.3410945236682892},{"id":"https://openalex.org/keywords/acoustics","display_name":"Acoustics","score":0.30792945623397827},{"id":"https://openalex.org/keywords/noise-reduction","display_name":"Noise reduction","score":0.24176183342933655},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.18871468305587769},{"id":"https://openalex.org/keywords/image","display_name":"Image (mathematics)","score":0.07281893491744995},{"id":"https://openalex.org/keywords/physics","display_name":"Physics","score":0.07275798916816711}],"concepts":[{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.6916993260383606},{"id":"https://openalex.org/C95851461","wikidata":"https://www.wikidata.org/wiki/Q468809","display_name":"Reverberation","level":2,"score":0.6820060610771179},{"id":"https://openalex.org/C2778263558","wikidata":"https://www.wikidata.org/wiki/Q46384","display_name":"Microphone","level":3,"score":0.6759991645812988},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6749424338340759},{"id":"https://openalex.org/C2778806681","wikidata":"https://www.wikidata.org/wiki/Q907293","display_name":"Microphone array","level":4,"score":0.5290055871009827},{"id":"https://openalex.org/C2776061190","wikidata":"https://www.wikidata.org/wiki/Q7451805","display_name":"Separation (statistics)","level":2,"score":0.5272666215896606},{"id":"https://openalex.org/C99498987","wikidata":"https://www.wikidata.org/wiki/Q2210247","display_name":"Noise (video)","level":3,"score":0.4779910445213318},{"id":"https://openalex.org/C149838564","wikidata":"https://www.wikidata.org/wiki/Q7574248","display_name":"Speaker diarisation","level":3,"score":0.47228747606277466},{"id":"https://openalex.org/C2776182073","wikidata":"https://www.wikidata.org/wiki/Q7575395","display_name":"Speech enhancement","level":3,"score":0.46802574396133423},{"id":"https://openalex.org/C100675267","wikidata":"https://www.wikidata.org/wiki/Q1371624","display_name":"Background noise","level":2,"score":0.4516217112541199},{"id":"https://openalex.org/C2776864781","wikidata":"https://www.wikidata.org/wiki/Q52617913","display_name":"Source separation","level":2,"score":0.4486624002456665},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.43225717544555664},{"id":"https://openalex.org/C126042441","wikidata":"https://www.wikidata.org/wiki/Q1324888","display_name":"Frame (networking)","level":2,"score":0.4254518449306488},{"id":"https://openalex.org/C133892786","wikidata":"https://www.wikidata.org/wiki/Q1145189","display_name":"Speaker recognition","level":2,"score":0.4242284297943115},{"id":"https://openalex.org/C190470478","wikidata":"https://www.wikidata.org/wiki/Q2370229","display_name":"Invariant (physics)","level":2,"score":0.41250079870224},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.3434907793998718},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.3410945236682892},{"id":"https://openalex.org/C24890656","wikidata":"https://www.wikidata.org/wiki/Q82811","display_name":"Acoustics","level":1,"score":0.30792945623397827},{"id":"https://openalex.org/C163294075","wikidata":"https://www.wikidata.org/wiki/Q581861","display_name":"Noise reduction","level":2,"score":0.24176183342933655},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.18871468305587769},{"id":"https://openalex.org/C115961682","wikidata":"https://www.wikidata.org/wiki/Q860623","display_name":"Image (mathematics)","level":2,"score":0.07281893491744995},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.07275798916816711},{"id":"https://openalex.org/C37914503","wikidata":"https://www.wikidata.org/wiki/Q156495","display_name":"Mathematical physics","level":1,"score":0.0},{"id":"https://openalex.org/C68115822","wikidata":"https://www.wikidata.org/wiki/Q1068172","display_name":"Sound pressure","level":2,"score":0.0},{"id":"https://openalex.org/C76155785","wikidata":"https://www.wikidata.org/wiki/Q418","display_name":"Telecommunications","level":1,"score":0.0},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/icassp39728.2021.9414677","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icassp39728.2021.9414677","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"score":0.4099999964237213,"id":"https://metadata.un.org/sdg/4","display_name":"Quality Education"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":33,"referenced_works":["https://openalex.org/W2221409856","https://openalex.org/W2242685705","https://openalex.org/W2460742184","https://openalex.org/W2734774145","https://openalex.org/W2803322398","https://openalex.org/W2892163332","https://openalex.org/W2900893004","https://openalex.org/W2952218014","https://openalex.org/W2963317762","https://openalex.org/W2972460025","https://openalex.org/W2973062255","https://openalex.org/W3007256793","https://openalex.org/W3008880747","https://openalex.org/W3015679215","https://openalex.org/W3016232124","https://openalex.org/W3016257794","https://openalex.org/W3032514799","https://openalex.org/W3099330747","https://openalex.org/W3123318516","https://openalex.org/W3163842642","https://openalex.org/W3171278394","https://openalex.org/W3185109982","https://openalex.org/W4289665794","https://openalex.org/W6688843265","https://openalex.org/W6718827390","https://openalex.org/W6752148239","https://openalex.org/W6754904195","https://openalex.org/W6756102682","https://openalex.org/W6773628751","https://openalex.org/W6774639334","https://openalex.org/W6774687970","https://openalex.org/W6774803370","https://openalex.org/W6782142667"],"related_works":["https://openalex.org/W2380771148","https://openalex.org/W2348931051","https://openalex.org/W2109356272","https://openalex.org/W2389562147","https://openalex.org/W2538903081","https://openalex.org/W4307477878","https://openalex.org/W214877221","https://openalex.org/W4386746628","https://openalex.org/W2132495960","https://openalex.org/W3008816511"],"abstract_inverted_index":{"This":[0],"study":[1],"leverages":[2],"frame-wise":[3],"speaker":[4,12,16,33,48],"counting":[5],"to":[6,41,58,115],"switch":[7],"between":[8,95],"speech":[9,36],"enhancement":[10,37,71,106],"and":[11,44,72,97,107,119],"separation":[13,49,73],"for":[14,105],"continuous":[15],"separation.":[17],"The":[18],"proposed":[19],"approach":[20],"counts":[21],"the":[22,67,70,117,137,141],"number":[23],"of":[24,84,123,131,143],"speakers":[25,61],"at":[26],"each":[27],"frame.":[28],"If":[29],"there":[30],"is":[31,39,56],"no":[32],"overlap,":[34],"a":[35,47,80,91],"model":[38,50],"used":[40],"suppress":[42],"noise":[43],"reverberation.":[45],"Otherwise,":[46],"based":[51,75],"on":[52,76,136],"permutation":[53],"invariant":[54],"training":[55,96],"utilized":[57],"separate":[59],"multiple":[60,132],"in":[62,79],"noisy-reverberant":[63],"conditions.":[64],"We":[65],"stitch":[66],"results":[68,135],"from":[69,126],"models":[74],"their":[77],"predictions":[78],"small":[81],"augmented":[82],"window":[83],"frames":[85],"surrounding":[86],"an":[87],"overlapped":[88],"segment.":[89],"Assuming":[90],"fixed":[92],"array":[93],"geometry":[94],"testing,":[98],"we":[99],"use":[100],"multi-microphone":[101],"complex":[102],"spectral":[103],"mapping":[104],"separation,":[108],"where":[109],"deep":[110],"neural":[111],"networks":[112],"are":[113],"trained":[114],"predict":[116],"real":[118],"imaginary":[120],"(RI)":[121],"components":[122,130],"direct":[124],"sound":[125],"stacked":[127],"reverberant-noisy":[128],"RI":[129],"microphones.":[133],"Experimental":[134],"LibriCSS":[138],"dataset":[139],"demonstrate":[140],"effectiveness":[142],"our":[144],"approach.":[145]},"counts_by_year":[{"year":2026,"cited_by_count":2},{"year":2025,"cited_by_count":2},{"year":2024,"cited_by_count":1},{"year":2023,"cited_by_count":5},{"year":2022,"cited_by_count":4},{"year":2021,"cited_by_count":2}],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-10-10T00:00:00"}