{"id":"https://openalex.org/W2963807216","doi":"https://doi.org/10.21437/interspeech.2016-326","title":"Recurrent Models for Auditory Attention in Multi-Microphone Distant Speech Recognition","display_name":"Recurrent Models for Auditory Attention in Multi-Microphone Distant Speech Recognition","publication_year":2016,"publication_date":"2016-08-29","ids":{"openalex":"https://openalex.org/W2963807216","doi":"https://doi.org/10.21437/interspeech.2016-326","mag":"2963807216"},"language":"en","primary_location":{"id":"doi:10.21437/interspeech.2016-326","is_oa":false,"landing_page_url":"https://doi.org/10.21437/interspeech.2016-326","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Interspeech 2016","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5062940343","display_name":"Suyoun Kim","orcid":"https://orcid.org/0000-0002-6822-337X"},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Suyoun Kim","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5028182466","display_name":"Ian Lane","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ian Lane","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5062940343"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":4.0349,"has_fulltext":false,"cited_by_count":21,"citation_normalized_percentile":{"value":0.94837442,"is_in_top_1_percent":false,"is_in_top_10_percent":true},"cited_by_percentile_year":{"min":89,"max":99},"biblio":{"volume":null,"issue":null,"first_page":"3838","last_page":"3842"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":1.0,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":1.0,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.9994000196456909,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9990000128746033,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.834358811378479},{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.7659178972244263},{"id":"https://openalex.org/keywords/microphone","display_name":"Microphone","score":0.7381272912025452},{"id":"https://openalex.org/keywords/speech-enhancement","display_name":"Speech enhancement","score":0.6598849296569824},{"id":"https://openalex.org/keywords/preprocessor","display_name":"Preprocessor","score":0.656399130821228},{"id":"https://openalex.org/keywords/beamforming","display_name":"Beamforming","score":0.6142107248306274},{"id":"https://openalex.org/keywords/recurrent-neural-network","display_name":"Recurrent neural network","score":0.5165032744407654},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.5125508308410645},{"id":"https://openalex.org/keywords/speech-processing","display_name":"Speech processing","score":0.4962525963783264},{"id":"https://openalex.org/keywords/noise","display_name":"Noise (video)","score":0.4638533592224121},{"id":"https://openalex.org/keywords/microphone-array","display_name":"Microphone array","score":0.4403125047683716},{"id":"https://openalex.org/keywords/channel","display_name":"Channel (broadcasting)","score":0.4385555386543274},{"id":"https://openalex.org/keywords/asynchronous-communication","display_name":"Asynchronous communication","score":0.43625378608703613},{"id":"https://openalex.org/keywords/signal","display_name":"SIGNAL (programming language)","score":0.4353676438331604},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.4285827577114105},{"id":"https://openalex.org/keywords/pattern-recognition","display_name":"Pattern recognition (psychology)","score":0.34871944785118103},{"id":"https://openalex.org/keywords/noise-reduction","display_name":"Noise reduction","score":0.09625396132469177}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.834358811378479},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.7659178972244263},{"id":"https://openalex.org/C2778263558","wikidata":"https://www.wikidata.org/wiki/Q46384","display_name":"Microphone","level":3,"score":0.7381272912025452},{"id":"https://openalex.org/C2776182073","wikidata":"https://www.wikidata.org/wiki/Q7575395","display_name":"Speech enhancement","level":3,"score":0.6598849296569824},{"id":"https://openalex.org/C34736171","wikidata":"https://www.wikidata.org/wiki/Q918333","display_name":"Preprocessor","level":2,"score":0.656399130821228},{"id":"https://openalex.org/C54197355","wikidata":"https://www.wikidata.org/wiki/Q5782992","display_name":"Beamforming","level":2,"score":0.6142107248306274},{"id":"https://openalex.org/C147168706","wikidata":"https://www.wikidata.org/wiki/Q1457734","display_name":"Recurrent neural network","level":3,"score":0.5165032744407654},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.5125508308410645},{"id":"https://openalex.org/C61328038","wikidata":"https://www.wikidata.org/wiki/Q3358061","display_name":"Speech processing","level":2,"score":0.4962525963783264},{"id":"https://openalex.org/C99498987","wikidata":"https://www.wikidata.org/wiki/Q2210247","display_name":"Noise (video)","level":3,"score":0.4638533592224121},{"id":"https://openalex.org/C2778806681","wikidata":"https://www.wikidata.org/wiki/Q907293","display_name":"Microphone array","level":4,"score":0.4403125047683716},{"id":"https://openalex.org/C127162648","wikidata":"https://www.wikidata.org/wiki/Q16858953","display_name":"Channel (broadcasting)","level":2,"score":0.4385555386543274},{"id":"https://openalex.org/C151319957","wikidata":"https://www.wikidata.org/wiki/Q752739","display_name":"Asynchronous communication","level":2,"score":0.43625378608703613},{"id":"https://openalex.org/C2779843651","wikidata":"https://www.wikidata.org/wiki/Q7390335","display_name":"SIGNAL (programming language)","level":2,"score":0.4353676438331604},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4285827577114105},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.34871944785118103},{"id":"https://openalex.org/C163294075","wikidata":"https://www.wikidata.org/wiki/Q581861","display_name":"Noise reduction","level":2,"score":0.09625396132469177},{"id":"https://openalex.org/C31258907","wikidata":"https://www.wikidata.org/wiki/Q1301371","display_name":"Computer network","level":1,"score":0.0},{"id":"https://openalex.org/C76155785","wikidata":"https://www.wikidata.org/wiki/Q418","display_name":"Telecommunications","level":1,"score":0.0},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.0},{"id":"https://openalex.org/C68115822","wikidata":"https://www.wikidata.org/wiki/Q1068172","display_name":"Sound pressure","level":2,"score":0.0},{"id":"https://openalex.org/C115961682","wikidata":"https://www.wikidata.org/wiki/Q860623","display_name":"Image (mathematics)","level":2,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.21437/interspeech.2016-326","is_oa":false,"landing_page_url":"https://doi.org/10.21437/interspeech.2016-326","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Interspeech 2016","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":22,"referenced_works":["https://openalex.org/W1489048302","https://openalex.org/W1499864241","https://openalex.org/W1509088290","https://openalex.org/W1514535095","https://openalex.org/W1524333225","https://openalex.org/W1553004968","https://openalex.org/W1557160870","https://openalex.org/W1586342741","https://openalex.org/W1586532344","https://openalex.org/W1981617403","https://openalex.org/W2005708641","https://openalex.org/W2037769258","https://openalex.org/W2100818340","https://openalex.org/W2102113734","https://openalex.org/W2103088716","https://openalex.org/W2113556376","https://openalex.org/W2127141656","https://openalex.org/W2289394825","https://openalex.org/W2394932179","https://openalex.org/W2398972335","https://openalex.org/W2407277936","https://openalex.org/W2964308564"],"related_works":["https://openalex.org/W1879255185","https://openalex.org/W2769861442","https://openalex.org/W2120442551","https://openalex.org/W1980506188","https://openalex.org/W2380771148","https://openalex.org/W2396048001","https://openalex.org/W4240587264","https://openalex.org/W2348931051","https://openalex.org/W2011788874","https://openalex.org/W2109356272"],"abstract_inverted_index":{"Integration":[0],"of":[1,7,46,97],"multiple":[2,174],"microphone":[3,99],"data":[4],"is":[5,23,71],"one":[6,148],"the":[8,21,29,62,65,69,98,144,183,190],"key":[9],"ways":[10],"to":[11,41,88,123,128,168,195],"achieve":[12],"robust":[13],"speech":[14,44,107],"recognition":[15],"in":[16,67,147],"noisy":[17],"environments":[18],"or":[19,101],"when":[20],"speaker":[22],"located":[24],"at":[25],"some":[26],"distance":[27],"from":[28,48],"input":[30,132],"device.":[31],"Signal":[32],"processing":[33],"techniques":[34],"such":[35],"as":[36],"beamforming":[37,196],"are":[38,54],"widely":[39],"used":[40],"extract":[42],"a":[43,79,115,129,198],"signal":[45,104],"interest":[47],"background":[49],"noise.":[50],"These":[51],"techniques,":[52],"however,":[53],"highly":[55],"dependent":[56],"on":[57,158,182],"prior":[58,95],"spatial":[59],"information":[60],"about":[61],"microphones":[63],"and":[64,172,187],"environment":[66],"which":[68],"system":[70,139],"being":[72],"used.":[73],"In":[74],"this":[75],"work,":[76],"we":[77],"present":[78],"neural":[80,179],"attention":[81,112,127,162,180],"network":[82],"that":[83,189],"directly":[84],"combines":[85],"multi-channel":[86,136],"audio":[87],"generate":[89],"phonetic":[90],"states":[91],"without":[92],"requiring":[93],"any":[94,102],"knowledge":[96],"layout":[100],"explicit":[103],"preprocessing":[105],"for":[106],"enhancement.":[108],"We":[109,176],"embed":[110],"an":[111],"mechanism":[113],"within":[114],"Recurrent":[116],"Neural":[117],"Network":[118],"(RNN)":[119],"based":[120],"acoustic":[121],"model":[122,181,191],"automatically":[124],"tune":[125],"its":[126],"more":[130],"reliable":[131],"source.":[133],"Unlike":[134],"traditional":[135],"preprocessing,":[137],"our":[138,178],"can":[140],"be":[141],"optimized":[142],"towards":[143],"desired":[145],"output":[146],"step.":[149],"Although":[150],"attention-based":[151],"models":[152],"have":[153,164],"recently":[154],"achieved":[155],"impressive":[156],"results":[157],"sequence-to-sequence":[159],"learning,":[160],"no":[161],"mechanisms":[163],"previously":[165],"been":[166],"applied":[167],"learn":[169],"potentially":[170],"asynchronous":[171],"non-stationary":[173],"inputs.":[175],"evaluate":[177],"CHiME-3":[184],"challenge":[185],"task,":[186],"show":[188],"achieves":[192],"comparable":[193],"performance":[194],"using":[197],"purely":[199],"data-driven":[200],"method.":[201]},"counts_by_year":[{"year":2024,"cited_by_count":1},{"year":2022,"cited_by_count":2},{"year":2021,"cited_by_count":1},{"year":2020,"cited_by_count":1},{"year":2019,"cited_by_count":7},{"year":2018,"cited_by_count":4},{"year":2017,"cited_by_count":4},{"year":2016,"cited_by_count":1}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}