{"id":"https://openalex.org/W2938670253","doi":"https://doi.org/10.1109/icassp.2019.8682574","title":"Time Difference of Arrival Estimation of Speech Signals Using Deep Neural Networks with Integrated Time-frequency Masking","display_name":"Time Difference of Arrival Estimation of Speech Signals Using Deep Neural Networks with Integrated Time-frequency Masking","publication_year":2019,"publication_date":"2019-04-17","ids":{"openalex":"https://openalex.org/W2938670253","doi":"https://doi.org/10.1109/icassp.2019.8682574","mag":"2938670253"},"language":"en","primary_location":{"id":"doi:10.1109/icassp.2019.8682574","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icassp.2019.8682574","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5075555953","display_name":"Pasi Pertil\u00e4","orcid":"https://orcid.org/0000-0003-1413-6091"},"institutions":[{"id":"https://openalex.org/I166825849","display_name":"Tampere University","ror":"https://ror.org/033003e23","country_code":"FI","type":"education","lineage":["https://openalex.org/I166825849"]}],"countries":["FI"],"is_corresponding":true,"raw_author_name":"Pasi Pertila","raw_affiliation_strings":["Faculty of Information Technology and Communication Sciences, Tampere University, Finland"],"affiliations":[{"raw_affiliation_string":"Faculty of Information Technology and Communication Sciences, Tampere University, Finland","institution_ids":["https://openalex.org/I166825849"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5058140225","display_name":"Mikko Parviainen","orcid":"https://orcid.org/0000-0003-2128-8173"},"institutions":[{"id":"https://openalex.org/I166825849","display_name":"Tampere University","ror":"https://ror.org/033003e23","country_code":"FI","type":"education","lineage":["https://openalex.org/I166825849"]}],"countries":["FI"],"is_corresponding":false,"raw_author_name":"Mikko Parviainen","raw_affiliation_strings":["Faculty of Information Technology and Communication Sciences, Tampere University, Finland"],"affiliations":[{"raw_affiliation_string":"Faculty of Information Technology and Communication Sciences, Tampere University, Finland","institution_ids":["https://openalex.org/I166825849"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5075555953"],"corresponding_institution_ids":["https://openalex.org/I166825849"],"apc_list":null,"apc_paid":null,"fwci":3.3463,"has_fulltext":false,"cited_by_count":29,"citation_normalized_percentile":{"value":0.93056235,"is_in_top_1_percent":false,"is_in_top_10_percent":true},"cited_by_percentile_year":{"min":94,"max":99},"biblio":{"volume":null,"issue":null,"first_page":"436","last_page":"440"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":1.0,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":1.0,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11698","display_name":"Underwater Acoustics Research","score":0.9987000226974487,"subfield":{"id":"https://openalex.org/subfields/1910","display_name":"Oceanography"},"field":{"id":"https://openalex.org/fields/19","display_name":"Earth and Planetary Sciences"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9968000054359436,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/multilateration","display_name":"Multilateration","score":0.8125176429748535},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7832601070404053},{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.7151223421096802},{"id":"https://openalex.org/keywords/microphone","display_name":"Microphone","score":0.5752769708633423},{"id":"https://openalex.org/keywords/microphone-array","display_name":"Microphone array","score":0.5028261542320251},{"id":"https://openalex.org/keywords/interference","display_name":"Interference (communication)","score":0.502554178237915},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.494507759809494},{"id":"https://openalex.org/keywords/noise","display_name":"Noise (video)","score":0.4605731964111328},{"id":"https://openalex.org/keywords/interaural-time-difference","display_name":"Interaural time difference","score":0.46009203791618347},{"id":"https://openalex.org/keywords/speech-enhancement","display_name":"Speech enhancement","score":0.4463740587234497},{"id":"https://openalex.org/keywords/frame","display_name":"Frame (networking)","score":0.43963247537612915},{"id":"https://openalex.org/keywords/masking","display_name":"Masking (illustration)","score":0.43235406279563904},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.32298606634140015},{"id":"https://openalex.org/keywords/acoustics","display_name":"Acoustics","score":0.29040923714637756},{"id":"https://openalex.org/keywords/binaural-recording","display_name":"Binaural recording","score":0.17465165257453918},{"id":"https://openalex.org/keywords/telecommunications","display_name":"Telecommunications","score":0.15563997626304626},{"id":"https://openalex.org/keywords/noise-reduction","display_name":"Noise reduction","score":0.14052501320838928}],"concepts":[{"id":"https://openalex.org/C104037064","wikidata":"https://www.wikidata.org/wiki/Q1640884","display_name":"Multilateration","level":3,"score":0.8125176429748535},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7832601070404053},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.7151223421096802},{"id":"https://openalex.org/C2778263558","wikidata":"https://www.wikidata.org/wiki/Q46384","display_name":"Microphone","level":3,"score":0.5752769708633423},{"id":"https://openalex.org/C2778806681","wikidata":"https://www.wikidata.org/wiki/Q907293","display_name":"Microphone array","level":4,"score":0.5028261542320251},{"id":"https://openalex.org/C32022120","wikidata":"https://www.wikidata.org/wiki/Q797225","display_name":"Interference (communication)","level":3,"score":0.502554178237915},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.494507759809494},{"id":"https://openalex.org/C99498987","wikidata":"https://www.wikidata.org/wiki/Q2210247","display_name":"Noise (video)","level":3,"score":0.4605731964111328},{"id":"https://openalex.org/C103364767","wikidata":"https://www.wikidata.org/wiki/Q1807562","display_name":"Interaural time difference","level":3,"score":0.46009203791618347},{"id":"https://openalex.org/C2776182073","wikidata":"https://www.wikidata.org/wiki/Q7575395","display_name":"Speech enhancement","level":3,"score":0.4463740587234497},{"id":"https://openalex.org/C126042441","wikidata":"https://www.wikidata.org/wiki/Q1324888","display_name":"Frame (networking)","level":2,"score":0.43963247537612915},{"id":"https://openalex.org/C2777402240","wikidata":"https://www.wikidata.org/wiki/Q6783436","display_name":"Masking (illustration)","level":2,"score":0.43235406279563904},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.32298606634140015},{"id":"https://openalex.org/C24890656","wikidata":"https://www.wikidata.org/wiki/Q82811","display_name":"Acoustics","level":1,"score":0.29040923714637756},{"id":"https://openalex.org/C201247586","wikidata":"https://www.wikidata.org/wiki/Q5612967","display_name":"Binaural recording","level":2,"score":0.17465165257453918},{"id":"https://openalex.org/C76155785","wikidata":"https://www.wikidata.org/wiki/Q418","display_name":"Telecommunications","level":1,"score":0.15563997626304626},{"id":"https://openalex.org/C163294075","wikidata":"https://www.wikidata.org/wiki/Q581861","display_name":"Noise reduction","level":2,"score":0.14052501320838928},{"id":"https://openalex.org/C115961682","wikidata":"https://www.wikidata.org/wiki/Q860623","display_name":"Image (mathematics)","level":2,"score":0.0},{"id":"https://openalex.org/C127162648","wikidata":"https://www.wikidata.org/wiki/Q16858953","display_name":"Channel (broadcasting)","level":2,"score":0.0},{"id":"https://openalex.org/C62611344","wikidata":"https://www.wikidata.org/wiki/Q1062658","display_name":"Node (physics)","level":2,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C153349607","wikidata":"https://www.wikidata.org/wiki/Q36649","display_name":"Visual arts","level":1,"score":0.0},{"id":"https://openalex.org/C68115822","wikidata":"https://www.wikidata.org/wiki/Q1068172","display_name":"Sound pressure","level":2,"score":0.0},{"id":"https://openalex.org/C142362112","wikidata":"https://www.wikidata.org/wiki/Q735","display_name":"Art","level":0,"score":0.0}],"mesh":[],"locations_count":2,"locations":[{"id":"doi:10.1109/icassp.2019.8682574","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icassp.2019.8682574","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","raw_type":"proceedings-article"},{"id":"pmh:oai:trepo.tuni.fi:10024/215611","is_oa":false,"landing_page_url":"https://trepo.tuni.fi/handle/10024/215611","pdf_url":null,"source":{"id":"https://openalex.org/S7407055260","display_name":"Trepo - Institutional Repository of Tampere University","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"conference"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":35,"referenced_works":["https://openalex.org/W88520345","https://openalex.org/W102482883","https://openalex.org/W1482149378","https://openalex.org/W1494198834","https://openalex.org/W1555217905","https://openalex.org/W1603075283","https://openalex.org/W1922234731","https://openalex.org/W1983108229","https://openalex.org/W2046317813","https://openalex.org/W2060108923","https://openalex.org/W2064675550","https://openalex.org/W2117678320","https://openalex.org/W2146502635","https://openalex.org/W2168185689","https://openalex.org/W2592109325","https://openalex.org/W2611943505","https://openalex.org/W2701869962","https://openalex.org/W2714487941","https://openalex.org/W2729906263","https://openalex.org/W2772734659","https://openalex.org/W2772736377","https://openalex.org/W2793357660","https://openalex.org/W2884822476","https://openalex.org/W2889426390","https://openalex.org/W2964342924","https://openalex.org/W3104757150","https://openalex.org/W3105684258","https://openalex.org/W3125848009","https://openalex.org/W3127686677","https://openalex.org/W4206633762","https://openalex.org/W4232282348","https://openalex.org/W4232464081","https://openalex.org/W6640324940","https://openalex.org/W6681435938","https://openalex.org/W6789826613"],"related_works":["https://openalex.org/W2188292175","https://openalex.org/W2385053527","https://openalex.org/W1983991597","https://openalex.org/W4386900535","https://openalex.org/W2380771148","https://openalex.org/W2348931051","https://openalex.org/W2538903081","https://openalex.org/W2389562147","https://openalex.org/W3008816511","https://openalex.org/W4386746628"],"abstract_inverted_index":{"The":[0],"Time":[1],"Difference":[2],"of":[3,6,71,103,110,134,142,166],"Arrival":[4],"(TDoA)":[5],"a":[7,12,63,100,108,111],"sound":[8],"wavefront":[9],"impinging":[10],"on":[11],"microphone":[13,149,156],"pair":[14,157],"carries":[15],"spatial":[16],"information":[17],"about":[18],"the":[19,33,69,81,85,92,104,118,132,139,171],"source.":[20],"However,":[21,68],"captured":[22],"speech":[23,38,167],"typically":[24],"contains":[25],"dynamic":[26],"non-speech":[27,60],"interference":[28,169],"sources":[29],"and":[30,39],"noise.":[31],"Therefore,":[32],"TDoA":[34,86],"estimates":[35,128],"fluctuate":[36],"between":[37],"interference.":[40],"Deep":[41],"Neural":[42],"Networks":[43],"(DNNs)":[44],"have":[45],"been":[46],"applied":[47],"for":[48,52,74,154],"Time-Frequency":[49],"(TF)":[50],"masking":[51,106],"Acoustic":[53],"Source":[54],"Localization":[55],"(ASL)":[56],"to":[57],"filter":[58],"out":[59],"components":[61],"from":[62],"speaker":[64,143],"location":[65],"likelihood":[66],"function.":[67],"type":[70],"TF":[72,93,105],"mask":[73,94],"this":[75],"task":[76],"is":[77,115],"not":[78],"obvious.":[79],"Secondly,":[80],"DNN":[82],"should":[83],"estimate":[84,91],"values,":[87],"but":[88],"existing":[89],"solutions":[90],"instead.":[95],"To":[96],"overcome":[97],"these":[98],"issues,":[99],"direct":[101],"formulation":[102],"as":[107],"part":[109],"DNN-based":[112],"ASL":[113],"structure":[114],"proposed.":[116],"Furthermore,":[117],"proposed":[119],"network":[120],"operates":[121],"in":[122,159,168],"an":[123],"online":[124],"manner,":[125],"i.e.,":[126],"producing":[127],"frame-by-frame.":[129],"Combined":[130],"with":[131,147,163],"use":[133],"recurrent":[135],"layers":[136],"it":[137],"exploits":[138],"sequential":[140],"progression":[141],"related":[144],"TDoAs.":[145],"Training":[146],"different":[148,155],"spacings":[150],"allows":[151],"model":[152],"re-use":[153],"geometries":[158],"inference.":[160],"Real-data":[161],"experiments":[162],"smartphone":[164],"recordings":[165],"demonstrate":[170],"network's":[172],"generalization":[173],"capability.":[174]},"counts_by_year":[{"year":2024,"cited_by_count":4},{"year":2023,"cited_by_count":5},{"year":2022,"cited_by_count":3},{"year":2021,"cited_by_count":10},{"year":2020,"cited_by_count":5},{"year":2019,"cited_by_count":2}],"updated_date":"2026-03-06T13:50:29.536080","created_date":"2025-10-10T00:00:00"}