{"id":"https://openalex.org/W20316960","doi":"https://doi.org/10.21437/eurospeech.2003-252","title":"Computational auditory scene analysis by using statistics of high-dimensional speech dynamics and sound source direction","display_name":"Computational auditory scene analysis by using statistics of high-dimensional speech dynamics and sound source direction","publication_year":2003,"publication_date":"2003-09-01","ids":{"openalex":"https://openalex.org/W20316960","doi":"https://doi.org/10.21437/eurospeech.2003-252","mag":"20316960"},"language":"en","primary_location":{"id":"doi:10.21437/eurospeech.2003-252","is_oa":false,"landing_page_url":"https://doi.org/10.21437/eurospeech.2003-252","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"8th European Conference on Speech Communication and Technology (Eurospeech 2003)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5083449954","display_name":"Johannes Nix","orcid":null},"institutions":[{"id":"https://openalex.org/I129877168","display_name":"Carl von Ossietzky Universit\u00e4t Oldenburg","ror":"https://ror.org/033n9gh91","country_code":"DE","type":"education","lineage":["https://openalex.org/I129877168"]}],"countries":["DE"],"is_corresponding":false,"raw_author_name":"Johannes Nix","raw_affiliation_strings":["University of Oldenburg"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"University of Oldenburg","institution_ids":["https://openalex.org/I129877168"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5059622589","display_name":"Michael Kleinschmidt","orcid":null},"institutions":[{"id":"https://openalex.org/I129877168","display_name":"Carl von Ossietzky Universit\u00e4t Oldenburg","ror":"https://ror.org/033n9gh91","country_code":"DE","type":"education","lineage":["https://openalex.org/I129877168"]}],"countries":["DE"],"is_corresponding":false,"raw_author_name":"Michael Kleinschmidt","raw_affiliation_strings":["University of Oldenburg"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"University of Oldenburg","institution_ids":["https://openalex.org/I129877168"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5002002386","display_name":"Volker Hohmann","orcid":"https://orcid.org/0000-0001-7056-1880"},"institutions":[{"id":"https://openalex.org/I129877168","display_name":"Carl von Ossietzky Universit\u00e4t Oldenburg","ror":"https://ror.org/033n9gh91","country_code":"DE","type":"education","lineage":["https://openalex.org/I129877168"]}],"countries":["DE"],"is_corresponding":false,"raw_author_name":"Volker Hohmann","raw_affiliation_strings":["University of Oldenburg"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"University of Oldenburg","institution_ids":["https://openalex.org/I129877168"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I129877168"],"apc_list":null,"apc_paid":null,"fwci":1.7794,"has_fulltext":false,"cited_by_count":13,"citation_normalized_percentile":{"value":0.84648007,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":90,"max":94},"biblio":{"volume":null,"issue":null,"first_page":"1441","last_page":"1444"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.9997000098228455,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.9997000098228455,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10534","display_name":"Structural Health Monitoring Techniques","score":0.9983000159263611,"subfield":{"id":"https://openalex.org/subfields/2205","display_name":"Civil and Structural Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10711","display_name":"Target Tracking and Data Fusion in Sensor Networks","score":0.9941999912261963,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/binaural-recording","display_name":"Binaural recording","score":0.7742772102355957},{"id":"https://openalex.org/keywords/auditory-scene-analysis","display_name":"Auditory scene analysis","score":0.7558420896530151},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7106239795684814},{"id":"https://openalex.org/keywords/sound-localization","display_name":"Sound localization","score":0.6326104402542114},{"id":"https://openalex.org/keywords/psychoacoustics","display_name":"Psychoacoustics","score":0.5842053890228271},{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.5192230343818665},{"id":"https://openalex.org/keywords/computational-auditory-scene-analysis","display_name":"Computational auditory scene analysis","score":0.487080842256546},{"id":"https://openalex.org/keywords/microphone","display_name":"Microphone","score":0.4368010461330414},{"id":"https://openalex.org/keywords/auditory-system","display_name":"Auditory system","score":0.42759278416633606},{"id":"https://openalex.org/keywords/acoustics","display_name":"Acoustics","score":0.37521806359291077},{"id":"https://openalex.org/keywords/perception","display_name":"Perception","score":0.18925407528877258},{"id":"https://openalex.org/keywords/sound-pressure","display_name":"Sound pressure","score":0.1580716371536255}],"concepts":[{"id":"https://openalex.org/C201247586","wikidata":"https://www.wikidata.org/wiki/Q5612967","display_name":"Binaural recording","level":2,"score":0.7742772102355957},{"id":"https://openalex.org/C38129911","wikidata":"https://www.wikidata.org/wiki/Q4820038","display_name":"Auditory scene analysis","level":3,"score":0.7558420896530151},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7106239795684814},{"id":"https://openalex.org/C68236139","wikidata":"https://www.wikidata.org/wiki/Q765652","display_name":"Sound localization","level":2,"score":0.6326104402542114},{"id":"https://openalex.org/C9940772","wikidata":"https://www.wikidata.org/wiki/Q557399","display_name":"Psychoacoustics","level":3,"score":0.5842053890228271},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.5192230343818665},{"id":"https://openalex.org/C73208851","wikidata":"https://www.wikidata.org/wiki/Q5157303","display_name":"Computational auditory scene analysis","level":2,"score":0.487080842256546},{"id":"https://openalex.org/C2778263558","wikidata":"https://www.wikidata.org/wiki/Q46384","display_name":"Microphone","level":3,"score":0.4368010461330414},{"id":"https://openalex.org/C2777443451","wikidata":"https://www.wikidata.org/wiki/Q821413","display_name":"Auditory system","level":2,"score":0.42759278416633606},{"id":"https://openalex.org/C24890656","wikidata":"https://www.wikidata.org/wiki/Q82811","display_name":"Acoustics","level":1,"score":0.37521806359291077},{"id":"https://openalex.org/C26760741","wikidata":"https://www.wikidata.org/wiki/Q160402","display_name":"Perception","level":2,"score":0.18925407528877258},{"id":"https://openalex.org/C68115822","wikidata":"https://www.wikidata.org/wiki/Q1068172","display_name":"Sound pressure","level":2,"score":0.1580716371536255},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C76155785","wikidata":"https://www.wikidata.org/wiki/Q418","display_name":"Telecommunications","level":1,"score":0.0},{"id":"https://openalex.org/C169760540","wikidata":"https://www.wikidata.org/wiki/Q207011","display_name":"Neuroscience","level":1,"score":0.0},{"id":"https://openalex.org/C71924100","wikidata":"https://www.wikidata.org/wiki/Q11190","display_name":"Medicine","level":0,"score":0.0},{"id":"https://openalex.org/C548259974","wikidata":"https://www.wikidata.org/wiki/Q569965","display_name":"Audiology","level":1,"score":0.0},{"id":"https://openalex.org/C86803240","wikidata":"https://www.wikidata.org/wiki/Q420","display_name":"Biology","level":0,"score":0.0}],"mesh":[],"locations_count":2,"locations":[{"id":"doi:10.21437/eurospeech.2003-252","is_oa":false,"landing_page_url":"https://doi.org/10.21437/eurospeech.2003-252","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"8th European Conference on Speech Communication and Technology (Eurospeech 2003)","raw_type":"proceedings-article"},{"id":"pmh:oai:CiteSeerX.psu:10.1.1.70.2547","is_oa":false,"landing_page_url":"http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.70.2547","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"http://medi.uni-oldenburg.de/members/michael/papers/Nix_Eurospeech_2003.pdf","raw_type":"text"}],"best_oa_location":null,"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/16","score":0.5400000214576721,"display_name":"Peace, Justice and strong institutions"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":10,"referenced_works":["https://openalex.org/W95577512","https://openalex.org/W151101244","https://openalex.org/W1564078726","https://openalex.org/W1575829986","https://openalex.org/W1974965325","https://openalex.org/W2108668360","https://openalex.org/W2160337655","https://openalex.org/W2404549179","https://openalex.org/W2478203769","https://openalex.org/W2499701981"],"related_works":["https://openalex.org/W3199891340","https://openalex.org/W1567098080","https://openalex.org/W2051363478","https://openalex.org/W1539684593","https://openalex.org/W1996379799","https://openalex.org/W2759822254","https://openalex.org/W2004648780","https://openalex.org/W2076931986","https://openalex.org/W2474557191","https://openalex.org/W7819095"],"abstract_inverted_index":{"A":[0,45],"main":[1],"task":[2],"for":[3,40,92,169],"computational":[4],"auditory":[5,43],"scene":[6],"analysis":[7],"(CASA)":[8],"is":[9,19,48,71,112,128,140,167,182,192],"to":[10,114,142,173,195],"separate":[11,196],"several":[12],"concurrent":[13],"speech":[14],"sources.":[15],"From":[16],"psychoacoustics":[17],"it":[18,181],"known":[20],"that":[21,51,109],"common":[22,24],"onsets,":[23],"amplitude":[25],"modulation":[26],"and":[27,65,80,84,97,147,201],"sound":[28,94,118],"source":[29,95],"direction":[30,85,96],"are":[31,104],"among":[32],"the":[33,38,41,99,110,138,144,148],"important":[34],"cues":[35],"which":[36,62],"allow":[37],"separation":[39],"human":[42],"system.":[44],"new":[46],"algorithm":[47,111,139,162],"presented":[49,163],"here,":[50],"performs":[52],"statistical":[53],"estimation":[54],"of":[55,68,101,124,135,152,159],"different":[56],"sources":[57,119],"by":[58,130],"a":[59,74,87,121,156],"state-space":[60],"approach":[61],"integrates":[63],"temporal":[64],"frequency-specific":[66],"features":[67],"speech.":[69,136],"It":[70,191],"based":[72,183],"on":[73,86,155,184],"Sequential":[75],"Monte":[76],"Carlo":[77],"(SMC)":[78],"scheme":[79],"tracks":[81],"magnitude":[82,150],"spectra":[83,151],"frame-by-frame":[88],"basis.":[89],"First":[90],"results":[91,107],"estimating":[93],"separating":[98],"envelopes":[100],"two":[102,116,185,199],"voices":[103,154,200],"shown.":[105],"The":[106,161],"indicate":[108],"able":[113,141,194],"localize":[115],"superimposed":[117],"in":[120,164,175],"time":[122,157],"scale":[123,158],"50":[125],"ms.":[126],"This":[127],"achieved":[129],"integrating":[131],"measured":[132],"high-dimensional":[133],"statistics":[134],"Also,":[137],"track":[143],"short-time":[145,149],"envelope":[146],"both":[153],"10-40ms.":[160],"this":[165],"paper":[166],"developed":[168],"but":[170],"not":[171],"restricted":[172],"use":[174],"binaural":[176],"hearing":[177],"aid":[178],"applications,":[179],"as":[180,189],"head-mounted":[186],"microphone":[187],"signals":[188],"input.":[190],"conceptionally":[193],"more":[197],"than":[198],"integrate":[202],"additional":[203],"cues.":[204],"1.":[205]},"counts_by_year":[{"year":2022,"cited_by_count":1},{"year":2016,"cited_by_count":1}],"updated_date":"2026-06-26T08:34:08.712188","created_date":"2025-10-10T00:00:00"}