{"id":"https://openalex.org/W2121652828","doi":"https://doi.org/10.1109/icassp.2003.1198912","title":"Hybrid HMM/BN LVCSR system integrating multiple acoustic features","display_name":"Hybrid HMM/BN LVCSR system integrating multiple acoustic features","publication_year":2003,"publication_date":"2003-11-21","ids":{"openalex":"https://openalex.org/W2121652828","doi":"https://doi.org/10.1109/icassp.2003.1198912","mag":"2121652828"},"language":"en","primary_location":{"id":"doi:10.1109/icassp.2003.1198912","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icassp.2003.1198912","pdf_url":null,"source":{"id":"https://openalex.org/S4363608982","display_name":"2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings. (ICASSP '03).","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings. (ICASSP '03).","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5039443541","display_name":"Konstantin Markov","orcid":"https://orcid.org/0000-0003-1838-4789"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"K. Markov","raw_affiliation_strings":["ATR Spoken Language Translation Research Laboratories, Keihanna Science City, Kyoto, Japan","ATR Spoken Language Translation Res. Labs., Kyoto, Japan"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"ATR Spoken Language Translation Research Laboratories, Keihanna Science City, Kyoto, Japan","institution_ids":[]},{"raw_affiliation_string":"ATR Spoken Language Translation Res. Labs., Kyoto, Japan","institution_ids":[]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5020994673","display_name":"Satoshi Nakamura","orcid":"https://orcid.org/0000-0001-6956-3803"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"S. Nakamura","raw_affiliation_strings":["ATR Spoken Language Translation Research Laboratories, Keihanna Science City, Kyoto, Japan","ATR Spoken Language Translation Res. Labs., Kyoto, Japan"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"ATR Spoken Language Translation Research Laboratories, Keihanna Science City, Kyoto, Japan","institution_ids":[]},{"raw_affiliation_string":"ATR Spoken Language Translation Res. Labs., Kyoto, Japan","institution_ids":[]}]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":1.6687,"has_fulltext":false,"cited_by_count":6,"citation_normalized_percentile":{"value":0.83880903,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":"1","issue":null,"first_page":"I","last_page":"840"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9958000183105469,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9958000183105469,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10181","display_name":"Natural Language Processing Techniques","score":0.9735000133514404,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.9603000283241272,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/hidden-markov-model","display_name":"Hidden Markov model","score":0.9463590383529663},{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.7665877342224121},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7643395662307739},{"id":"https://openalex.org/keywords/word-error-rate","display_name":"Word error rate","score":0.5881186723709106},{"id":"https://openalex.org/keywords/acoustic-model","display_name":"Acoustic model","score":0.5542892813682556},{"id":"https://openalex.org/keywords/vocabulary","display_name":"Vocabulary","score":0.512701153755188},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.4538390338420868},{"id":"https://openalex.org/keywords/pattern-recognition","display_name":"Pattern recognition (psychology)","score":0.42116838693618774},{"id":"https://openalex.org/keywords/viterbi-algorithm","display_name":"Viterbi algorithm","score":0.4163861572742462},{"id":"https://openalex.org/keywords/dynamic-bayesian-network","display_name":"Dynamic Bayesian network","score":0.41631177067756653},{"id":"https://openalex.org/keywords/bayesian-probability","display_name":"Bayesian probability","score":0.39110249280929565},{"id":"https://openalex.org/keywords/speech-processing","display_name":"Speech processing","score":0.23603489995002747}],"concepts":[{"id":"https://openalex.org/C23224414","wikidata":"https://www.wikidata.org/wiki/Q176769","display_name":"Hidden Markov model","level":2,"score":0.9463590383529663},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.7665877342224121},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7643395662307739},{"id":"https://openalex.org/C40969351","wikidata":"https://www.wikidata.org/wiki/Q3516228","display_name":"Word error rate","level":2,"score":0.5881186723709106},{"id":"https://openalex.org/C155635449","wikidata":"https://www.wikidata.org/wiki/Q4674699","display_name":"Acoustic model","level":3,"score":0.5542892813682556},{"id":"https://openalex.org/C2777601683","wikidata":"https://www.wikidata.org/wiki/Q6499736","display_name":"Vocabulary","level":2,"score":0.512701153755188},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4538390338420868},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.42116838693618774},{"id":"https://openalex.org/C60582962","wikidata":"https://www.wikidata.org/wiki/Q83886","display_name":"Viterbi algorithm","level":3,"score":0.4163861572742462},{"id":"https://openalex.org/C82142266","wikidata":"https://www.wikidata.org/wiki/Q3456604","display_name":"Dynamic Bayesian network","level":3,"score":0.41631177067756653},{"id":"https://openalex.org/C107673813","wikidata":"https://www.wikidata.org/wiki/Q812534","display_name":"Bayesian probability","level":2,"score":0.39110249280929565},{"id":"https://openalex.org/C61328038","wikidata":"https://www.wikidata.org/wiki/Q3358061","display_name":"Speech processing","level":2,"score":0.23603489995002747},{"id":"https://openalex.org/C41895202","wikidata":"https://www.wikidata.org/wiki/Q8162","display_name":"Linguistics","level":1,"score":0.0},{"id":"https://openalex.org/C138885662","wikidata":"https://www.wikidata.org/wiki/Q5891","display_name":"Philosophy","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/icassp.2003.1198912","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icassp.2003.1198912","pdf_url":null,"source":{"id":"https://openalex.org/S4363608982","display_name":"2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings. (ICASSP '03).","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings. (ICASSP '03).","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"score":0.550000011920929,"id":"https://metadata.un.org/sdg/4","display_name":"Quality Education"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":17,"referenced_works":["https://openalex.org/W61861356","https://openalex.org/W1483936050","https://openalex.org/W1501622705","https://openalex.org/W1515787640","https://openalex.org/W2102988002","https://openalex.org/W2132439572","https://openalex.org/W2153062564","https://openalex.org/W2166823384","https://openalex.org/W2169189000","https://openalex.org/W2171265988","https://openalex.org/W4297792526","https://openalex.org/W6602465324","https://openalex.org/W6629164921","https://openalex.org/W6630084908","https://openalex.org/W6630943095","https://openalex.org/W6675887388","https://openalex.org/W6682421553"],"related_works":["https://openalex.org/W2136652457","https://openalex.org/W2169849734","https://openalex.org/W2160171981","https://openalex.org/W2116722627","https://openalex.org/W2385954530","https://openalex.org/W1975869217","https://openalex.org/W2236912844","https://openalex.org/W2129150969","https://openalex.org/W2401728283","https://openalex.org/W2383829109"],"abstract_inverted_index":{"In":[0,94,110],"current":[1],"HMM":[2,69,150],"based":[3],"speech":[4,61,76,117],"recognition":[5],"systems,":[6],"it":[7],"is":[8,82,155],"difficult":[9],"to":[10,91,116,145,159],"supplement":[11],"acoustic":[12,66,101,151],"spectrum":[13],"features":[14,39],"with":[15,143],"additional":[16],"information":[17],"such":[18],"as":[19],"pitch,":[20],"gender,":[21],"articulator":[22],"positions,":[23],"etc.":[24],"On":[25],"the":[26,92,99,111,146],"other":[27],"hand,":[28],"dynamic":[29],"Bayesian":[30],"networks":[31],"(DBN)":[32],"allow":[33],"for":[34,72],"easy":[35],"combination":[36],"of":[37,43,50,74],"different":[38],"and":[40,78,103,130],"make":[41],"use":[42],"conditional":[44],"dependencies":[45],"between":[46],"them.":[47],"However,":[48],"lack":[49],"efficient":[51],"algorithms":[52],"has":[53,122],"prevented":[54],"their":[55],"application":[56],"in":[57,114],"large":[58],"vocabulary":[59],"continuous":[60],"recognition.":[62],"The":[63],"hybrid":[64],"HMM/BN":[65,100,112,162],"model,":[67,113],"where":[68],"are":[70],"used":[71],"modeling":[73],"temporal":[75],"characteristics":[77],"state":[79,120],"probability":[80],"model":[81,102,152],"represented":[83],"by":[84],"BN,":[85],"provides":[86],"a":[87],"trade":[88],"off":[89],"solution":[90],"problem.":[93],"this":[95,108],"paper":[96],"we":[97],"describe":[98],"LVCSR":[104],"system":[105],"built":[106],"upon":[107],"model.":[109],"addition":[115],"observation":[118],"variable,":[119],"BN":[121],"two":[123],"more":[124],"discrete":[125],"variables":[126],"representing":[127],"speaker":[128],"gender":[129],"pitch":[131],"frequency.":[132],"Evaluation":[133],"results":[134],"on":[135],"WSJ":[136],"database":[137],"showed":[138],"lower":[139],"word":[140],"error":[141],"rate":[142],"respect":[144],"same":[147],"complexity":[148],"conventional":[149],"when":[153],"there":[154],"enough":[156],"training":[157],"data":[158],"estimate":[160],"reliable":[161],"parameters.":[163]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-10-10T00:00:00"}