{"id":"https://openalex.org/W2103648052","doi":"https://doi.org/10.1109/icassp.2005.1415210","title":"Modeling Successive Frame Dependencies with Hybrid HMM/BN Acoustic Model","display_name":"Modeling Successive Frame Dependencies with Hybrid HMM/BN Acoustic Model","publication_year":2006,"publication_date":"2006-10-11","ids":{"openalex":"https://openalex.org/W2103648052","doi":"https://doi.org/10.1109/icassp.2005.1415210","mag":"2103648052"},"language":"en","primary_location":{"id":"doi:10.1109/icassp.2005.1415210","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icassp.2005.1415210","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings. (ICASSP '05). IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005.","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5039443541","display_name":"Konstantin Markov","orcid":"https://orcid.org/0000-0003-1838-4789"},"institutions":[{"id":"https://openalex.org/I4210104143","display_name":"Advanced Telecommunications Research Institute International","ror":"https://ror.org/01pe1d703","country_code":"JP","type":"facility","lineage":["https://openalex.org/I4210104143"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"K. Markov","raw_affiliation_strings":["Department of Acoustics and Speech Research, Spoken Language Translation Research Laboratories, Advanced Telecommunications Research Institute International, Kyoto, Japan","Dept. of Acoust. & Speech Res., Adv. Telecommun. Res. Inst. Int., Kyoto, Japan"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Department of Acoustics and Speech Research, Spoken Language Translation Research Laboratories, Advanced Telecommunications Research Institute International, Kyoto, Japan","institution_ids":["https://openalex.org/I4210104143"]},{"raw_affiliation_string":"Dept. of Acoust. & Speech Res., Adv. Telecommun. Res. Inst. Int., Kyoto, Japan","institution_ids":["https://openalex.org/I4210104143"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5020994673","display_name":"Satoshi Nakamura","orcid":"https://orcid.org/0000-0001-6956-3803"},"institutions":[{"id":"https://openalex.org/I4210104143","display_name":"Advanced Telecommunications Research Institute International","ror":"https://ror.org/01pe1d703","country_code":"JP","type":"facility","lineage":["https://openalex.org/I4210104143"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"S. Nakamura","raw_affiliation_strings":["Department of Acoustics and Speech Research, Spoken Language Translation Research Laboratories, Advanced Telecommunications Research Institute International, Kyoto, Japan","Dept. of Acoust. & Speech Res., Adv. Telecommun. Res. Inst. Int., Kyoto, Japan"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Department of Acoustics and Speech Research, Spoken Language Translation Research Laboratories, Advanced Telecommunications Research Institute International, Kyoto, Japan","institution_ids":["https://openalex.org/I4210104143"]},{"raw_affiliation_string":"Dept. of Acoust. & Speech Res., Adv. Telecommun. Res. Inst. Int., Kyoto, Japan","institution_ids":["https://openalex.org/I4210104143"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":2.3314,"has_fulltext":false,"cited_by_count":5,"citation_normalized_percentile":{"value":0.89513195,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":"1","issue":null,"first_page":"701","last_page":"704"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9997000098228455,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9997000098228455,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10181","display_name":"Natural Language Processing Techniques","score":0.989300012588501,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.9854000210762024,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/hidden-markov-model","display_name":"Hidden Markov model","score":0.9283275604248047},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7147530913352966},{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.6916590929031372},{"id":"https://openalex.org/keywords/feature-vector","display_name":"Feature vector","score":0.6066468358039856},{"id":"https://openalex.org/keywords/dependency","display_name":"Dependency (UML)","score":0.571656346321106},{"id":"https://openalex.org/keywords/pattern-recognition","display_name":"Pattern recognition (psychology)","score":0.563893735408783},{"id":"https://openalex.org/keywords/feature","display_name":"Feature (linguistics)","score":0.5502141714096069},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.5039567351341248},{"id":"https://openalex.org/keywords/mixture-model","display_name":"Mixture model","score":0.4683002531528473},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.4273890256881714},{"id":"https://openalex.org/keywords/acoustic-model","display_name":"Acoustic model","score":0.41948258876800537},{"id":"https://openalex.org/keywords/frame","display_name":"Frame (networking)","score":0.4143046736717224},{"id":"https://openalex.org/keywords/speech-processing","display_name":"Speech processing","score":0.2792382836341858}],"concepts":[{"id":"https://openalex.org/C23224414","wikidata":"https://www.wikidata.org/wiki/Q176769","display_name":"Hidden Markov model","level":2,"score":0.9283275604248047},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7147530913352966},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.6916590929031372},{"id":"https://openalex.org/C83665646","wikidata":"https://www.wikidata.org/wiki/Q42139305","display_name":"Feature vector","level":2,"score":0.6066468358039856},{"id":"https://openalex.org/C19768560","wikidata":"https://www.wikidata.org/wiki/Q320727","display_name":"Dependency (UML)","level":2,"score":0.571656346321106},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.563893735408783},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.5502141714096069},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5039567351341248},{"id":"https://openalex.org/C61224824","wikidata":"https://www.wikidata.org/wiki/Q2260434","display_name":"Mixture model","level":2,"score":0.4683002531528473},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.4273890256881714},{"id":"https://openalex.org/C155635449","wikidata":"https://www.wikidata.org/wiki/Q4674699","display_name":"Acoustic model","level":3,"score":0.41948258876800537},{"id":"https://openalex.org/C126042441","wikidata":"https://www.wikidata.org/wiki/Q1324888","display_name":"Frame (networking)","level":2,"score":0.4143046736717224},{"id":"https://openalex.org/C61328038","wikidata":"https://www.wikidata.org/wiki/Q3358061","display_name":"Speech processing","level":2,"score":0.2792382836341858},{"id":"https://openalex.org/C76155785","wikidata":"https://www.wikidata.org/wiki/Q418","display_name":"Telecommunications","level":1,"score":0.0},{"id":"https://openalex.org/C138885662","wikidata":"https://www.wikidata.org/wiki/Q5891","display_name":"Philosophy","level":0,"score":0.0},{"id":"https://openalex.org/C41895202","wikidata":"https://www.wikidata.org/wiki/Q8162","display_name":"Linguistics","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/icassp.2005.1415210","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icassp.2005.1415210","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings. (ICASSP '05). IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005.","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/4","score":0.46000000834465027,"display_name":"Quality Education"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":19,"referenced_works":["https://openalex.org/W125097753","https://openalex.org/W146926017","https://openalex.org/W1502737068","https://openalex.org/W1564576422","https://openalex.org/W1833981795","https://openalex.org/W1983628629","https://openalex.org/W2020335243","https://openalex.org/W2051347452","https://openalex.org/W2120082522","https://openalex.org/W2121652828","https://openalex.org/W2149073513","https://openalex.org/W2166388645","https://openalex.org/W2171795550","https://openalex.org/W2342418827","https://openalex.org/W2584852661","https://openalex.org/W6605918199","https://openalex.org/W6630013100","https://openalex.org/W6634074778","https://openalex.org/W6678155811"],"related_works":["https://openalex.org/W2364370872","https://openalex.org/W2053269318","https://openalex.org/W4324119469","https://openalex.org/W2164868312","https://openalex.org/W2160650576","https://openalex.org/W2075383893","https://openalex.org/W2121652828","https://openalex.org/W3033124456","https://openalex.org/W2735380212","https://openalex.org/W2018887914"],"abstract_inverted_index":{"Most":[0],"current":[1,51,57,82,140,152],"state-of-the-art":[2],"speech":[3,19,25,83,100,121],"recognition":[4,185,191],"systems":[5],"use":[6],"the":[7,14,22,50,56,78,81,86,91,106,118,130,133,148,151,158,161,201],"hidden":[8],"Markov":[9],"model":[10,178],"(HMM)":[11],"for":[12],"modeling":[13],"acoustical":[15],"characteristics":[16],"of":[17,80,117,129,150],"a":[18,70,113],"signal.":[20],"In":[21,60,193],"first-order":[23],"HMM,":[24],"data":[26],"are":[27,65,124,142,168],"assumed":[28],"to":[29],"be":[30],"independently":[31],"and":[32,89,97,120,132,138,164,186],"identically":[33],"distributed":[34],"(iid),":[35],"meaning":[36],"that":[37,49],"there":[38],"is":[39,48,94,103,110,155],"no":[40],"dependency":[41,79],"between":[42,136],"neighboring":[43],"feature":[44,122,153,166],"vectors.":[45],"Another":[46],"assumption":[47],"vector":[52,84,88,123,154,167],"depends":[53],"only":[54],"on":[55,85,90],"HMM":[58],"state.":[59],"practice,":[61],"however,":[62],"these":[63],"assumptions":[64],"not":[66],"true.":[67],"We":[68,172],"describe":[69],"hybrid":[71,176],"HMM/BN":[72,177],"(Bayesian":[73],"network)":[74],"acoustic":[75],"model,":[76],"where":[77,160],"previous":[87,92,162,165],"state":[93,107,119,163],"also":[95],"learned":[96,143],"used":[98],"in":[99],"recognition.":[101],"This":[102],"possible":[104],"because":[105],"probability":[108],"distribution":[109],"modeled":[111],"by":[112,126,183,187],"BN.":[114],"Previous":[115],"instances":[116,141],"represented":[125],"additional":[127],"variables":[128],"BN":[131,159],"probabilistic":[134],"dependencies":[135],"them,":[137],"their":[139],"during":[144],"training.":[145],"During":[146],"recognition,":[147],"likelihood":[149],"inferred":[156],"from":[157],"treated":[169],"as":[170],"hidden.":[171],"have":[173],"evaluated":[174],"this":[175],"with":[179],"our":[180],"LVCSR":[181],"system":[182],"phoneme":[184],"large-vocabulary":[188],"continuous":[189],"word":[190],"tasks.":[192],"both":[194],"cases,":[195],"we":[196],"observed":[197],"improved":[198],"performance":[199],"over":[200],"conventional":[202],"Gaussian":[203],"mixture":[204],"HMM.":[205]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-10-10T00:00:00"}