{"id":"https://openalex.org/W2066339445","doi":"https://doi.org/10.1134/s000511791412008x","title":"An automatic multimodal speech recognition system with audio and video information","display_name":"An automatic multimodal speech recognition system with audio and video information","publication_year":2014,"publication_date":"2014-12-01","ids":{"openalex":"https://openalex.org/W2066339445","doi":"https://doi.org/10.1134/s000511791412008x","mag":"2066339445"},"language":"en","primary_location":{"id":"doi:10.1134/s000511791412008x","is_oa":false,"landing_page_url":"https://doi.org/10.1134/s000511791412008x","pdf_url":null,"source":{"id":"https://openalex.org/S134188425","display_name":"Automation and Remote Control","issn_l":"0005-1179","issn":["0005-1179","1608-3032"],"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/P4310320267","host_organization_name":"Pleiades Publishing","host_organization_lineage":["https://openalex.org/P4310320267","https://openalex.org/P4310319965"],"host_organization_lineage_names":["Pleiades Publishing","Springer Nature"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Automation and Remote Control","raw_type":"journal-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5032870944","display_name":"Alexey Karpov","orcid":"https://orcid.org/0000-0003-3424-652X"},"institutions":[{"id":"https://openalex.org/I173089394","display_name":"ITMO University","ror":"https://ror.org/04txgxn49","country_code":"RU","type":"education","lineage":["https://openalex.org/I173089394"]},{"id":"https://openalex.org/I4210103826","display_name":"St. Petersburg Institute for Informatics and Automation","ror":"https://ror.org/01ccb9w37","country_code":"RU","type":"facility","lineage":["https://openalex.org/I4210103826"]}],"countries":["RU"],"is_corresponding":true,"raw_author_name":"A. A. Karpov","raw_affiliation_strings":["ITMO University, St. Petersburg, Russia","St. Petersburg Institute of Informatics and Automation, Russian Academy of Sciences, St. Petersburg, Russia"],"affiliations":[{"raw_affiliation_string":"ITMO University, St. Petersburg, Russia","institution_ids":["https://openalex.org/I173089394"]},{"raw_affiliation_string":"St. Petersburg Institute of Informatics and Automation, Russian Academy of Sciences, St. Petersburg, Russia","institution_ids":["https://openalex.org/I4210103826"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":["https://openalex.org/A5032870944"],"corresponding_institution_ids":["https://openalex.org/I173089394","https://openalex.org/I4210103826"],"apc_list":null,"apc_paid":null,"fwci":2.0654,"has_fulltext":false,"cited_by_count":19,"citation_normalized_percentile":{"value":0.8751215,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":98},"biblio":{"volume":"75","issue":"12","first_page":"2190","last_page":"2200"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.9997000098228455,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.9997000098228455,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.996399998664856,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.9922999739646912,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.8072535991668701},{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.7376272082328796},{"id":"https://openalex.org/keywords/audio-mining","display_name":"Audio mining","score":0.7343072891235352},{"id":"https://openalex.org/keywords/hidden-markov-model","display_name":"Hidden Markov model","score":0.6869591474533081},{"id":"https://openalex.org/keywords/microphone","display_name":"Microphone","score":0.6810789704322815},{"id":"https://openalex.org/keywords/acoustic-model","display_name":"Acoustic model","score":0.5047060251235962},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.4703785479068756},{"id":"https://openalex.org/keywords/parametric-statistics","display_name":"Parametric statistics","score":0.4695608913898468},{"id":"https://openalex.org/keywords/speech-analytics","display_name":"Speech analytics","score":0.45312124490737915},{"id":"https://openalex.org/keywords/probabilistic-logic","display_name":"Probabilistic logic","score":0.4447943866252899},{"id":"https://openalex.org/keywords/speech-processing","display_name":"Speech processing","score":0.44120508432388306},{"id":"https://openalex.org/keywords/software","display_name":"Software","score":0.4380704462528229}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.8072535991668701},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.7376272082328796},{"id":"https://openalex.org/C157968479","wikidata":"https://www.wikidata.org/wiki/Q3079876","display_name":"Audio mining","level":4,"score":0.7343072891235352},{"id":"https://openalex.org/C23224414","wikidata":"https://www.wikidata.org/wiki/Q176769","display_name":"Hidden Markov model","level":2,"score":0.6869591474533081},{"id":"https://openalex.org/C2778263558","wikidata":"https://www.wikidata.org/wiki/Q46384","display_name":"Microphone","level":3,"score":0.6810789704322815},{"id":"https://openalex.org/C155635449","wikidata":"https://www.wikidata.org/wiki/Q4674699","display_name":"Acoustic model","level":3,"score":0.5047060251235962},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4703785479068756},{"id":"https://openalex.org/C117251300","wikidata":"https://www.wikidata.org/wiki/Q1849855","display_name":"Parametric statistics","level":2,"score":0.4695608913898468},{"id":"https://openalex.org/C54953205","wikidata":"https://www.wikidata.org/wiki/Q4142201","display_name":"Speech analytics","level":4,"score":0.45312124490737915},{"id":"https://openalex.org/C49937458","wikidata":"https://www.wikidata.org/wiki/Q2599292","display_name":"Probabilistic logic","level":2,"score":0.4447943866252899},{"id":"https://openalex.org/C61328038","wikidata":"https://www.wikidata.org/wiki/Q3358061","display_name":"Speech processing","level":2,"score":0.44120508432388306},{"id":"https://openalex.org/C2777904410","wikidata":"https://www.wikidata.org/wiki/Q7397","display_name":"Software","level":2,"score":0.4380704462528229},{"id":"https://openalex.org/C68115822","wikidata":"https://www.wikidata.org/wiki/Q1068172","display_name":"Sound pressure","level":2,"score":0.0},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.0},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.0},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.0},{"id":"https://openalex.org/C76155785","wikidata":"https://www.wikidata.org/wiki/Q418","display_name":"Telecommunications","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1134/s000511791412008x","is_oa":false,"landing_page_url":"https://doi.org/10.1134/s000511791412008x","pdf_url":null,"source":{"id":"https://openalex.org/S134188425","display_name":"Automation and Remote Control","issn_l":"0005-1179","issn":["0005-1179","1608-3032"],"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/P4310320267","host_organization_name":"Pleiades Publishing","host_organization_lineage":["https://openalex.org/P4310320267","https://openalex.org/P4310319965"],"host_organization_lineage_names":["Pleiades Publishing","Springer Nature"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Automation and Remote Control","raw_type":"journal-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":15,"referenced_works":["https://openalex.org/W88081813","https://openalex.org/W1647671624","https://openalex.org/W1964822888","https://openalex.org/W2000442104","https://openalex.org/W2011848425","https://openalex.org/W2079637642","https://openalex.org/W2098562545","https://openalex.org/W2107223151","https://openalex.org/W2112348857","https://openalex.org/W2133115605","https://openalex.org/W2164450870","https://openalex.org/W2568428461","https://openalex.org/W4210849719","https://openalex.org/W4241996261","https://openalex.org/W6603616073"],"related_works":["https://openalex.org/W2066339445","https://openalex.org/W3089379469","https://openalex.org/W2110852049","https://openalex.org/W2314526909","https://openalex.org/W1909057534","https://openalex.org/W4252420990","https://openalex.org/W99806001","https://openalex.org/W2497106782","https://openalex.org/W2329224863","https://openalex.org/W2919123506"],"abstract_inverted_index":{"The":[0,33],"mathematical":[1],"model":[2],"and":[3,19,27,55,59,78],"software":[4],"implementation":[5],"of":[6,16,21,35,38,62,71,80],"an":[7],"automatic":[8,82],"Russian":[9,73],"speech":[10,40,57,74],"recognition":[11,70],"system":[12],"that":[13],"employs":[14],"techniques":[15],"digital":[17],"processing":[18],"analysis":[20],"audiovisual":[22,39],"signals":[23,63],"from":[24],"a":[25,28],"microphone":[26],"video":[29,56],"camera":[30],"are":[31],"presented.":[32],"description":[34],"probabilistic":[36],"modeling":[37],"based":[41],"on":[42],"coupled":[43],"hidden":[44],"Markov":[45],"models,":[46],"information":[47],"fusion":[48],"methods":[49],"with":[50],"weight":[51],"coefficients":[52],"for":[53],"audio":[54],"modalities,":[58],"parametric":[60],"representation":[61],"is":[64],"provided.":[65],"Quantitative":[66],"results":[67],"in":[68],"multimodal":[69],"continuous":[72],"indicate":[75],"high":[76],"accuracy":[77],"reliability":[79],"the":[81],"system.":[83]},"counts_by_year":[{"year":2022,"cited_by_count":1},{"year":2021,"cited_by_count":1},{"year":2020,"cited_by_count":1},{"year":2019,"cited_by_count":4},{"year":2018,"cited_by_count":5},{"year":2017,"cited_by_count":4},{"year":2016,"cited_by_count":2},{"year":2015,"cited_by_count":1}],"updated_date":"2026-03-16T07:19:36.451410","created_date":"2025-10-10T00:00:00"}