{"id":"https://openalex.org/W2016067832","doi":"https://doi.org/10.1155/2007/64506","title":"Audio-Visual Speech Recognition Using Lip Information Extracted from Side-Face Images","display_name":"Audio-Visual Speech Recognition Using Lip Information Extracted from Side-Face Images","publication_year":2007,"publication_date":"2007-01-01","ids":{"openalex":"https://openalex.org/W2016067832","doi":"https://doi.org/10.1155/2007/64506","mag":"2016067832"},"language":"en","primary_location":{"id":"doi:10.1155/2007/64506","is_oa":true,"landing_page_url":"https://doi.org/10.1155/2007/64506","pdf_url":null,"source":{"id":"https://openalex.org/S19605986","display_name":"EURASIP Journal on Audio Speech and Music Processing","issn_l":"1687-4714","issn":["1687-4714","1687-4722"],"is_oa":true,"is_in_doaj":true,"is_core":true,"host_organization":"https://openalex.org/P4310319965","host_organization_name":"Springer Nature","host_organization_lineage":["https://openalex.org/P4310319965"],"host_organization_lineage_names":["Springer Nature"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"EURASIP Journal on Audio, Speech, and Music Processing","raw_type":"journal-article"},"type":"article","indexed_in":["crossref","doaj"],"open_access":{"is_oa":true,"oa_status":"gold","oa_url":"https://doi.org/10.1155/2007/64506","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5084374665","display_name":"Koji Iwano","orcid":"https://orcid.org/0000-0002-7373-5353"},"institutions":[{"id":"https://openalex.org/I114531698","display_name":"Tokyo Institute of Technology","ror":"https://ror.org/0112mx960","country_code":"JP","type":"education","lineage":["https://openalex.org/I114531698"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Koji Iwano","raw_affiliation_strings":["Department of Computer Science, Tokyo Institute of Technology, Meguro-ku, Tokyo, Japan"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Department of Computer Science, Tokyo Institute of Technology, Meguro-ku, Tokyo, Japan","institution_ids":["https://openalex.org/I114531698"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5000026760","display_name":"Tomoaki Yoshinaga","orcid":"https://orcid.org/0000-0003-1975-6273"},"institutions":[{"id":"https://openalex.org/I114531698","display_name":"Tokyo Institute of Technology","ror":"https://ror.org/0112mx960","country_code":"JP","type":"education","lineage":["https://openalex.org/I114531698"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Tomoaki Yoshinaga","raw_affiliation_strings":["Department of Computer Science, Tokyo Institute of Technology, Meguro-ku, Tokyo, Japan"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Department of Computer Science, Tokyo Institute of Technology, Meguro-ku, Tokyo, Japan","institution_ids":["https://openalex.org/I114531698"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5101808735","display_name":"Satoshi Tamura","orcid":"https://orcid.org/0000-0001-6916-4618"},"institutions":[{"id":"https://openalex.org/I114531698","display_name":"Tokyo Institute of Technology","ror":"https://ror.org/0112mx960","country_code":"JP","type":"education","lineage":["https://openalex.org/I114531698"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Satoshi Tamura","raw_affiliation_strings":["Department of Computer Science, Tokyo Institute of Technology, Meguro-ku, Tokyo, Japan"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Department of Computer Science, Tokyo Institute of Technology, Meguro-ku, Tokyo, Japan","institution_ids":["https://openalex.org/I114531698"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5009532108","display_name":"Sadaoki Furui","orcid":null},"institutions":[{"id":"https://openalex.org/I114531698","display_name":"Tokyo Institute of Technology","ror":"https://ror.org/0112mx960","country_code":"JP","type":"education","lineage":["https://openalex.org/I114531698"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Sadaoki Furui","raw_affiliation_strings":["Department of Computer Science, Tokyo Institute of Technology, Meguro-ku, Tokyo, Japan"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Department of Computer Science, Tokyo Institute of Technology, Meguro-ku, Tokyo, Japan","institution_ids":["https://openalex.org/I114531698"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I114531698"],"apc_list":{"value":1115,"currency":"GBP","value_usd":1367},"apc_paid":{"value":1115,"currency":"GBP","value_usd":1367},"fwci":2.9281,"has_fulltext":false,"cited_by_count":39,"citation_normalized_percentile":{"value":0.91278984,"is_in_top_1_percent":false,"is_in_top_10_percent":true},"cited_by_percentile_year":{"min":89,"max":98},"biblio":{"volume":"2007","issue":null,"first_page":"1","last_page":"9"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":1.0,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":1.0,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9958999752998352,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T13289","display_name":"Infant Health and Development","score":0.9905999898910522,"subfield":{"id":"https://openalex.org/subfields/3611","display_name":"Pharmacy"},"field":{"id":"https://openalex.org/fields/36","display_name":"Health Professions"},"domain":{"id":"https://openalex.org/domains/4","display_name":"Health Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6250805854797363},{"id":"https://openalex.org/keywords/facial-recognition-system","display_name":"Facial recognition system","score":0.5789673924446106},{"id":"https://openalex.org/keywords/audio-visual","display_name":"Audio visual","score":0.5749532580375671},{"id":"https://openalex.org/keywords/face","display_name":"Face (sociological concept)","score":0.5588513612747192},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.5279504656791687},{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.5250838994979858},{"id":"https://openalex.org/keywords/computer-vision","display_name":"Computer vision","score":0.3782058656215668},{"id":"https://openalex.org/keywords/pattern-recognition","display_name":"Pattern recognition (psychology)","score":0.3588189482688904},{"id":"https://openalex.org/keywords/multimedia","display_name":"Multimedia","score":0.19064292311668396},{"id":"https://openalex.org/keywords/linguistics","display_name":"Linguistics","score":0.08308663964271545}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6250805854797363},{"id":"https://openalex.org/C31510193","wikidata":"https://www.wikidata.org/wiki/Q1192553","display_name":"Facial recognition system","level":3,"score":0.5789673924446106},{"id":"https://openalex.org/C3017588708","wikidata":"https://www.wikidata.org/wiki/Q758901","display_name":"Audio visual","level":2,"score":0.5749532580375671},{"id":"https://openalex.org/C2779304628","wikidata":"https://www.wikidata.org/wiki/Q3503480","display_name":"Face (sociological concept)","level":2,"score":0.5588513612747192},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5279504656791687},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.5250838994979858},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.3782058656215668},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.3588189482688904},{"id":"https://openalex.org/C49774154","wikidata":"https://www.wikidata.org/wiki/Q131765","display_name":"Multimedia","level":1,"score":0.19064292311668396},{"id":"https://openalex.org/C41895202","wikidata":"https://www.wikidata.org/wiki/Q8162","display_name":"Linguistics","level":1,"score":0.08308663964271545},{"id":"https://openalex.org/C138885662","wikidata":"https://www.wikidata.org/wiki/Q5891","display_name":"Philosophy","level":0,"score":0.0}],"mesh":[],"locations_count":3,"locations":[{"id":"doi:10.1155/2007/64506","is_oa":true,"landing_page_url":"https://doi.org/10.1155/2007/64506","pdf_url":null,"source":{"id":"https://openalex.org/S19605986","display_name":"EURASIP Journal on Audio Speech and Music Processing","issn_l":"1687-4714","issn":["1687-4714","1687-4722"],"is_oa":true,"is_in_doaj":true,"is_core":true,"host_organization":"https://openalex.org/P4310319965","host_organization_name":"Springer Nature","host_organization_lineage":["https://openalex.org/P4310319965"],"host_organization_lineage_names":["Springer Nature"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"EURASIP Journal on Audio, Speech, and Music Processing","raw_type":"journal-article"},{"id":"pmh:oai:doaj.org/article:08c512c2732947368803fa4b39d4656e","is_oa":true,"landing_page_url":"https://doaj.org/article/08c512c2732947368803fa4b39d4656e","pdf_url":null,"source":{"id":"https://openalex.org/S4306401280","display_name":"DOAJ (DOAJ: Directory of Open Access Journals)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by-sa","license_id":"https://openalex.org/licenses/cc-by-sa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"EURASIP Journal on Audio, Speech, and Music Processing, Vol 2007 (2007)","raw_type":"article"},{"id":"pmh:oai:t2r2.star.titech.ac.jp:50013509","is_oa":false,"landing_page_url":"http://t2r2.star.titech.ac.jp/cgi-bin/publicationinfo.cgi?q_publication_content_number=CTT100548662","pdf_url":null,"source":{"id":"https://openalex.org/S4377196385","display_name":"Tokyo Tech Research Repository (Tokyo Institute of Technology)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I114531698","host_organization_name":"Tokyo Institute of Technology","host_organization_lineage":["https://openalex.org/I114531698"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"","raw_type":"Journal Article"}],"best_oa_location":{"id":"doi:10.1155/2007/64506","is_oa":true,"landing_page_url":"https://doi.org/10.1155/2007/64506","pdf_url":null,"source":{"id":"https://openalex.org/S19605986","display_name":"EURASIP Journal on Audio Speech and Music Processing","issn_l":"1687-4714","issn":["1687-4714","1687-4722"],"is_oa":true,"is_in_doaj":true,"is_core":true,"host_organization":"https://openalex.org/P4310319965","host_organization_name":"Springer Nature","host_organization_lineage":["https://openalex.org/P4310319965"],"host_organization_lineage_names":["Springer Nature"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"EURASIP Journal on Audio, Speech, and Music Processing","raw_type":"journal-article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":20,"referenced_works":["https://openalex.org/W11855449","https://openalex.org/W98035269","https://openalex.org/W124434589","https://openalex.org/W1516742535","https://openalex.org/W1571194703","https://openalex.org/W1580963329","https://openalex.org/W1988074515","https://openalex.org/W2004143321","https://openalex.org/W2102863932","https://openalex.org/W2108101067","https://openalex.org/W2121486117","https://openalex.org/W2124174353","https://openalex.org/W2132217089","https://openalex.org/W2146871184","https://openalex.org/W2150444217","https://openalex.org/W2157190406","https://openalex.org/W2254457717","https://openalex.org/W2484433262","https://openalex.org/W2751023760","https://openalex.org/W3099202502"],"related_works":["https://openalex.org/W2271369634","https://openalex.org/W2350550760","https://openalex.org/W578794879","https://openalex.org/W2074916782","https://openalex.org/W2625296515","https://openalex.org/W3137890128","https://openalex.org/W4245955731","https://openalex.org/W2347824352","https://openalex.org/W2098693229","https://openalex.org/W2384651879"],"abstract_inverted_index":{"This":[0],"paper":[1],"proposes":[2],"an":[3,16],"audio-visual":[4],"speech":[5,88],"recognition":[6],"method":[7,27],"using":[8,35,84,108],"lip":[9,30,47],"information":[10,111],"extracted":[11],"from":[12],"side-face":[13],"images":[14,31],"as":[15],"attempt":[17],"to":[18,121,131],"increase":[19],"noise":[20,92,132],"robustness":[21],"in":[22,40,61,93,112],"mobile":[23],"environments.":[24],"Our":[25],"proposed":[26,101],"assumes":[28],"that":[29],"can":[32],"be":[33,122],"captured":[34],"a":[36,41],"small":[37],"camera":[38],"installed":[39],"handset.":[42],"Two":[43],"different":[44],"kinds":[45],"of":[46,99],"features,":[48,55],"lip-contour":[49],"geometric":[50],"features":[51,73,118],"and":[52,71],"lip-motion":[53],"velocity":[54],"are":[56,74],"used":[57],"individually":[58],"or":[59],"jointly,":[60],"combination":[62],"with":[63,90],"audio":[64,70,127],"features.":[65],"Phoneme":[66],"HMMs":[67],"modeling":[68],"the":[69,78,100,109,126,134],"visual":[72,110,117],"built":[75],"based":[76],"on":[77],"multistream":[79],"HMM":[80,128],"technique.":[81],"Experiments":[82],"conducted":[83],"Japanese":[85],"connected":[86],"digit":[87],"contaminated":[89],"white":[91],"various":[94],"SNR":[95,114],"conditions":[96],"show":[97],"effectiveness":[98],"method.":[102,136],"Recognition":[103],"accuracy":[104],"is":[105],"improved":[106],"by":[107,133],"all":[113],"conditions.":[115],"These":[116],"were":[119],"confirmed":[120],"effective":[123],"even":[124],"when":[125],"was":[129],"adapted":[130],"MLLR":[135]},"counts_by_year":[{"year":2025,"cited_by_count":3},{"year":2024,"cited_by_count":2},{"year":2022,"cited_by_count":2},{"year":2021,"cited_by_count":1},{"year":2018,"cited_by_count":4},{"year":2017,"cited_by_count":2},{"year":2016,"cited_by_count":1},{"year":2015,"cited_by_count":3},{"year":2014,"cited_by_count":2},{"year":2013,"cited_by_count":1},{"year":2012,"cited_by_count":4}],"updated_date":"2026-06-26T08:34:08.712188","created_date":"2025-10-10T00:00:00"}