{"id":"https://openalex.org/W2170796342","doi":"https://doi.org/10.1117/12.2197152","title":"Continuous speech recognition based on convolutional neural network","display_name":"Continuous speech recognition based on convolutional neural network","publication_year":2015,"publication_date":"2015-07-02","ids":{"openalex":"https://openalex.org/W2170796342","doi":"https://doi.org/10.1117/12.2197152","mag":"2170796342"},"language":"en","primary_location":{"id":"doi:10.1117/12.2197152","is_oa":false,"landing_page_url":"https://doi.org/10.1117/12.2197152","pdf_url":null,"source":{"id":"https://openalex.org/S183492911","display_name":"Proceedings of SPIE, the International Society for Optical Engineering/Proceedings of SPIE","issn_l":"0277-786X","issn":["0277-786X","1996-756X"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310315543","host_organization_name":"SPIE","host_organization_lineage":["https://openalex.org/P4310315543"],"host_organization_lineage_names":["SPIE"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"SPIE Proceedings","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5100375544","display_name":"Qingqing Zhang","orcid":"https://orcid.org/0000-0002-5507-466X"},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Qing-qing Zhang","raw_affiliation_strings":["Key Lab. of Speech Acoustics and Content Understanding (China)"],"affiliations":[{"raw_affiliation_string":"Key Lab. of Speech Acoustics and Content Understanding (China)","institution_ids":[]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5028071674","display_name":"Yong Liu","orcid":"https://orcid.org/0000-0002-6739-621X"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yong Liu","raw_affiliation_strings":["Key Lab. of Speech Acoustics and Content Understanding (China)"],"affiliations":[{"raw_affiliation_string":"Key Lab. of Speech Acoustics and Content Understanding (China)","institution_ids":[]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5111847664","display_name":"Jielin Pan","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Jie-lin Pan","raw_affiliation_strings":["Key Lab. of Speech Acoustics and Content Understanding (China)"],"affiliations":[{"raw_affiliation_string":"Key Lab. of Speech Acoustics and Content Understanding (China)","institution_ids":[]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5100425112","display_name":"Yonghong Yan","orcid":"https://orcid.org/0000-0001-6907-5770"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yong-hong Yan","raw_affiliation_strings":["Key Lab. of Speech Acoustics and Content Understanding (China)"],"affiliations":[{"raw_affiliation_string":"Key Lab. of Speech Acoustics and Content Understanding (China)","institution_ids":[]}]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":4,"corresponding_author_ids":["https://openalex.org/A5100375544"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.8629,"has_fulltext":false,"cited_by_count":7,"citation_normalized_percentile":{"value":0.82534766,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":96},"biblio":{"volume":"9631","issue":null,"first_page":"963121","last_page":"963121"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.9966999888420105,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.9945999979972839,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/timit","display_name":"TIMIT","score":0.8793011903762817},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.8114508390426636},{"id":"https://openalex.org/keywords/convolutional-neural-network","display_name":"Convolutional neural network","score":0.7853725552558899},{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.772153377532959},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.555252730846405},{"id":"https://openalex.org/keywords/pattern-recognition","display_name":"Pattern recognition (psychology)","score":0.453428715467453},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.44537806510925293},{"id":"https://openalex.org/keywords/speech-processing","display_name":"Speech processing","score":0.42430227994918823},{"id":"https://openalex.org/keywords/deep-learning","display_name":"Deep learning","score":0.41732296347618103},{"id":"https://openalex.org/keywords/deep-neural-networks","display_name":"Deep neural networks","score":0.4104160964488983},{"id":"https://openalex.org/keywords/hidden-markov-model","display_name":"Hidden Markov model","score":0.29290592670440674}],"concepts":[{"id":"https://openalex.org/C2778724510","wikidata":"https://www.wikidata.org/wiki/Q7670405","display_name":"TIMIT","level":3,"score":0.8793011903762817},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.8114508390426636},{"id":"https://openalex.org/C81363708","wikidata":"https://www.wikidata.org/wiki/Q17084460","display_name":"Convolutional neural network","level":2,"score":0.7853725552558899},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.772153377532959},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.555252730846405},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.453428715467453},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.44537806510925293},{"id":"https://openalex.org/C61328038","wikidata":"https://www.wikidata.org/wiki/Q3358061","display_name":"Speech processing","level":2,"score":0.42430227994918823},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.41732296347618103},{"id":"https://openalex.org/C2984842247","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep neural networks","level":3,"score":0.4104160964488983},{"id":"https://openalex.org/C23224414","wikidata":"https://www.wikidata.org/wiki/Q176769","display_name":"Hidden Markov model","level":2,"score":0.29290592670440674}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1117/12.2197152","is_oa":false,"landing_page_url":"https://doi.org/10.1117/12.2197152","pdf_url":null,"source":{"id":"https://openalex.org/S183492911","display_name":"Proceedings of SPIE, the International Society for Optical Engineering/Proceedings of SPIE","issn_l":"0277-786X","issn":["0277-786X","1996-756X"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310315543","host_organization_name":"SPIE","host_organization_lineage":["https://openalex.org/P4310315543"],"host_organization_lineage_names":["SPIE"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"SPIE Proceedings","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":8,"referenced_works":["https://openalex.org/W1538131130","https://openalex.org/W2046899276","https://openalex.org/W2124173482","https://openalex.org/W2134557905","https://openalex.org/W2147768505","https://openalex.org/W2155273149","https://openalex.org/W2160815625","https://openalex.org/W6632100814"],"related_works":["https://openalex.org/W4226493464","https://openalex.org/W4312417841","https://openalex.org/W3193565141","https://openalex.org/W3133861977","https://openalex.org/W3167935049","https://openalex.org/W3029198973","https://openalex.org/W4377865163","https://openalex.org/W2592921646","https://openalex.org/W3193857078","https://openalex.org/W1694601526"],"abstract_inverted_index":{"Convolutional":[0],"Neural":[1,28],"Networks":[2,29],"(CNNs),":[3],"which":[4,31],"showed":[5,68],"success":[6],"in":[7,22,38,73],"achieving":[8],"translation":[9],"invariance":[10],"for":[11,18],"many":[12,39],"image":[13],"processing":[14],"tasks,":[15],"are":[16],"investigated":[17],"continuous":[19],"speech":[20,40,65],"recognitions":[21],"the":[23,47,54,74,77],"paper.":[24],"Compared":[25],"to":[26,35],"Deep":[27],"(DNNs),":[30],"have":[32],"been":[33],"proven":[34],"be":[36],"successful":[37],"recognition":[41,60],"tasks":[42],"nowadays,":[43],"CNNs":[44,70,80],"can":[45],"reduce":[46],"NN":[48],"model":[49,84],"sizes":[50],"significantly,":[51],"and":[52],"at":[53],"same":[55],"time":[56],"achieve":[57],"even":[58,82],"better":[59],"accuracies.":[61],"Experiments":[62],"on":[63],"standard":[64],"corpus":[66],"TIMIT":[67],"that":[69],"outperformed":[71],"DNNs":[72],"term":[75],"of":[76],"accuracy":[78],"when":[79],"had":[81],"smaller":[83],"size.":[85]},"counts_by_year":[{"year":2021,"cited_by_count":2},{"year":2020,"cited_by_count":1},{"year":2019,"cited_by_count":2},{"year":2018,"cited_by_count":2}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}