{"id":"https://openalex.org/W2889839708","doi":"https://doi.org/10.1109/icip.2018.8451096","title":"Audio-Visual Keyword Spotting Based on Multidimensional Convolutional Neural Network","display_name":"Audio-Visual Keyword Spotting Based on Multidimensional Convolutional Neural Network","publication_year":2018,"publication_date":"2018-09-07","ids":{"openalex":"https://openalex.org/W2889839708","doi":"https://doi.org/10.1109/icip.2018.8451096","mag":"2889839708"},"language":"en","primary_location":{"id":"doi:10.1109/icip.2018.8451096","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icip.2018.8451096","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2018 25th IEEE International Conference on Image Processing (ICIP)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5038044561","display_name":"Runwei Ding","orcid":"https://orcid.org/0000-0003-4987-0405"},"institutions":[{"id":"https://openalex.org/I20231570","display_name":"Peking University","ror":"https://ror.org/02v51f717","country_code":"CN","type":"education","lineage":["https://openalex.org/I20231570"]}],"countries":["CN"],"is_corresponding":true,"raw_author_name":"Runwei Ding","raw_affiliation_strings":["Key Laboratory of Machine Perception, Peking University"],"affiliations":[{"raw_affiliation_string":"Key Laboratory of Machine Perception, Peking University","institution_ids":["https://openalex.org/I20231570"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5101483071","display_name":"Cheng Pang","orcid":"https://orcid.org/0000-0001-9631-3658"},"institutions":[{"id":"https://openalex.org/I20231570","display_name":"Peking University","ror":"https://ror.org/02v51f717","country_code":"CN","type":"education","lineage":["https://openalex.org/I20231570"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Cheng Pang","raw_affiliation_strings":["Key Laboratory of Machine Perception, Peking University"],"affiliations":[{"raw_affiliation_string":"Key Laboratory of Machine Perception, Peking University","institution_ids":["https://openalex.org/I20231570"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5079533791","display_name":"Hong Liu","orcid":"https://orcid.org/0000-0002-2167-9396"},"institutions":[{"id":"https://openalex.org/I20231570","display_name":"Peking University","ror":"https://ror.org/02v51f717","country_code":"CN","type":"education","lineage":["https://openalex.org/I20231570"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Hong Liu","raw_affiliation_strings":["Key Laboratory of Machine Perception, Peking University"],"affiliations":[{"raw_affiliation_string":"Key Laboratory of Machine Perception, Peking University","institution_ids":["https://openalex.org/I20231570"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5038044561"],"corresponding_institution_ids":["https://openalex.org/I20231570"],"apc_list":null,"apc_paid":null,"fwci":1.4863,"has_fulltext":false,"cited_by_count":25,"citation_normalized_percentile":{"value":0.83637207,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":95,"max":98},"biblio":{"volume":null,"issue":null,"first_page":"4138","last_page":"4142"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":1.0,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":1.0,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9980999827384949,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.8334221839904785},{"id":"https://openalex.org/keywords/spectrogram","display_name":"Spectrogram","score":0.7844417691230774},{"id":"https://openalex.org/keywords/audio-visual","display_name":"Audio visual","score":0.7356545925140381},{"id":"https://openalex.org/keywords/keyword-spotting","display_name":"Keyword spotting","score":0.710513174533844},{"id":"https://openalex.org/keywords/convolutional-neural-network","display_name":"Convolutional neural network","score":0.6856666803359985},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.617819607257843},{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.5835480093955994},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.5272979736328125},{"id":"https://openalex.org/keywords/pattern-recognition","display_name":"Pattern recognition (psychology)","score":0.5249728560447693},{"id":"https://openalex.org/keywords/feature","display_name":"Feature (linguistics)","score":0.4951600134372711},{"id":"https://openalex.org/keywords/visualization","display_name":"Visualization","score":0.47269514203071594},{"id":"https://openalex.org/keywords/feature-extraction","display_name":"Feature extraction","score":0.45185649394989014},{"id":"https://openalex.org/keywords/spotting","display_name":"Spotting","score":0.4499928057193756},{"id":"https://openalex.org/keywords/noise","display_name":"Noise (video)","score":0.44796115159988403},{"id":"https://openalex.org/keywords/image","display_name":"Image (mathematics)","score":0.13688138127326965},{"id":"https://openalex.org/keywords/multimedia","display_name":"Multimedia","score":0.08820822834968567}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.8334221839904785},{"id":"https://openalex.org/C45273575","wikidata":"https://www.wikidata.org/wiki/Q578970","display_name":"Spectrogram","level":2,"score":0.7844417691230774},{"id":"https://openalex.org/C3017588708","wikidata":"https://www.wikidata.org/wiki/Q758901","display_name":"Audio visual","level":2,"score":0.7356545925140381},{"id":"https://openalex.org/C2781213101","wikidata":"https://www.wikidata.org/wiki/Q6398558","display_name":"Keyword spotting","level":2,"score":0.710513174533844},{"id":"https://openalex.org/C81363708","wikidata":"https://www.wikidata.org/wiki/Q17084460","display_name":"Convolutional neural network","level":2,"score":0.6856666803359985},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.617819607257843},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.5835480093955994},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.5272979736328125},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.5249728560447693},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.4951600134372711},{"id":"https://openalex.org/C36464697","wikidata":"https://www.wikidata.org/wiki/Q451553","display_name":"Visualization","level":2,"score":0.47269514203071594},{"id":"https://openalex.org/C52622490","wikidata":"https://www.wikidata.org/wiki/Q1026626","display_name":"Feature extraction","level":2,"score":0.45185649394989014},{"id":"https://openalex.org/C2779506182","wikidata":"https://www.wikidata.org/wiki/Q7580141","display_name":"Spotting","level":2,"score":0.4499928057193756},{"id":"https://openalex.org/C99498987","wikidata":"https://www.wikidata.org/wiki/Q2210247","display_name":"Noise (video)","level":3,"score":0.44796115159988403},{"id":"https://openalex.org/C115961682","wikidata":"https://www.wikidata.org/wiki/Q860623","display_name":"Image (mathematics)","level":2,"score":0.13688138127326965},{"id":"https://openalex.org/C49774154","wikidata":"https://www.wikidata.org/wiki/Q131765","display_name":"Multimedia","level":1,"score":0.08820822834968567},{"id":"https://openalex.org/C138885662","wikidata":"https://www.wikidata.org/wiki/Q5891","display_name":"Philosophy","level":0,"score":0.0},{"id":"https://openalex.org/C41895202","wikidata":"https://www.wikidata.org/wiki/Q8162","display_name":"Linguistics","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/icip.2018.8451096","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icip.2018.8451096","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2018 25th IEEE International Conference on Image Processing (ICIP)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/16","score":0.7599999904632568,"display_name":"Peace, Justice and strong institutions"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":21,"referenced_works":["https://openalex.org/W1974387177","https://openalex.org/W1991197819","https://openalex.org/W2015631279","https://openalex.org/W2024490110","https://openalex.org/W2034940213","https://openalex.org/W2035777533","https://openalex.org/W2040818685","https://openalex.org/W2052274902","https://openalex.org/W2087681821","https://openalex.org/W2095705004","https://openalex.org/W2098044214","https://openalex.org/W2101346879","https://openalex.org/W2111928547","https://openalex.org/W2155289555","https://openalex.org/W2161301211","https://openalex.org/W2285716245","https://openalex.org/W2405666970","https://openalex.org/W2407023693","https://openalex.org/W2602634800","https://openalex.org/W2615100522","https://openalex.org/W2953219395"],"related_works":["https://openalex.org/W2918559346","https://openalex.org/W2114097550","https://openalex.org/W3119978414","https://openalex.org/W4286904253","https://openalex.org/W2516975559","https://openalex.org/W2545741539","https://openalex.org/W3206647229","https://openalex.org/W1969408022","https://openalex.org/W2000885660","https://openalex.org/W2117995638"],"abstract_inverted_index":{"The":[0],"fusion":[1],"of":[2,9,89,103,116,124,133],"audio":[3,21,35,79,135],"and":[4,70,80,83,106,120,136],"visual":[5,81,137],"information":[6],"is":[7,22,60,109],"one":[8],"the":[10,67,78,87,90,113,117,121,125,131,134,149,158],"most":[11],"promising":[12],"solutions":[13],"for":[14,141],"reliable":[15],"keyword":[16],"spotting":[17],"(KWS),":[18],"particularly":[19],"when":[20],"corrupted":[23],"by":[24],"noise.":[25],"KWS":[26,142],"aims":[27],"to":[28,62,111,165],"detect":[29],"a":[30,40],"specific":[31],"word":[32],"in":[33],"an":[34,49,95],"stream,":[36],"which":[37],"still":[38],"remains":[39],"challenging":[41],"problem":[42],"under":[43,152],"noisy":[44],"environments.":[45],"In":[46],"this":[47],"paper,":[48],"audio-visual":[50,64,91,96],"neural":[51,57,92,97],"network":[52,58,98],"based":[53,99],"on":[54,100,148],"multidimensional":[55],"convolutional":[56],"(MCNN)":[59],"proposed":[61,159],"perform":[63],"KWS.":[65],"Firstly,":[66],"log":[68,118],"mel-spectrogram":[69,119],"lip":[71,126],"area":[72,127],"sequence":[73],"are":[74,84,139],"extracted,":[75],"respectively,":[76],"from":[77],"streams,":[82],"taken":[85],"as":[86],"input":[88],"network.":[93],"Then,":[94],"MCNN":[101],"consisting":[102],"2D":[104],"CNN":[105,108],"3D":[107],"used":[110],"model":[112],"time-frequency":[114],"feature":[115,123],"spatiotemporal":[122],"sequence,":[128],"respectively.":[129],"Finally,":[130],"outputs":[132],"networks":[138],"combined":[140],"through":[143],"decision":[144],"fusion.":[145],"Experimental":[146],"results":[147],"PKU-AV":[150],"database":[151],"complex":[153],"acoustic":[154],"conditions":[155],"demonstrate":[156],"that":[157],"method":[160],"achieves":[161],"preferable":[162],"performance":[163],"compared":[164],"other":[166],"state-of-the-art":[167],"methods.":[168]},"counts_by_year":[{"year":2025,"cited_by_count":2},{"year":2024,"cited_by_count":5},{"year":2023,"cited_by_count":3},{"year":2022,"cited_by_count":6},{"year":2021,"cited_by_count":5},{"year":2020,"cited_by_count":4}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}