{"id":"https://openalex.org/W7124845300","doi":"https://doi.org/10.1109/cvmi66673.2025.11337899","title":"EnhanceNet: Leveraging Facial, Speech, and Textual Cues for Multimodal Emotion Recognition","display_name":"EnhanceNet: Leveraging Facial, Speech, and Textual Cues for Multimodal Emotion Recognition","publication_year":2025,"publication_date":"2025-10-12","ids":{"openalex":"https://openalex.org/W7124845300","doi":"https://doi.org/10.1109/cvmi66673.2025.11337899"},"language":null,"primary_location":{"id":"doi:10.1109/cvmi66673.2025.11337899","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cvmi66673.2025.11337899","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE International Conference on Computer Vision and Machine Intelligence (CVMI)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5123451644","display_name":"Prachuit Priyadarshi Sahoo","orcid":null},"institutions":[{"id":"https://openalex.org/I16292982","display_name":"National Institute of Technology Rourkela","ror":"https://ror.org/011gmn932","country_code":"IN","type":"education","lineage":["https://openalex.org/I16292982"]}],"countries":["IN"],"is_corresponding":false,"raw_author_name":"Prachuit Priyadarshi Sahoo","raw_affiliation_strings":["National Institute of Technology Rourkela,Department of Electrical Engineering,Rourkela,India"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"National Institute of Technology Rourkela,Department of Electrical Engineering,Rourkela,India","institution_ids":["https://openalex.org/I16292982"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5037743544","display_name":"Dipti Patra","orcid":"https://orcid.org/0000-0002-6094-3735"},"institutions":[{"id":"https://openalex.org/I16292982","display_name":"National Institute of Technology Rourkela","ror":"https://ror.org/011gmn932","country_code":"IN","type":"education","lineage":["https://openalex.org/I16292982"]}],"countries":["IN"],"is_corresponding":false,"raw_author_name":"Dipti Patra","raw_affiliation_strings":["National Institute of Technology Rourkela,Department of Electrical Engineering,Rourkela,India"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"National Institute of Technology Rourkela,Department of Electrical Engineering,Rourkela,India","institution_ids":["https://openalex.org/I16292982"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.69099766,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"6"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10667","display_name":"Emotion and Mood Recognition","score":0.9954000115394592,"subfield":{"id":"https://openalex.org/subfields/3205","display_name":"Experimental and Cognitive Psychology"},"field":{"id":"https://openalex.org/fields/32","display_name":"Psychology"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},"topics":[{"id":"https://openalex.org/T10667","display_name":"Emotion and Mood Recognition","score":0.9954000115394592,"subfield":{"id":"https://openalex.org/subfields/3205","display_name":"Experimental and Cognitive Psychology"},"field":{"id":"https://openalex.org/fields/32","display_name":"Psychology"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T11448","display_name":"Face recognition and analysis","score":0.00039999998989515007,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.0003000000142492354,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/facial-expression","display_name":"Facial expression","score":0.6883000135421753},{"id":"https://openalex.org/keywords/modalities","display_name":"Modalities","score":0.5529999732971191},{"id":"https://openalex.org/keywords/robustness","display_name":"Robustness (evolution)","score":0.5340999960899353},{"id":"https://openalex.org/keywords/modality","display_name":"Modality (human\u2013computer interaction)","score":0.5094000101089478},{"id":"https://openalex.org/keywords/feature-learning","display_name":"Feature learning","score":0.4722999930381775},{"id":"https://openalex.org/keywords/deep-learning","display_name":"Deep learning","score":0.43869999051094055},{"id":"https://openalex.org/keywords/feature","display_name":"Feature (linguistics)","score":0.42179998755455017},{"id":"https://openalex.org/keywords/asynchronous-communication","display_name":"Asynchronous communication","score":0.42170000076293945}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.691100001335144},{"id":"https://openalex.org/C195704467","wikidata":"https://www.wikidata.org/wiki/Q327968","display_name":"Facial expression","level":2,"score":0.6883000135421753},{"id":"https://openalex.org/C2779903281","wikidata":"https://www.wikidata.org/wiki/Q6888026","display_name":"Modalities","level":2,"score":0.5529999732971191},{"id":"https://openalex.org/C63479239","wikidata":"https://www.wikidata.org/wiki/Q7353546","display_name":"Robustness (evolution)","level":3,"score":0.5340999960899353},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5156999826431274},{"id":"https://openalex.org/C2780226545","wikidata":"https://www.wikidata.org/wiki/Q6888030","display_name":"Modality (human\u2013computer interaction)","level":2,"score":0.5094000101089478},{"id":"https://openalex.org/C59404180","wikidata":"https://www.wikidata.org/wiki/Q17013334","display_name":"Feature learning","level":2,"score":0.4722999930381775},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.4593000113964081},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.43869999051094055},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.42179998755455017},{"id":"https://openalex.org/C151319957","wikidata":"https://www.wikidata.org/wiki/Q752739","display_name":"Asynchronous communication","level":2,"score":0.42170000076293945},{"id":"https://openalex.org/C2777438025","wikidata":"https://www.wikidata.org/wiki/Q1339090","display_name":"Emotion recognition","level":2,"score":0.35910001397132874},{"id":"https://openalex.org/C6438553","wikidata":"https://www.wikidata.org/wiki/Q1185804","display_name":"Affective computing","level":2,"score":0.35589998960494995},{"id":"https://openalex.org/C204321447","wikidata":"https://www.wikidata.org/wiki/Q30642","display_name":"Natural language processing","level":1,"score":0.35519999265670776},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.32030001282691956},{"id":"https://openalex.org/C168167062","wikidata":"https://www.wikidata.org/wiki/Q1117970","display_name":"Component (thermodynamics)","level":2,"score":0.313400000333786},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.3034000098705292},{"id":"https://openalex.org/C2984842247","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep neural networks","level":3,"score":0.29840001463890076},{"id":"https://openalex.org/C2776502983","wikidata":"https://www.wikidata.org/wiki/Q690182","display_name":"Contrast (vision)","level":2,"score":0.28760001063346863},{"id":"https://openalex.org/C61328038","wikidata":"https://www.wikidata.org/wiki/Q3358061","display_name":"Speech processing","level":2,"score":0.2858000099658966},{"id":"https://openalex.org/C2780660688","wikidata":"https://www.wikidata.org/wiki/Q25052564","display_name":"Multimodal learning","level":2,"score":0.28029999136924744},{"id":"https://openalex.org/C97931131","wikidata":"https://www.wikidata.org/wiki/Q5282087","display_name":"Discriminative model","level":2,"score":0.2689000070095062},{"id":"https://openalex.org/C52622490","wikidata":"https://www.wikidata.org/wiki/Q1026626","display_name":"Feature extraction","level":2,"score":0.2660999894142151},{"id":"https://openalex.org/C155512373","wikidata":"https://www.wikidata.org/wiki/Q287450","display_name":"Residual","level":2,"score":0.25609999895095825}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/cvmi66673.2025.11337899","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cvmi66673.2025.11337899","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE International Conference on Computer Vision and Machine Intelligence (CVMI)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"score":0.6330114603042603,"display_name":"Quality Education","id":"https://metadata.un.org/sdg/4"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":10,"referenced_works":["https://openalex.org/W2030931454","https://openalex.org/W2194775991","https://openalex.org/W2608438166","https://openalex.org/W2752782242","https://openalex.org/W2962849564","https://openalex.org/W3034323190","https://openalex.org/W4210580780","https://openalex.org/W4375817747","https://openalex.org/W4386161521","https://openalex.org/W4402703046"],"related_works":[],"abstract_inverted_index":{"Multimodal":[0],"emotion":[1,39,91,204],"recognition":[2,205],"plays":[3],"a":[4,25,60,67,98,126,197],"central":[5],"role":[6],"in":[7,125],"affective":[8,212],"computing,":[9],"with":[10,54,207],"applications":[11],"such":[12,140,185],"as":[13,141,186,196],"mental":[14],"health":[15],"monitoring":[16],"and":[17,41,66,172,177,189],"adaptive":[18],"learning":[19,28,128],"systems.":[20],"This":[21,130],"paper":[22],"introduces":[23],"EnhanceNet,":[24],"comprehensive":[26],"deep":[27],"framework":[29,104],"that":[30],"fuses":[31],"three":[32],"key":[33],"modalities:":[34],"facial":[35,58,142,167],"expression":[36,168],"recognition,":[37],"speech":[38,64],"analysis,":[40],"spoken":[42],"language":[43],"understanding.":[44],"Each":[45],"modality":[46,95,112],"employs":[47],"specialized":[48],"neural":[49],"network":[50,69],"architectures-a":[51],"residual":[52],"CNN":[53],"squeeze-and-excitation":[55],"blocks":[56],"for":[57,63,70,200],"cues,":[59],"CNN-LSTM":[61],"model":[62,119,153],"signals,":[65],"BiLSTM":[68],"textual":[71],"transcripts-trained":[72],"on":[73,210],"diverse,":[74],"widely-used":[75],"datasets.":[76],"Unlike":[77],"conventional":[78],"late":[79],"fusion":[80,86],"approaches,":[81],"EnhanceNet":[82,195],"adopts":[83],"an":[84,155],"early":[85],"strategy":[87],"by":[88],"averaging":[89],"predicted":[90],"vectors":[92],"from":[93,110],"each":[94,111],"to":[96,120,182],"form":[97],"robust,":[99],"unified":[100,127],"emotional":[101],"profile.":[102],"The":[103,151,163,192],"combines":[105],"the":[106,114,118],"initial":[107],"feature":[108],"representations":[109],"at":[113],"input":[115],"stage,":[116],"enabling":[117],"capture":[121],"interdependencies":[122],"across":[123],"modalities":[124],"process.":[129],"approach":[131],"leverages":[132],"complementary":[133],"strengths":[134],"of":[135,158,175],"individual":[136],"modalities,":[137],"mitigating":[138],"challenges":[139],"occlusion,":[143],"ambiguous":[144],"vocal":[145],"intonation,":[146],"or":[147],"sparse":[148],"linguistic":[149],"content.":[150],"fused":[152],"achieves":[154],"overall":[156],"accuracy":[157],"78.23%,":[159],"outperforming":[160],"unimodal":[161],"baselines.":[162],"system":[164],"supports":[165],"real-time":[166],"analysis":[169],"via":[170],"webcam":[171],"asynchronous":[173],"processing":[174],"audio":[176],"text":[178],"inputs,":[179],"demonstrating":[180],"robustness":[181],"environmental":[183],"variability":[184],"lighting":[187],"conditions":[188],"background":[190],"noise.":[191],"results":[193],"suggest":[194],"practical":[198],"foundation":[199],"scalable,":[201],"real-world":[202],"multimodal":[203],"systems,":[206],"potential":[208],"impact":[209],"next-generation":[211],"technologies.":[213]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-01-21T00:00:00"}