{"id":"https://openalex.org/W4402979574","doi":"https://doi.org/10.1109/icme57554.2024.10687895","title":"Enhanced Speech Emotion Recognition Incorporating Speaker-Sensitive Interactions in Conversations","display_name":"Enhanced Speech Emotion Recognition Incorporating Speaker-Sensitive Interactions in Conversations","publication_year":2024,"publication_date":"2024-07-15","ids":{"openalex":"https://openalex.org/W4402979574","doi":"https://doi.org/10.1109/icme57554.2024.10687895"},"language":"en","primary_location":{"id":"doi:10.1109/icme57554.2024.10687895","is_oa":false,"landing_page_url":"http://dx.doi.org/10.1109/icme57554.2024.10687895","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2024 IEEE International Conference on Multimedia and Expo (ICME)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5056746787","display_name":"Jiachen Luo","orcid":null},"institutions":[{"id":"https://openalex.org/I166337079","display_name":"Queen Mary University of London","ror":"https://ror.org/026zzn846","country_code":"GB","type":"education","lineage":["https://openalex.org/I124357947","https://openalex.org/I166337079"]}],"countries":["GB"],"is_corresponding":true,"raw_author_name":"Jiachen Luo","raw_affiliation_strings":["Queen Mary University of London,Centre for Digital Music,UK"],"affiliations":[{"raw_affiliation_string":"Queen Mary University of London,Centre for Digital Music,UK","institution_ids":["https://openalex.org/I166337079"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5058452657","display_name":"Huy Phan","orcid":"https://orcid.org/0000-0003-4096-785X"},"institutions":[{"id":"https://openalex.org/I1311688040","display_name":"Amazon (United States)","ror":"https://ror.org/04mv4n011","country_code":"US","type":"company","lineage":["https://openalex.org/I1311688040"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Huy Phan","raw_affiliation_strings":["Amazon Alexa,Cambridge,MA,USA"],"affiliations":[{"raw_affiliation_string":"Amazon Alexa,Cambridge,MA,USA","institution_ids":["https://openalex.org/I1311688040"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5100403109","display_name":"Lin Wang","orcid":"https://orcid.org/0000-0001-8095-9518"},"institutions":[{"id":"https://openalex.org/I166337079","display_name":"Queen Mary University of London","ror":"https://ror.org/026zzn846","country_code":"GB","type":"education","lineage":["https://openalex.org/I124357947","https://openalex.org/I166337079"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Lin Wang","raw_affiliation_strings":["Queen Mary University of London,Centre for Digital Music,UK"],"affiliations":[{"raw_affiliation_string":"Queen Mary University of London,Centre for Digital Music,UK","institution_ids":["https://openalex.org/I166337079"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5111403298","display_name":"Joshua D. Reiss","orcid":null},"institutions":[{"id":"https://openalex.org/I166337079","display_name":"Queen Mary University of London","ror":"https://ror.org/026zzn846","country_code":"GB","type":"education","lineage":["https://openalex.org/I124357947","https://openalex.org/I166337079"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Joshua Reiss","raw_affiliation_strings":["Queen Mary University of London,Centre for Digital Music,UK"],"affiliations":[{"raw_affiliation_string":"Queen Mary University of London,Centre for Digital Music,UK","institution_ids":["https://openalex.org/I166337079"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":4,"corresponding_author_ids":["https://openalex.org/A5056746787"],"corresponding_institution_ids":["https://openalex.org/I166337079"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.14598623,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"6"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12031","display_name":"Speech and dialogue systems","score":0.7797999978065491,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T12031","display_name":"Speech and dialogue systems","score":0.7797999978065491,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10667","display_name":"Emotion and Mood Recognition","score":0.7706000208854675,"subfield":{"id":"https://openalex.org/subfields/3205","display_name":"Experimental and Cognitive Psychology"},"field":{"id":"https://openalex.org/fields/32","display_name":"Psychology"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.7680000066757202,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.7564876079559326},{"id":"https://openalex.org/keywords/speaker-recognition","display_name":"Speaker recognition","score":0.7317517995834351},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7088384628295898},{"id":"https://openalex.org/keywords/emotion-recognition","display_name":"Emotion recognition","score":0.6117249727249146},{"id":"https://openalex.org/keywords/speaker-diarisation","display_name":"Speaker diarisation","score":0.5843895673751831},{"id":"https://openalex.org/keywords/natural-language-processing","display_name":"Natural language processing","score":0.33757537603378296}],"concepts":[{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.7564876079559326},{"id":"https://openalex.org/C133892786","wikidata":"https://www.wikidata.org/wiki/Q1145189","display_name":"Speaker recognition","level":2,"score":0.7317517995834351},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7088384628295898},{"id":"https://openalex.org/C2777438025","wikidata":"https://www.wikidata.org/wiki/Q1339090","display_name":"Emotion recognition","level":2,"score":0.6117249727249146},{"id":"https://openalex.org/C149838564","wikidata":"https://www.wikidata.org/wiki/Q7574248","display_name":"Speaker diarisation","level":3,"score":0.5843895673751831},{"id":"https://openalex.org/C204321447","wikidata":"https://www.wikidata.org/wiki/Q30642","display_name":"Natural language processing","level":1,"score":0.33757537603378296}],"mesh":[],"locations_count":2,"locations":[{"id":"doi:10.1109/icme57554.2024.10687895","is_oa":false,"landing_page_url":"http://dx.doi.org/10.1109/icme57554.2024.10687895","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2024 IEEE International Conference on Multimedia and Expo (ICME)","raw_type":"proceedings-article"},{"id":"pmh:oai:qmro.qmul.ac.uk:123456789/102910","is_oa":false,"landing_page_url":"https://qmro.qmul.ac.uk/xmlui/handle/123456789/102910","pdf_url":null,"source":{"id":"https://openalex.org/S4306400530","display_name":"Queen Mary Research Online (Queen Mary University of London)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I166337079","host_organization_name":"Queen Mary University of London","host_organization_lineage":["https://openalex.org/I166337079"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Conference Proceeding"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":["https://openalex.org/W2206035908","https://openalex.org/W4297807400","https://openalex.org/W1491159402","https://openalex.org/W4313854686","https://openalex.org/W2144208207","https://openalex.org/W4389984014","https://openalex.org/W1509309911","https://openalex.org/W1940231550","https://openalex.org/W2118860825","https://openalex.org/W2096510939"],"abstract_inverted_index":{"Accurately":[0],"detecting":[1],"emotions":[2,16],"in":[3,19,75,97],"conversation":[4],"is":[5],"a":[6,25,47,66,98],"necessary":[7],"yet":[8],"challenging":[9],"task":[10],"due":[11],"to":[12,53,70],"the":[13,107,113,116],"complexity":[14],"of":[15,24,115],"and":[17,40,60,89,93],"dynamics":[18],"dialogues.":[20],"The":[21,103],"emotional":[22],"state":[23],"speaker":[26,94],"can":[27],"be":[28],"influenced":[29],"by":[30],"many":[31],"different":[32],"factors,":[33],"such":[34],"as":[35],"interlocutor":[36],"stimulus,":[37],"dialogue":[38],"scene,":[39],"topic.":[41],"In":[42],"this":[43],"work,":[44],"we":[45,64],"propose":[46],"conversational":[48,109],"speech":[49],"emotion":[50],"recognition":[51],"method":[52,118],"deal":[54],"with":[55],"capturing":[56],"attentive":[57,80],"contextual":[58],"dependency":[59,92],"speaker-sensitive":[61],"interactions.":[62],"First,":[63],"use":[65],"pretrained":[67],"WavLM":[68],"model":[69],"extract":[71],"frame-based":[72],"audio":[73],"representation":[74],"individual":[76],"utterances.":[77],"Second,":[78],"an":[79],"bi-directional":[81],"gated":[82],"recurrent":[83],"unit":[84],"(GRU)":[85],"models":[86],"contextual-sensitive":[87],"information":[88],"explores":[90],"listener":[91],"influence":[95],"jointly":[96],"simple,":[99],"fast,":[100],"parameter-efficient":[101],"way.":[102],"experiments":[104],"conducted":[105],"on":[106],"standard":[108],"dataset":[110],"MELD":[111],"demonstrate":[112],"effectiveness":[114],"proposed":[117],"when":[119],"compared":[120],"against":[121],"state-of":[122],"the-art":[123],"methods.":[124]},"counts_by_year":[],"updated_date":"2025-12-19T19:40:27.379048","created_date":"2025-10-10T00:00:00"}