{"id":"https://openalex.org/W4402571240","doi":"https://doi.org/10.1109/snpd61259.2024.10673940","title":"The Research and Improvement of Stage Music Emotion Recognition Algorithm Based on Convolutional Neural Network","display_name":"The Research and Improvement of Stage Music Emotion Recognition Algorithm Based on Convolutional Neural Network","publication_year":2024,"publication_date":"2024-07-05","ids":{"openalex":"https://openalex.org/W4402571240","doi":"https://doi.org/10.1109/snpd61259.2024.10673940"},"language":"en","primary_location":{"id":"doi:10.1109/snpd61259.2024.10673940","is_oa":false,"landing_page_url":"http://dx.doi.org/10.1109/snpd61259.2024.10673940","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2024 IEEE/ACIS 27th International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing (SNPD)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5072277868","display_name":"Chenxiao Li","orcid":"https://orcid.org/0000-0003-4641-8616"},"institutions":[{"id":"https://openalex.org/I75689368","display_name":"Communication University of China","ror":"https://ror.org/04facbs33","country_code":"CN","type":"education","lineage":["https://openalex.org/I75689368"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Chenxiao Li","raw_affiliation_strings":["Communication University of China,School of Information and Communicating Engineering,Beijing,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Communication University of China,School of Information and Communicating Engineering,Beijing,China","institution_ids":["https://openalex.org/I75689368"]}]},{"author_position":"middle","author":{"id":null,"display_name":"Ding Yue","orcid":null},"institutions":[{"id":"https://openalex.org/I75689368","display_name":"Communication University of China","ror":"https://ror.org/04facbs33","country_code":"CN","type":"education","lineage":["https://openalex.org/I75689368"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Ding Yue","raw_affiliation_strings":["Communication University of China,School of Information and Communicating Engineering,Beijing,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Communication University of China,School of Information and Communicating Engineering,Beijing,China","institution_ids":["https://openalex.org/I75689368"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5100569870","display_name":"Xiaofang Jin","orcid":null},"institutions":[{"id":"https://openalex.org/I75689368","display_name":"Communication University of China","ror":"https://ror.org/04facbs33","country_code":"CN","type":"education","lineage":["https://openalex.org/I75689368"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Xiaofang Jin","raw_affiliation_strings":["Communication University of China,School of Information and Communicating Engineering,Beijing,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Communication University of China,School of Information and Communicating Engineering,Beijing,China","institution_ids":["https://openalex.org/I75689368"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I75689368"],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":"67","issue":null,"first_page":"25","last_page":"30"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.611299991607666,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.611299991607666,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/convolutional-neural-network","display_name":"Convolutional neural network","score":0.7959762215614319},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7640470862388611},{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.5011260509490967},{"id":"https://openalex.org/keywords/stage","display_name":"Stage (stratigraphy)","score":0.4954625368118286},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.47973954677581787},{"id":"https://openalex.org/keywords/emotion-recognition","display_name":"Emotion recognition","score":0.4377235174179077},{"id":"https://openalex.org/keywords/pattern-recognition","display_name":"Pattern recognition (psychology)","score":0.3755917549133301},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.35627037286758423}],"concepts":[{"id":"https://openalex.org/C81363708","wikidata":"https://www.wikidata.org/wiki/Q17084460","display_name":"Convolutional neural network","level":2,"score":0.7959762215614319},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7640470862388611},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.5011260509490967},{"id":"https://openalex.org/C146357865","wikidata":"https://www.wikidata.org/wiki/Q1123245","display_name":"Stage (stratigraphy)","level":2,"score":0.4954625368118286},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.47973954677581787},{"id":"https://openalex.org/C2777438025","wikidata":"https://www.wikidata.org/wiki/Q1339090","display_name":"Emotion recognition","level":2,"score":0.4377235174179077},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.3755917549133301},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.35627037286758423},{"id":"https://openalex.org/C86803240","wikidata":"https://www.wikidata.org/wiki/Q420","display_name":"Biology","level":0,"score":0.0},{"id":"https://openalex.org/C151730666","wikidata":"https://www.wikidata.org/wiki/Q7205","display_name":"Paleontology","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/snpd61259.2024.10673940","is_oa":false,"landing_page_url":"http://dx.doi.org/10.1109/snpd61259.2024.10673940","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2024 IEEE/ACIS 27th International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing (SNPD)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":9,"referenced_works":["https://openalex.org/W1681110167","https://openalex.org/W1988060680","https://openalex.org/W2149628368","https://openalex.org/W2928165649","https://openalex.org/W2984361358","https://openalex.org/W3094550259","https://openalex.org/W4311227522","https://openalex.org/W6635278530","https://openalex.org/W6692173688"],"related_works":["https://openalex.org/W4293226380","https://openalex.org/W2329386257","https://openalex.org/W2503350049","https://openalex.org/W2397616145","https://openalex.org/W4321487865","https://openalex.org/W4313906399","https://openalex.org/W2397320258","https://openalex.org/W4391266461","https://openalex.org/W3126677997","https://openalex.org/W1610857240"],"abstract_inverted_index":{"Music":[0],"emotion":[1,7,28,104,169],"recognition,":[2,8],"an":[3],"important":[4],"branch":[5],"of":[6,13,25,124],"has":[9],"been":[10],"a":[11,30,159],"hotspot":[12],"multidisciplinary":[14],"cross-research.":[15],"Especially":[16],"in":[17,33],"the":[18,23,69,90,121,125,133,139],"automated":[19],"performing":[20],"arts":[21],"industry,":[22],"recognition":[24,105,122,140],"stage":[26,102,109,167],"music":[27,103,110,129,168],"plays":[29],"crucial":[31],"role":[32],"controlling":[34],"lighting,":[35],"camera":[36],"speed,":[37],"and":[38,47,51,80,87,97,106,131,150,163],"other":[39],"elements.":[40],"However,":[41],"there":[42],"are":[43],"few":[44],"existing":[45],"datasets":[46],"algorithms":[48],"specifically":[49],"designed":[50],"optimized":[52],"for":[53,166],"this":[54,57,117],"segment.":[55],"In":[56],"paper,":[58],"we":[59,119],"introduce":[60],"three":[61,126],"convolutional":[62],"neural":[63,83],"network":[64],"(CNN)":[65],"models":[66,127],"based":[67],"on":[68,101,116,128],"mel":[70],"frequency":[71],"cepstral":[72],"coefficients":[73],"(MFCC)":[74],"audio":[75,82],"features":[76],"\u2014":[77,86],"Res2Net,":[78],"ResNetSE,":[79],"pre-trained":[81],"networks":[84],"(PANNS)":[85],"innovatively":[88],"create":[89],"dataset":[91],"SHARD":[92],"(sadness,":[93],"happiness,":[94],"excitement,":[95],"romance,":[96],"drama),":[98],"which":[99],"focuses":[100],"contains":[107],"2,500":[108],"clips":[111],"with":[112],"different":[113],"emotions.":[114],"Based":[115],"dataset,":[118],"compare":[120],"effects":[123],"emotions":[130],"select":[132],"best-performing":[134],"ResNetSE":[135],"model":[136],"to":[137,144],"improve":[138],"accuracy":[141],"from":[142],"91.12%":[143],"94.71%":[145],"by":[146],"introducing":[147],"noise":[148],"enhancement":[149],"speech":[151],"rate":[152],"perturbation":[153],"preprocessing":[154],"techniques.":[155],"This":[156],"study":[157],"provides":[158],"new":[160],"research":[161],"direction":[162],"technical":[164],"support":[165],"recognition.":[170]},"counts_by_year":[],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-10-10T00:00:00"}