{"id":"https://openalex.org/W7127053141","doi":"https://doi.org/10.1145/3784833.3784857","title":"Deformable Attention-Optimized Swin Transformer for Image Aesthetic Assessment","display_name":"Deformable Attention-Optimized Swin Transformer for Image Aesthetic Assessment","publication_year":2025,"publication_date":"2025-11-12","ids":{"openalex":"https://openalex.org/W7127053141","doi":"https://doi.org/10.1145/3784833.3784857"},"language":null,"primary_location":{"id":"doi:10.1145/3784833.3784857","is_oa":true,"landing_page_url":"https://doi.org/10.1145/3784833.3784857","pdf_url":null,"source":null,"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 2025 11th International Conference on Communication and Information Processing","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"gold","oa_url":"https://doi.org/10.1145/3784833.3784857","any_repository_has_fulltext":null},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5124723104","display_name":"Xiaofa Zheng","orcid":null},"institutions":[{"id":"https://openalex.org/I139759216","display_name":"Beijing University of Posts and Telecommunications","ror":"https://ror.org/04w9fbh59","country_code":"CN","type":"education","lineage":["https://openalex.org/I139759216"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Xiaofa Zheng","raw_affiliation_strings":["School of Intelligent Imagery Engineering, Beijing Film Academy, Beijing, China and School of Digital Media and Design Arts, Beijing University of Posts and Telecommunications, Beijing, China"],"raw_orcid":"https://orcid.org/0009-0001-5992-2400","affiliations":[{"raw_affiliation_string":"School of Intelligent Imagery Engineering, Beijing Film Academy, Beijing, China and School of Digital Media and Design Arts, Beijing University of Posts and Telecommunications, Beijing, China","institution_ids":["https://openalex.org/I139759216"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5124726387","display_name":"Jiajing Meng","orcid":null},"institutions":[{"id":"https://openalex.org/I139759216","display_name":"Beijing University of Posts and Telecommunications","ror":"https://ror.org/04w9fbh59","country_code":"CN","type":"education","lineage":["https://openalex.org/I139759216"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Jiajing Meng","raw_affiliation_strings":["School of Digital Media and Design Arts, Beijing University of Posts and Telecommunications, Beijing, China"],"raw_orcid":"https://orcid.org/0009-0002-0728-3675","affiliations":[{"raw_affiliation_string":"School of Digital Media and Design Arts, Beijing University of Posts and Telecommunications, Beijing, China","institution_ids":["https://openalex.org/I139759216"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5124727628","display_name":"Jie Chang","orcid":null},"institutions":[{"id":"https://openalex.org/I4210118466","display_name":"Beijing Health Vocational College","ror":"https://ror.org/02ggsxt79","country_code":"CN","type":"education","lineage":["https://openalex.org/I4210118466"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Jie Chang","raw_affiliation_strings":["Department of Film and Television Culture, Beijing Jingbei Vocational College, Beijing, China"],"raw_orcid":"https://orcid.org/0009-0007-6036-4745","affiliations":[{"raw_affiliation_string":"Department of Film and Television Culture, Beijing Jingbei Vocational College, Beijing, China","institution_ids":["https://openalex.org/I4210118466"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5124728835","display_name":"Jun Chen","orcid":null},"institutions":[{"id":"https://openalex.org/I2802536167","display_name":"Beijing Film Academy","ror":"https://ror.org/03y0w9190","country_code":"CN","type":"education","lineage":["https://openalex.org/I2802536167"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Jun Chen","raw_affiliation_strings":["School of Intelligent Imagery Engineering, Beijing Film Academy, Beijing, China"],"raw_orcid":"https://orcid.org/0009-0008-6063-2671","affiliations":[{"raw_affiliation_string":"School of Intelligent Imagery Engineering, Beijing Film Academy, Beijing, China","institution_ids":["https://openalex.org/I2802536167"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5124721482","display_name":"Yunpeng Jia","orcid":null},"institutions":[{"id":"https://openalex.org/I139759216","display_name":"Beijing University of Posts and Telecommunications","ror":"https://ror.org/04w9fbh59","country_code":"CN","type":"education","lineage":["https://openalex.org/I139759216"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Yunpeng Jia","raw_affiliation_strings":["School of Digital Media and Design Arts, Beijing University of Posts and Telecommunications, Beijing, China"],"raw_orcid":"https://orcid.org/0009-0004-2873-2796","affiliations":[{"raw_affiliation_string":"School of Digital Media and Design Arts, Beijing University of Posts and Telecommunications, Beijing, China","institution_ids":["https://openalex.org/I139759216"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"105","last_page":"113"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11605","display_name":"Visual Attention and Saliency Detection","score":0.9699000120162964,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11605","display_name":"Visual Attention and Saliency Detection","score":0.9699000120162964,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12650","display_name":"Aesthetic Perception and Analysis","score":0.020099999383091927,"subfield":{"id":"https://openalex.org/subfields/2805","display_name":"Cognitive Neuroscience"},"field":{"id":"https://openalex.org/fields/28","display_name":"Neuroscience"},"domain":{"id":"https://openalex.org/domains/1","display_name":"Life Sciences"}},{"id":"https://openalex.org/T11165","display_name":"Image and Video Quality Assessment","score":0.001500000013038516,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/transformer","display_name":"Transformer","score":0.5148000121116638},{"id":"https://openalex.org/keywords/offset","display_name":"Offset (computer science)","score":0.48899999260902405},{"id":"https://openalex.org/keywords/image","display_name":"Image (mathematics)","score":0.3779999911785126},{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.36090001463890076},{"id":"https://openalex.org/keywords/image-quality","display_name":"Image quality","score":0.3337000012397766}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6965000033378601},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6897000074386597},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.6625999808311462},{"id":"https://openalex.org/C66322947","wikidata":"https://www.wikidata.org/wiki/Q11658","display_name":"Transformer","level":3,"score":0.5148000121116638},{"id":"https://openalex.org/C175291020","wikidata":"https://www.wikidata.org/wiki/Q1156822","display_name":"Offset (computer science)","level":2,"score":0.48899999260902405},{"id":"https://openalex.org/C115961682","wikidata":"https://www.wikidata.org/wiki/Q860623","display_name":"Image (mathematics)","level":2,"score":0.3779999911785126},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.36090001463890076},{"id":"https://openalex.org/C55020928","wikidata":"https://www.wikidata.org/wiki/Q3813865","display_name":"Image quality","level":3,"score":0.3337000012397766},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.2824999988079071},{"id":"https://openalex.org/C52622490","wikidata":"https://www.wikidata.org/wiki/Q1026626","display_name":"Feature extraction","level":2,"score":0.25780001282691956},{"id":"https://openalex.org/C158525013","wikidata":"https://www.wikidata.org/wiki/Q2593739","display_name":"Fusion","level":2,"score":0.25369998812675476}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1145/3784833.3784857","is_oa":true,"landing_page_url":"https://doi.org/10.1145/3784833.3784857","pdf_url":null,"source":null,"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 2025 11th International Conference on Communication and Information Processing","raw_type":"proceedings-article"}],"best_oa_location":{"id":"doi:10.1145/3784833.3784857","is_oa":true,"landing_page_url":"https://doi.org/10.1145/3784833.3784857","pdf_url":null,"source":null,"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 2025 11th International Conference on Communication and Information Processing","raw_type":"proceedings-article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":9,"referenced_works":["https://openalex.org/W2009678853","https://openalex.org/W2604528050","https://openalex.org/W2965006338","https://openalex.org/W3138516171","https://openalex.org/W3194293177","https://openalex.org/W4214745154","https://openalex.org/W4284896483","https://openalex.org/W4312960790","https://openalex.org/W4313156423"],"related_works":[],"abstract_inverted_index":{"Image":[0],"aesthetic":[1,10,16,69,84],"evaluation":[2],"aims":[3],"to":[4,7,34,133],"enable":[5],"computers":[6],"simulate":[8],"human":[9],"thinking":[11],"and":[12,41,60,81,106,140,153],"objectively":[13],"evaluate":[14],"the":[15,42,65,78,82,87,93,110,114,118,123,126,136,141],"quality":[17],"of":[18,38,113,125,135],"images":[19],"automatically.":[20],"The":[21,99],"existing":[22],"methods":[23],"often":[24],"have":[25],"a":[26,51,146],"rigid":[27],"convolutional":[28],"attention":[29,53,63,143],"mechanism,":[30],"making":[31],"it":[32],"difficult":[33],"achieve":[35],"hierarchical":[36,79],"integration":[37],"multi-scale":[39],"representations,":[40],"computational":[43],"cost":[44],"is":[45,75,131],"relatively":[46],"high.":[47],"This":[48],"paper":[49,130],"proposes":[50],"deformable":[52,62,72,142],"fusion":[54],"model":[55,94,127],"based":[56],"on":[57,117],"Swin":[58],"Transformer":[59],"integrates":[61],"for":[64],"first":[66],"time":[67],"in":[68,77,86,128,149],"assessment.":[70],"A":[71],"self-attention":[73],"module":[74],"embedded":[76],"Transformer,":[80],"key":[83],"regions":[85],"image":[88,151],"are":[89],"adaptively":[90],"focused":[91],"by":[92],"through":[95],"dynamic":[96],"offset":[97],"prediction.":[98],"multi-task":[100],"pre-training":[101],"strategy":[102],"combining":[103],"mask":[104],"reconstruction":[105],"contrastive":[107],"learning":[108],"enhances":[109],"representation":[111],"ability":[112],"model.":[115],"Experiments":[116],"AVA":[119],"dataset":[120],"show":[121],"that":[122,134],"performance":[124],"this":[129],"superior":[132],"traditional":[137],"CNN":[138],"model,":[139],"mechanism":[144],"plays":[145],"positive":[147],"role":[148],"extracting":[150],"features":[152],"evaluating":[154],"aesthetics.":[155]},"counts_by_year":[],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2026-02-03T00:00:00"}