{"id":"https://openalex.org/W7133334520","doi":"https://doi.org/10.48550/arxiv.2603.01228","title":"Towards Policy-Adaptive Image Guardrail: Benchmark and Method","display_name":"Towards Policy-Adaptive Image Guardrail: Benchmark and Method","publication_year":2026,"publication_date":"2026-03-01","ids":{"openalex":"https://openalex.org/W7133334520","doi":"https://doi.org/10.48550/arxiv.2603.01228"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.01228","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.01228","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.01228","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5110043923","display_name":"Changhao Piao","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Piao, Caiyong","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5127910258","display_name":"Zhiyuan Yan","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yan, Zhiyuan","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128015862","display_name":"Haoming Xu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xu, Haoming","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5127926140","display_name":"Yunzhen Zhao","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhao, Yunzhen","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5127980827","display_name":"Kaiqing Lin","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lin, Kaiqing","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5022031091","display_name":"Feiyang Xu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xu, Feiyang","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5127922742","display_name":"Shuigeng Zhou","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhou, Shuigeng","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":7,"corresponding_author_ids":["https://openalex.org/A5110043923"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.4075999855995178,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.4075999855995178,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10775","display_name":"Generative Adversarial Networks and Image Synthesis","score":0.2786000072956085,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12357","display_name":"Digital Media Forensic Detection","score":0.060600001364946365,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/benchmark","display_name":"Benchmark (surveying)","score":0.5716999769210815},{"id":"https://openalex.org/keywords/retraining","display_name":"Retraining","score":0.5422000288963318},{"id":"https://openalex.org/keywords/image","display_name":"Image (mathematics)","score":0.5393000245094299},{"id":"https://openalex.org/keywords/verifiable-secret-sharing","display_name":"Verifiable secret sharing","score":0.5314000248908997},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.5081999897956848},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.5080000162124634},{"id":"https://openalex.org/keywords/key","display_name":"Key (lock)","score":0.4918999969959259}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7940000295639038},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6097000241279602},{"id":"https://openalex.org/C185798385","wikidata":"https://www.wikidata.org/wiki/Q1161707","display_name":"Benchmark (surveying)","level":2,"score":0.5716999769210815},{"id":"https://openalex.org/C2778712577","wikidata":"https://www.wikidata.org/wiki/Q3505966","display_name":"Retraining","level":2,"score":0.5422000288963318},{"id":"https://openalex.org/C115961682","wikidata":"https://www.wikidata.org/wiki/Q860623","display_name":"Image (mathematics)","level":2,"score":0.5393000245094299},{"id":"https://openalex.org/C85847156","wikidata":"https://www.wikidata.org/wiki/Q59015987","display_name":"Verifiable secret sharing","level":3,"score":0.5314000248908997},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.516700029373169},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.5081999897956848},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.5080000162124634},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.4918999969959259},{"id":"https://openalex.org/C177148314","wikidata":"https://www.wikidata.org/wiki/Q170084","display_name":"Generalization","level":2,"score":0.48829999566078186},{"id":"https://openalex.org/C139807058","wikidata":"https://www.wikidata.org/wiki/Q352374","display_name":"Adaptation (eye)","level":2,"score":0.4099000096321106},{"id":"https://openalex.org/C71901391","wikidata":"https://www.wikidata.org/wiki/Q7126699","display_name":"Upload","level":2,"score":0.3082999885082245},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.2791000008583069},{"id":"https://openalex.org/C124101348","wikidata":"https://www.wikidata.org/wiki/Q172491","display_name":"Data mining","level":1,"score":0.2775999903678894},{"id":"https://openalex.org/C45374587","wikidata":"https://www.wikidata.org/wiki/Q12525525","display_name":"Computation","level":2,"score":0.27059999108314514},{"id":"https://openalex.org/C75294576","wikidata":"https://www.wikidata.org/wiki/Q5165192","display_name":"Contextual image classification","level":3,"score":0.25949999690055847},{"id":"https://openalex.org/C9417928","wikidata":"https://www.wikidata.org/wiki/Q1070689","display_name":"Image processing","level":3,"score":0.25369998812675476}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.01228","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.01228","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.01228","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.01228","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16","score":0.6543431282043457}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Accurate":[0],"rejection":[1],"of":[2,130,183,203,232],"sensitive":[3],"or":[4],"harmful":[5,9],"visual":[6],"content,":[7],"i.e.,":[8],"image":[10,156,237],"guardrail,":[11],"is":[12],"critical":[13],"in":[14,115],"many":[15],"application":[16],"scenarios.":[17],"This":[18],"task":[19],"must":[20],"continuously":[21],"adapt":[22],"to":[23,40,91,96,98,143],"the":[24,92,104,126,216,230],"evolving":[25,225],"safety":[26,63,81,167],"policies":[27,48],"and":[28,33,58,75,101,108],"content":[29],"across":[30,224,239],"various":[31,240],"domains":[32],"over":[34],"time.":[35],"However,":[36],"traditional":[37],"classifiers,":[38],"confined":[39],"fixed":[41,80,211],"categories,":[42],"require":[43],"frequent":[44],"retraining":[45],"when":[46],"new":[47,136],"are":[49,72,88],"introduced.":[50],"Vision-language":[51],"models":[52,87,142],"(VLMs)":[53],"offer":[54],"a":[55,79,135,190],"more":[56],"adaptable":[57],"generalizable":[59],"foundation":[60],"for":[61,162,198,235],"dynamic":[62],"guardrails.":[64,201],"Despite":[65],"this":[66,113,116],"potential,":[67],"existing":[68,131],"VLM-based":[69],"safeguarding":[70],"methods":[71],"typically":[73],"trained":[74],"evaluated":[76],"under":[77,176,210],"only":[78],"policy.":[82],"We":[83],"find":[84],"that":[85],"these":[86],"heavily":[89],"overfitted":[90],"seen":[93],"policy,":[94],"fail":[95],"generalize":[97],"unseen":[99],"policies,":[100,179,212],"even":[102],"lose":[103],"basic":[105],"instruction-following":[106],"ability":[107],"general":[109],"knowledge.":[110],"To":[111],"address":[112],"issue,":[114],"paper":[117],"we":[118,124,187],"make":[119],"two":[120],"key":[121],"contributions.":[122],"First,":[123],"benchmark":[125],"cross-policy":[127],"generalization":[128],"performance":[129],"VLMs":[132],"with":[133,194,218],"SafeEditBench,":[134],"evaluation":[137],"suite.":[138],"SafeEditBench":[139],"leverages":[140],"image-editing":[141],"convert":[144],"unsafe":[145,236],"images":[146],"into":[147],"safe":[148],"counterparts,":[149],"producing":[150],"policy-aligned":[151],"datasets":[152],"where":[153],"each":[154],"safe-unsafe":[155],"pair":[157],"remains":[158],"visually":[159],"similar":[160],"except":[161],"localized":[163],"regions":[164],"violating":[165],"specific":[166],"rules.":[168],"Human":[169],"annotators":[170],"then":[171],"provide":[172],"accurate":[173],"safe/unsafe":[174],"labels":[175],"five":[177],"distinct":[178],"enabling":[180],"fine-grained":[181],"assessment":[182],"policy-aware":[184],"generalization.":[185],"Second,":[186],"introduce":[188],"SafeGuard-VL,":[189],"reinforcement":[191],"learning-based":[192],"method":[193,234],"verifiable":[195,222],"rewards":[196],"(RLVR)":[197],"robust":[199],"unsafe-image":[200],"Instead":[202],"relying":[204],"solely":[205],"on":[206],"supervised":[207],"fine-tuning":[208],"(SFT)":[209],"SafeGuard-VL":[213],"explicitly":[214],"optimizes":[215],"model":[217],"policy-grounded":[219],"rewards,":[220],"promoting":[221],"adaptation":[223],"policies.":[226,241],"Extensive":[227],"experiments":[228],"verify":[229],"effectiveness":[231],"our":[233],"guardrails":[238]},"counts_by_year":[],"updated_date":"2026-04-02T13:48:15.688549","created_date":"2026-03-04T00:00:00"}