{"id":"https://openalex.org/W7137952103","doi":"https://doi.org/10.1609/aaai.v40i37.40366","title":"DUP: Detection-guided Unlearning for Backdoor Purification in Language Models","display_name":"DUP: Detection-guided Unlearning for Backdoor Purification in Language Models","publication_year":2026,"publication_date":"2026-03-14","ids":{"openalex":"https://openalex.org/W7137952103","doi":"https://doi.org/10.1609/aaai.v40i37.40366"},"language":null,"primary_location":{"id":"doi:10.1609/aaai.v40i37.40366","is_oa":true,"landing_page_url":"https://doi.org/10.1609/aaai.v40i37.40366","pdf_url":null,"source":{"id":"https://openalex.org/S4210191458","display_name":"Proceedings of the AAAI Conference on Artificial Intelligence","issn_l":"2159-5399","issn":["2159-5399","2374-3468"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/P4310320058","host_organization_name":"Association for the Advancement of Artificial Intelligence","host_organization_lineage":["https://openalex.org/P4310320058"],"host_organization_lineage_names":["Association for the Advancement of Artificial Intelligence"],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the AAAI Conference on Artificial Intelligence","raw_type":"journal-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"diamond","oa_url":"https://doi.org/10.1609/aaai.v40i37.40366","any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5129648023","display_name":"Man Hu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Man Hu","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5129740896","display_name":"Yahui Ding","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yahui Ding","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5129642290","display_name":"Yatao Yang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yatao Yang","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5129739013","display_name":"Liangyu Chen","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Liangyu Chen","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5129679079","display_name":"Yanhao Jia","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yanhao Jia","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5129687242","display_name":"Shuai Zhao","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Shuai Zhao","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":6,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.15527066,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":"40","issue":"37","first_page":"31059","last_page":"31067"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.8687000274658203,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.8687000274658203,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.01769999973475933,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12262","display_name":"Hate Speech and Cyberbullying Detection","score":0.01640000008046627,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/backdoor","display_name":"Backdoor","score":0.9886999726295471},{"id":"https://openalex.org/keywords/feature","display_name":"Feature (linguistics)","score":0.4771000146865845},{"id":"https://openalex.org/keywords/anomaly-detection","display_name":"Anomaly detection","score":0.45320001244544983},{"id":"https://openalex.org/keywords/scheme","display_name":"Scheme (mathematics)","score":0.41670000553131104},{"id":"https://openalex.org/keywords/outlier","display_name":"Outlier","score":0.3919999897480011},{"id":"https://openalex.org/keywords/retraining","display_name":"Retraining","score":0.3441999852657318}],"concepts":[{"id":"https://openalex.org/C2781045450","wikidata":"https://www.wikidata.org/wiki/Q254569","display_name":"Backdoor","level":2,"score":0.9886999726295471},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.650600016117096},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5213000178337097},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.4771000146865845},{"id":"https://openalex.org/C739882","wikidata":"https://www.wikidata.org/wiki/Q3560506","display_name":"Anomaly detection","level":2,"score":0.45320001244544983},{"id":"https://openalex.org/C77618280","wikidata":"https://www.wikidata.org/wiki/Q1155772","display_name":"Scheme (mathematics)","level":2,"score":0.41670000553131104},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.39590001106262207},{"id":"https://openalex.org/C79337645","wikidata":"https://www.wikidata.org/wiki/Q779824","display_name":"Outlier","level":2,"score":0.3919999897480011},{"id":"https://openalex.org/C2778712577","wikidata":"https://www.wikidata.org/wiki/Q3505966","display_name":"Retraining","level":2,"score":0.3441999852657318},{"id":"https://openalex.org/C137293760","wikidata":"https://www.wikidata.org/wiki/Q3621696","display_name":"Language model","level":2,"score":0.33090001344680786},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.32010000944137573},{"id":"https://openalex.org/C197115733","wikidata":"https://www.wikidata.org/wiki/Q1003136","display_name":"Forcing (mathematics)","level":2,"score":0.30070000886917114},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.2736000120639801},{"id":"https://openalex.org/C152745839","wikidata":"https://www.wikidata.org/wiki/Q5438153","display_name":"Fault detection and isolation","level":3,"score":0.25429999828338623}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1609/aaai.v40i37.40366","is_oa":true,"landing_page_url":"https://doi.org/10.1609/aaai.v40i37.40366","pdf_url":null,"source":{"id":"https://openalex.org/S4210191458","display_name":"Proceedings of the AAAI Conference on Artificial Intelligence","issn_l":"2159-5399","issn":["2159-5399","2374-3468"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/P4310320058","host_organization_name":"Association for the Advancement of Artificial Intelligence","host_organization_lineage":["https://openalex.org/P4310320058"],"host_organization_lineage_names":["Association for the Advancement of Artificial Intelligence"],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the AAAI Conference on Artificial Intelligence","raw_type":"journal-article"}],"best_oa_location":{"id":"doi:10.1609/aaai.v40i37.40366","is_oa":true,"landing_page_url":"https://doi.org/10.1609/aaai.v40i37.40366","pdf_url":null,"source":{"id":"https://openalex.org/S4210191458","display_name":"Proceedings of the AAAI Conference on Artificial Intelligence","issn_l":"2159-5399","issn":["2159-5399","2374-3468"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/P4310320058","host_organization_name":"Association for the Advancement of Artificial Intelligence","host_organization_lineage":["https://openalex.org/P4310320058"],"host_organization_lineage_names":["Association for the Advancement of Artificial Intelligence"],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the AAAI Conference on Artificial Intelligence","raw_type":"journal-article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"As":[0],"backdoor":[1,51,140],"attacks":[2],"become":[3],"more":[4,82],"stealthy":[5],"and":[6,24,66,103,148,162],"robust,":[7],"they":[8],"reveal":[9],"critical":[10],"weaknesses":[11],"in":[12,159],"current":[13],"defense":[14,157],"strategies:":[15],"detection":[16,52,88,160],"methods":[17,26,147],"often":[18],"rely":[19],"on":[20,86,130],"coarse-grained":[21],"feature":[22],"statistics,":[23],"purification":[25,163],"typically":[27],"require":[28,106],"full":[29,101],"retraining":[30,102],"or":[31],"additional":[32],"clean":[33,109],"models.":[34],"To":[35],"address":[36],"these":[37],"challenges,":[38],"we":[39,90,112],"propose":[40],"DUP":[41,154],"(Detection-guided":[42],"Unlearning":[43],"for":[44],"Purification),":[45],"a":[46,74,95],"unified":[47],"framework":[48],"that":[49,99,153],"integrates":[50],"with":[53],"unlearning-based":[54],"purification.":[55],"The":[56],"detector":[57],"captures":[58],"feature-level":[59],"anomalies":[60],"by":[61],"jointly":[62],"leveraging":[63],"class-agnostic":[64],"distances":[65],"inter-layer":[67],"transitions.":[68],"These":[69],"deviations":[70],"are":[71],"integrated":[72],"through":[73,94],"weighted":[75],"scheme":[76],"to":[77,117,137],"identify":[78],"poisoned":[79,132],"inputs,":[80],"enabling":[81],"fine-grained":[83],"analysis.":[84],"Based":[85],"the":[87,92,119,128,139],"results,":[89],"purify":[91],"model":[93,121,150],"parameter-efficient":[96],"unlearning":[97],"mechanism":[98],"avoids":[100],"does":[104],"not":[105],"any":[107],"external":[108],"model.":[110],"Specifically,":[111],"innovatively":[113],"repurpose":[114],"knowledge":[115],"distillation":[116],"guide":[118],"student":[120],"toward":[122],"increasing":[123],"its":[124],"output":[125],"divergence":[126],"from":[127],"teacher":[129],"detected":[131],"samples,":[133],"effectively":[134],"forcing":[135],"it":[136],"unlearn":[138],"behavior.":[141],"Extensive":[142],"experiments":[143],"across":[144],"diverse":[145],"attack":[146],"language":[149],"architectures":[151],"demonstrate":[152],"achieves":[155],"superior":[156],"performance":[158],"accuracy":[161],"efficacy.":[164]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-03-18T00:00:00"}