{"id":"https://openalex.org/W7135083670","doi":"https://doi.org/10.48550/arxiv.2603.09980","title":"Explainable LLM Unlearning Through Reasoning","display_name":"Explainable LLM Unlearning Through Reasoning","publication_year":2026,"publication_date":"2026-02-08","ids":{"openalex":"https://openalex.org/W7135083670","doi":"https://doi.org/10.48550/arxiv.2603.09980"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.09980","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.09980","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.09980","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5128868944","display_name":"Junfeng Liao","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Liao, Junfeng","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128907271","display_name":"Qizhou Wang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Qizhou","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128863662","display_name":"Shanshan Ye","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ye, Shanshan","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128816631","display_name":"Xin Yu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yu, Xin","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128901624","display_name":"Ling Chen","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Chen, Ling","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5128813919","display_name":"Zhen Fang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Fang, Zhen","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":6,"corresponding_author_ids":["https://openalex.org/A5128868944"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.5403000116348267,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.5403000116348267,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.16609999537467957,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.06949999928474426,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/scope","display_name":"Scope (computer science)","score":0.583899974822998},{"id":"https://openalex.org/keywords/robustness","display_name":"Robustness (evolution)","score":0.5},{"id":"https://openalex.org/keywords/preference","display_name":"Preference","score":0.28529998660087585},{"id":"https://openalex.org/keywords/unintended-consequences","display_name":"Unintended consequences","score":0.27399998903274536}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7142000198364258},{"id":"https://openalex.org/C2778012447","wikidata":"https://www.wikidata.org/wiki/Q1034415","display_name":"Scope (computer science)","level":2,"score":0.583899974822998},{"id":"https://openalex.org/C63479239","wikidata":"https://www.wikidata.org/wiki/Q7353546","display_name":"Robustness (evolution)","level":3,"score":0.5},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4902999997138977},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.3034999966621399},{"id":"https://openalex.org/C188147891","wikidata":"https://www.wikidata.org/wiki/Q147638","display_name":"Cognitive science","level":1,"score":0.3034999966621399},{"id":"https://openalex.org/C2781249084","wikidata":"https://www.wikidata.org/wiki/Q908656","display_name":"Preference","level":2,"score":0.28529998660087585},{"id":"https://openalex.org/C2776889888","wikidata":"https://www.wikidata.org/wiki/Q1135789","display_name":"Unintended consequences","level":2,"score":0.27399998903274536},{"id":"https://openalex.org/C124978682","wikidata":"https://www.wikidata.org/wiki/Q1201019","display_name":"Proof of concept","level":2,"score":0.23149999976158142},{"id":"https://openalex.org/C56739046","wikidata":"https://www.wikidata.org/wiki/Q192060","display_name":"Knowledge management","level":1,"score":0.22360000014305115}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.09980","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.09980","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.09980","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.09980","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"score":0.5388234853744507,"id":"https://metadata.un.org/sdg/16","display_name":"Peace, Justice and strong institutions"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"LLM":[0,174,220],"unlearning":[1,34,102,105,112,126,131,183,211],"is":[2],"essential":[3],"for":[4,48,156,216],"mitigating":[5],"safety,":[6],"copyright,":[7],"and":[8,42,66,89,114,173,176,218],"privacy":[9],"concerns":[10],"in":[11,56],"pre-trained":[12],"large":[13],"language":[14],"models":[15,91],"(LLMs).":[16],"Compared":[17],"to":[18,152],"preference":[19],"alignment,":[20],"it":[21,179],"offers":[22],"a":[23,100,140,146,213],"more":[24,181],"explicit":[25,85],"way":[26],"by":[27,32],"removing":[28],"undesirable":[29],"knowledge":[30,158],"characterized":[31],"specific":[33],"datasets.":[35],"In":[36],"previous":[37],"works,":[38],"gradient":[39],"ascent":[40],"(GA)":[41],"its":[43],"variants":[44],"have":[45],"shown":[46],"promise":[47],"implementing":[49],"unlearning,":[50],"yet":[51],"their":[52],"untargeted":[53],"nature":[54],"results":[55],"unintended":[57],"degradation":[58],"of":[59,64,69,84],"general":[60,186],"capabilities,":[61],"incomplete":[62],"removal":[63,159],"knowledge,":[65],"the":[67,82,110,115,137,150,199],"generation":[68],"incoherent":[70],"responses,":[71],"among":[72],"many":[73],"others.":[74],"We":[75,135,164],"argue":[76],"that":[77,178],"these":[78],"issues":[79],"stem":[80],"from":[81,198],"absence":[83],"guidance":[86],"on":[87,120],"what":[88],"how":[90],"should":[92],"unlearn.":[93],"To":[94],"fill":[95],"this":[96],"gap,":[97],"we":[98,122],"introduce":[99],"novel":[101],"target,":[103,106],"reasoning-based":[104,130,204],"which":[107,128],"satisfies":[108],"both":[109],"specified":[111,116],"scope":[113],"post-unlearning":[117],"response.":[118],"Building":[119],"this,":[121],"propose":[123],"targeted":[124],"reasoning":[125,154,200],"(TRU),":[127],"leverages":[129],"target":[132,138],"as":[133,212],"guidance.":[134],"employ":[136],"using":[139],"cross-entropy":[141],"supervised":[142],"loss":[143],"combined":[144],"with":[145],"GA-based":[147],"loss,":[148],"enabling":[149],"model":[151],"learn":[153],"ability":[155,201],"precise":[157],"while":[160,184],"preserving":[161,185],"unrelated":[162],"abilities.":[163],"evaluate":[165],"TRU":[166,189],"against":[167],"strong":[168],"baselines":[169],"across":[170],"multiple":[171],"benchmarks":[172],"backbones,":[175],"find":[177],"achieves":[180],"reliable":[182,217],"capabilities.":[187],"Moreover,":[188],"exhibits":[190],"superior":[191],"robustness":[192],"under":[193],"diverse":[194],"attack":[195],"scenarios,":[196],"stemming":[197],"learned":[202],"through":[203],"targets.":[205],"Overall,":[206],"our":[207],"study":[208],"establishes":[209],"reasoning-augmented":[210],"practical":[214],"paradigm":[215],"explainable":[219],"unlearning.":[221]},"counts_by_year":[],"updated_date":"2026-03-13T14:25:03.468858","created_date":"2026-03-13T00:00:00"}