{"id":"https://openalex.org/W7140583225","doi":"https://doi.org/10.48550/arxiv.2603.24139","title":"Tutor-Student Reinforcement Learning: A Dynamic Curriculum for Robust Deepfake Detection","display_name":"Tutor-Student Reinforcement Learning: A Dynamic Curriculum for Robust Deepfake Detection","publication_year":2026,"publication_date":"2026-03-25","ids":{"openalex":"https://openalex.org/W7140583225","doi":"https://doi.org/10.48550/arxiv.2603.24139"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.24139","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.24139","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.24139","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5130670931","display_name":"Zhanhe Lei","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lei, Zhanhe","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5130703474","display_name":"Zhongyuan Wang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Zhongyuan","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5041019639","display_name":"Jikang Cheng","orcid":"https://orcid.org/0000-0001-6549-6148"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Cheng, Jikang","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5038724255","display_name":"Baojin Huang","orcid":"https://orcid.org/0000-0002-4882-5787"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Huang, Baojin","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5130678984","display_name":"Yuhong Yang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yang, Yuhong","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5130656578","display_name":"Zhen Han","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Han, Zhen","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5130679345","display_name":"Chao Liang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Liang, Chao","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5050526815","display_name":"Dengpan Ye","orcid":"https://orcid.org/0000-0003-2510-9523"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ye, Dengpan","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":8,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10775","display_name":"Generative Adversarial Networks and Image Synthesis","score":0.7455000281333923,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10775","display_name":"Generative Adversarial Networks and Image Synthesis","score":0.7455000281333923,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10036","display_name":"Advanced Neural Network Applications","score":0.07540000230073929,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.039799999445676804,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6815000176429749},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.576200008392334},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.5716999769210815},{"id":"https://openalex.org/keywords/tutor","display_name":"TUTOR","score":0.5236999988555908},{"id":"https://openalex.org/keywords/benchmark","display_name":"Benchmark (surveying)","score":0.4867999851703644},{"id":"https://openalex.org/keywords/training","display_name":"Training (meteorology)","score":0.4512999951839447},{"id":"https://openalex.org/keywords/curriculum","display_name":"Curriculum","score":0.4415999948978424},{"id":"https://openalex.org/keywords/generalization","display_name":"Generalization","score":0.4372999966144562}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7681000232696533},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6815000176429749},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.6291000247001648},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.619700014591217},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.576200008392334},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.5716999769210815},{"id":"https://openalex.org/C2778371403","wikidata":"https://www.wikidata.org/wiki/Q7672049","display_name":"TUTOR","level":2,"score":0.5236999988555908},{"id":"https://openalex.org/C185798385","wikidata":"https://www.wikidata.org/wiki/Q1161707","display_name":"Benchmark (surveying)","level":2,"score":0.4867999851703644},{"id":"https://openalex.org/C2777211547","wikidata":"https://www.wikidata.org/wiki/Q17141490","display_name":"Training (meteorology)","level":2,"score":0.4512999951839447},{"id":"https://openalex.org/C47177190","wikidata":"https://www.wikidata.org/wiki/Q207137","display_name":"Curriculum","level":2,"score":0.4415999948978424},{"id":"https://openalex.org/C177148314","wikidata":"https://www.wikidata.org/wiki/Q170084","display_name":"Generalization","level":2,"score":0.4372999966144562},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.43540000915527344},{"id":"https://openalex.org/C7149132","wikidata":"https://www.wikidata.org/wiki/Q1377840","display_name":"Forgetting","level":2,"score":0.43050000071525574},{"id":"https://openalex.org/C17098449","wikidata":"https://www.wikidata.org/wiki/Q176814","display_name":"Partially observable Markov decision process","level":4,"score":0.4068000018596649},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.3864000141620636},{"id":"https://openalex.org/C2776760102","wikidata":"https://www.wikidata.org/wiki/Q5139990","display_name":"Code (set theory)","level":3,"score":0.36550000309944153},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.35929998755455017},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.31859999895095825},{"id":"https://openalex.org/C136197465","wikidata":"https://www.wikidata.org/wiki/Q1729295","display_name":"Variety (cybernetics)","level":2,"score":0.29980000853538513},{"id":"https://openalex.org/C77618280","wikidata":"https://www.wikidata.org/wiki/Q1155772","display_name":"Scheme (mathematics)","level":2,"score":0.2768999934196472},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.275299996137619},{"id":"https://openalex.org/C136389625","wikidata":"https://www.wikidata.org/wiki/Q334384","display_name":"Supervised learning","level":3,"score":0.26330000162124634},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.2624000012874603}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.24139","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.24139","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.24139","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.24139","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"display_name":"Peace, Justice and strong institutions","score":0.5217863321304321,"id":"https://metadata.un.org/sdg/16"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Standard":[0],"supervised":[1],"training":[2,38,44,80,124,169,189],"for":[3,16,78],"deepfake":[4,61],"detection":[5],"treats":[6],"all":[7],"samples":[8],"with":[9],"uniform":[10],"importance,":[11],"which":[12],"can":[13],"be":[14],"suboptimal":[15],"learning":[17,92],"robust":[18],"and":[19,98,167],"generalizable":[20],"features.":[21],"In":[22],"this":[23,103,174],"work,":[24],"we":[25],"propose":[26],"a":[27,47,52,58,67,74,112,152,164],"novel":[28],"Tutor-Student":[29],"Reinforcement":[30],"Learning":[31],"(TSRL)":[32],"framework":[33],"to":[34,56,116,142,150,163,187],"dynamically":[35,121],"optimize":[36],"the":[37,43,105,117,123,132,148,178],"curriculum.":[39],"Our":[40],"method":[41],"models":[42],"process":[45],"as":[46,66,95,159],"Markov":[48],"Decision":[49],"Process":[50],"where":[51],"``Tutor''":[53],"agent":[54],"learns":[55],"guide":[57],"``Student''":[59],"(the":[60],"detector).":[62],"The":[63,126],"Tutor,":[64],"implemented":[65],"Proximal":[68],"Policy":[69],"Optimization":[70],"(PPO)":[71],"agent,":[72],"observes":[73],"rich":[75],"state":[76],"representation":[77],"each":[79],"sample,":[81],"encapsulating":[82],"not":[83],"only":[84],"its":[85,90],"visual":[86],"features":[87],"but":[88],"also":[89],"historical":[91],"dynamics,":[93],"such":[94,158],"EMA":[96],"loss":[97],"forgetting":[99],"counts.":[100],"Based":[101],"on":[102,131],"state,":[104],"Tutor":[106,127,149],"takes":[107],"an":[108],"action":[109],"by":[110],"assigning":[111],"continuous":[113],"weight":[114],"(0-1)":[115],"sample's":[118],"loss,":[119],"thereby":[120],"re-weighting":[122],"batch.":[125],"is":[128,192],"rewarded":[129],"based":[130],"Student's":[133,179],"immediate":[134],"performance":[135],"change,":[136],"specifically":[137],"rewarding":[138],"transitions":[139],"from":[140],"incorrect":[141],"correct":[143],"predictions.":[144],"This":[145],"strategy":[146],"encourages":[147],"learn":[151],"curriculum":[153,176],"that":[154,173],"prioritizes":[155],"high-value":[156],"samples,":[157],"hard-but-learnable":[160],"examples,":[161],"leading":[162],"more":[165],"efficient":[166],"effective":[168],"process.":[170],"We":[171],"demonstrate":[172],"adaptive":[175],"improves":[177],"generalization":[180],"capabilities":[181],"against":[182],"unseen":[183],"manipulation":[184],"techniques":[185],"compared":[186],"traditional":[188],"methods.":[190],"Code":[191],"available":[193],"at":[194],"https://github.com/wannac1/TSRL.":[195]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-03-27T00:00:00"}