{"id":"https://openalex.org/W7106795080","doi":"https://doi.org/10.48550/arxiv.2511.19808","title":"Learning to Clean: Reinforcement Learning for Noisy Label Correction","display_name":"Learning to Clean: Reinforcement Learning for Noisy Label Correction","publication_year":2025,"publication_date":"2025-11-25","ids":{"openalex":"https://openalex.org/W7106795080","doi":"https://doi.org/10.48550/arxiv.2511.19808"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2511.19808","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2511.19808","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2511.19808","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":null,"display_name":"Heidari, Marzi","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Heidari, Marzi","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"Zhang, Hanping","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhang, Hanping","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":null,"display_name":"Guo, Yuhong","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Guo, Yuhong","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":3,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12535","display_name":"Machine Learning and Data Classification","score":0.958899974822998,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T12535","display_name":"Machine Learning and Data Classification","score":0.958899974822998,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11550","display_name":"Text and Document Classification Technologies","score":0.016599999740719795,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T14351","display_name":"Statistical and Computational Modeling","score":0.002400000113993883,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.892300009727478},{"id":"https://openalex.org/keywords/benchmark","display_name":"Benchmark (surveying)","score":0.6284000277519226},{"id":"https://openalex.org/keywords/noisy-data","display_name":"Noisy data","score":0.5685999989509583},{"id":"https://openalex.org/keywords/feature","display_name":"Feature (linguistics)","score":0.5135999917984009},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.43619999289512634},{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.4228000044822693},{"id":"https://openalex.org/keywords/state-space","display_name":"State space","score":0.39169999957084656},{"id":"https://openalex.org/keywords/feature-learning","display_name":"Feature learning","score":0.3555999994277954},{"id":"https://openalex.org/keywords/key","display_name":"Key (lock)","score":0.3499000072479248}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.892300009727478},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.7656000256538391},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7608000040054321},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.6333000063896179},{"id":"https://openalex.org/C185798385","wikidata":"https://www.wikidata.org/wiki/Q1161707","display_name":"Benchmark (surveying)","level":2,"score":0.6284000277519226},{"id":"https://openalex.org/C2781170535","wikidata":"https://www.wikidata.org/wiki/Q30587856","display_name":"Noisy data","level":2,"score":0.5685999989509583},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.5135999917984009},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.43619999289512634},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.4228000044822693},{"id":"https://openalex.org/C72434380","wikidata":"https://www.wikidata.org/wiki/Q230930","display_name":"State space","level":2,"score":0.39169999957084656},{"id":"https://openalex.org/C59404180","wikidata":"https://www.wikidata.org/wiki/Q17013334","display_name":"Feature learning","level":2,"score":0.3555999994277954},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.3499000072479248},{"id":"https://openalex.org/C99498987","wikidata":"https://www.wikidata.org/wiki/Q2210247","display_name":"Noise (video)","level":3,"score":0.34860000014305115},{"id":"https://openalex.org/C2778572836","wikidata":"https://www.wikidata.org/wiki/Q380933","display_name":"Space (punctuation)","level":2,"score":0.3458000123500824},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.33809998631477356},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.3368000090122223},{"id":"https://openalex.org/C103088060","wikidata":"https://www.wikidata.org/wiki/Q1062839","display_name":"Error detection and correction","level":2,"score":0.33079999685287476},{"id":"https://openalex.org/C77618280","wikidata":"https://www.wikidata.org/wiki/Q1155772","display_name":"Scheme (mathematics)","level":2,"score":0.3206999897956848},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.314300000667572},{"id":"https://openalex.org/C83665646","wikidata":"https://www.wikidata.org/wiki/Q42139305","display_name":"Feature vector","level":2,"score":0.31040000915527344},{"id":"https://openalex.org/C2781002164","wikidata":"https://www.wikidata.org/wiki/Q6822311","display_name":"Meta learning (computer science)","level":3,"score":0.3043000102043152},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.30149999260902405},{"id":"https://openalex.org/C112972136","wikidata":"https://www.wikidata.org/wiki/Q7595718","display_name":"Stability (learning theory)","level":2,"score":0.2969000041484833},{"id":"https://openalex.org/C136389625","wikidata":"https://www.wikidata.org/wiki/Q334384","display_name":"Supervised learning","level":3,"score":0.28290000557899475},{"id":"https://openalex.org/C199190896","wikidata":"https://www.wikidata.org/wiki/Q3509276","display_name":"Learning classifier system","level":3,"score":0.2809000015258789},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.2709999978542328},{"id":"https://openalex.org/C2984842247","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep neural networks","level":3,"score":0.2621999979019165},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.26089999079704285}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2511.19808","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2511.19808","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2511.19808","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2511.19808","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"The":[0,43,103,123],"challenge":[1],"of":[2,19,80,119,125],"learning":[3,40,144],"with":[4,145],"noisy":[5,34,112,146],"labels":[6,114],"is":[7,106,127],"significant":[8],"in":[9],"machine":[10],"learning,":[11,98],"as":[12,37],"it":[13,137],"can":[14],"severely":[15],"degrade":[16],"the":[17,78,117,120],"performance":[18],"prediction":[20,121],"models":[21],"if":[22],"not":[23],"addressed":[24],"properly.":[25],"This":[26],"paper":[27],"introduces":[28],"a":[29,38,54,73,85],"novel":[30],"framework":[31],"that":[32,67,76],"conceptualizes":[33],"label":[35,70,81,94],"correction":[36,95],"reinforcement":[39,97],"(RL)":[41],"problem.":[42],"proposed":[44],"approach,":[45],"Reinforcement":[46],"Learning":[47],"for":[48,143],"Noisy":[49],"Label":[50],"Correction":[51],"(RLNLC),":[52],"defines":[53],"comprehensive":[55],"state":[56],"space":[57,66],"representing":[58],"data":[59],"and":[60,72,115],"their":[61],"associated":[62],"labels,":[63],"an":[64,100],"action":[65],"indicates":[68],"possible":[69],"corrections,":[71],"reward":[74],"mechanism":[75],"evaluates":[77],"efficacy":[79],"corrections.":[82],"RLNLC":[83,126],"learns":[84],"deep":[86],"feature":[87],"representation":[88],"based":[89],"policy":[90,105],"network":[91],"to":[92,109],"perform":[93],"through":[96,129],"utilizing":[99],"actor-critic":[101],"method.":[102],"learned":[104],"subsequently":[107],"deployed":[108],"iteratively":[110],"correct":[111],"training":[113,118],"facilitate":[116],"model.":[122],"effectiveness":[124],"demonstrated":[128],"extensive":[130],"experiments":[131],"on":[132],"multiple":[133],"benchmark":[134],"datasets,":[135],"where":[136],"consistently":[138],"outperforms":[139],"existing":[140],"state-of-the-art":[141],"techniques":[142],"labels.":[147]},"counts_by_year":[],"updated_date":"2025-11-28T02:12:24.556248","created_date":"2025-11-28T00:00:00"}