{"id":"https://openalex.org/W7153140238","doi":"https://doi.org/10.48550/arxiv.2604.08124","title":"Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search","display_name":"Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search","publication_year":2026,"publication_date":"2026-04-09","ids":{"openalex":"https://openalex.org/W7153140238","doi":"https://doi.org/10.48550/arxiv.2604.08124"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2604.08124","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.08124","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2604.08124","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5104152397","display_name":"Chuzhan Hao","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Hao, Chuzhan","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5133385127","display_name":"Wenfeng Feng","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Feng, Wenfeng","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5109715043","display_name":"Guochao Jiang","orcid":"https://orcid.org/0009-0002-3415-4473"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Jiang, Guochao","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5069209484","display_name":"Guofeng Quan","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Quan, Guofeng","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5133371612","display_name":"Guohua Liu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Liu, Guohua","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5133375549","display_name":"Yuewei Zhang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhang, Yuewei","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":6,"corresponding_author_ids":["https://openalex.org/A5104152397"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.2994999885559082,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.2994999885559082,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.09529999643564224,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12090","display_name":"Language and cultural evolution","score":0.05990000069141388,"subfield":{"id":"https://openalex.org/subfields/3316","display_name":"Cultural Studies"},"field":{"id":"https://openalex.org/fields/33","display_name":"Social Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/stability","display_name":"Stability (learning theory)","score":0.5670999884605408},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.5263000130653381},{"id":"https://openalex.org/keywords/outcome","display_name":"Outcome (game theory)","score":0.4796999990940094},{"id":"https://openalex.org/keywords/cluster-analysis","display_name":"Cluster analysis","score":0.4706000089645386},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.4383000135421753},{"id":"https://openalex.org/keywords/range","display_name":"Range (aeronautics)","score":0.31150001287460327},{"id":"https://openalex.org/keywords/perspective","display_name":"Perspective (graphical)","score":0.2897999882698059},{"id":"https://openalex.org/keywords/training","display_name":"Training (meteorology)","score":0.2802000045776367}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7008000016212463},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.6144000291824341},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6103000044822693},{"id":"https://openalex.org/C112972136","wikidata":"https://www.wikidata.org/wiki/Q7595718","display_name":"Stability (learning theory)","level":2,"score":0.5670999884605408},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.5263000130653381},{"id":"https://openalex.org/C148220186","wikidata":"https://www.wikidata.org/wiki/Q7111912","display_name":"Outcome (game theory)","level":2,"score":0.4796999990940094},{"id":"https://openalex.org/C73555534","wikidata":"https://www.wikidata.org/wiki/Q622825","display_name":"Cluster analysis","level":2,"score":0.4706000089645386},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.4383000135421753},{"id":"https://openalex.org/C204323151","wikidata":"https://www.wikidata.org/wiki/Q905424","display_name":"Range (aeronautics)","level":2,"score":0.31150001287460327},{"id":"https://openalex.org/C12713177","wikidata":"https://www.wikidata.org/wiki/Q1900281","display_name":"Perspective (graphical)","level":2,"score":0.2897999882698059},{"id":"https://openalex.org/C2777211547","wikidata":"https://www.wikidata.org/wiki/Q17141490","display_name":"Training (meteorology)","level":2,"score":0.2802000045776367},{"id":"https://openalex.org/C132964779","wikidata":"https://www.wikidata.org/wiki/Q2110223","display_name":"Raw data","level":2,"score":0.2721000015735626},{"id":"https://openalex.org/C125583679","wikidata":"https://www.wikidata.org/wiki/Q755673","display_name":"Search algorithm","level":2,"score":0.2696000039577484},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.26660001277923584},{"id":"https://openalex.org/C61797465","wikidata":"https://www.wikidata.org/wiki/Q1188986","display_name":"Term (time)","level":2,"score":0.26499998569488525},{"id":"https://openalex.org/C22367795","wikidata":"https://www.wikidata.org/wiki/Q7625208","display_name":"Structured prediction","level":2,"score":0.2632000148296356},{"id":"https://openalex.org/C135320971","wikidata":"https://www.wikidata.org/wiki/Q1868524","display_name":"Local search (optimization)","level":2,"score":0.25780001282691956},{"id":"https://openalex.org/C126661757","wikidata":"https://www.wikidata.org/wiki/Q4925641","display_name":"Random search","level":2,"score":0.2554999887943268},{"id":"https://openalex.org/C77967617","wikidata":"https://www.wikidata.org/wiki/Q4677561","display_name":"Active learning (machine learning)","level":2,"score":0.2538999915122986}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2604.08124","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.08124","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2604.08124","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.08124","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Reinforcement":[0],"learning":[1],"(RL)":[2],"has":[3],"become":[4],"an":[5],"effective":[6],"approach":[7,128],"for":[8],"advancing":[9],"the":[10,19,67],"reasoning":[11,48,90,123],"capabilities":[12],"of":[13,22,36,72],"large":[14],"language":[15],"models":[16],"(LLMs)":[17],"through":[18,80],"strategic":[20,109],"integration":[21],"external":[23],"search":[24,29,73,112,120],"engines.":[25],"However,":[26],"current":[27],"RL-based":[28],"agents":[30],"often":[31],"rely":[32],"on":[33,116],"a":[34,59,84,108],"process":[35],"stochastic":[37,103],"exploration":[38],"guided":[39],"by":[40],"carefully":[41],"crafted":[42],"outcome":[43],"rewards,":[44],"leading":[45],"to":[46,65],"inefficient":[47],"trajectories":[49,91],"and":[50,69,83,110,121,140],"unstable":[51],"training.":[52],"To":[53],"address":[54],"these":[55],"issues,":[56],"we":[57,76,100],"propose":[58],"novel":[60],"framework,":[61],"Hierarchical":[62],"Experience":[63],"(HiExp),":[64],"enhance":[66],"performance":[68,133],"training":[70],"stability":[71],"agents.":[74],"Specifically,":[75],"extract":[77],"empirical":[78],"knowledge":[79],"contrastive":[81],"analysis":[82],"multi-level":[85],"clustering":[86],"mechanism,":[87],"transforming":[88],"raw":[89],"into":[92,107],"hierarchical":[93],"experience":[94],"knowledge.":[95],"By":[96],"leveraging":[97],"experience-aligned":[98],"training,":[99],"effectively":[101],"regularize":[102],"exploration,":[104],"evolving":[105],"it":[106],"experience-driven":[111],"process.":[113],"Extensive":[114],"evaluations":[115],"multiple":[117],"complex":[118],"agentic":[119],"mathematical":[122],"benchmarks":[124],"demonstrate":[125],"that":[126],"our":[127],"not":[129],"only":[130],"achieves":[131],"substantial":[132],"gains":[134],"but":[135],"also":[136],"exhibits":[137],"strong":[138],"cross-task":[139],"cross-algorithm":[141],"generalization.":[142]},"counts_by_year":[],"updated_date":"2026-04-11T06:19:08.300824","created_date":"2026-04-11T00:00:00"}