{"id":"https://openalex.org/W7153078816","doi":"https://doi.org/10.48550/arxiv.2604.07415","title":"SubSearch: Intermediate Rewards for Unsupervised Guided Reasoning in Complex Retrieval","display_name":"SubSearch: Intermediate Rewards for Unsupervised Guided Reasoning in Complex Retrieval","publication_year":2026,"publication_date":"2026-04-08","ids":{"openalex":"https://openalex.org/W7153078816","doi":"https://doi.org/10.48550/arxiv.2604.07415"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2604.07415","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.07415","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Preprint"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2604.07415","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5093967424","display_name":"Roxana Petcu","orcid":"https://orcid.org/0000-0002-2617-205X"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Petcu, Roxana","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5133320434","display_name":"Evangelos Kanoulas","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Kanoulas, Evangelos","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5133386523","display_name":"Maarten de Rijke","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"de Rijke, Maarten","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":0,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.3334999978542328,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.3334999978542328,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10286","display_name":"Information Retrieval and Search Behavior","score":0.1696999967098236,"subfield":{"id":"https://openalex.org/subfields/1710","display_name":"Information Systems"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.04659999907016754,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.6801999807357788},{"id":"https://openalex.org/keywords/probabilistic-logic","display_name":"Probabilistic logic","score":0.5837000012397766},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.522599995136261},{"id":"https://openalex.org/keywords/generator","display_name":"Generator (circuit theory)","score":0.5008000135421753},{"id":"https://openalex.org/keywords/outcome","display_name":"Outcome (game theory)","score":0.45820000767707825},{"id":"https://openalex.org/keywords/language-model","display_name":"Language model","score":0.3799000084400177},{"id":"https://openalex.org/keywords/opportunistic-reasoning","display_name":"Opportunistic reasoning","score":0.2922999858856201}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.8149999976158142},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.6801999807357788},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6639999747276306},{"id":"https://openalex.org/C49937458","wikidata":"https://www.wikidata.org/wiki/Q2599292","display_name":"Probabilistic logic","level":2,"score":0.5837000012397766},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.5246000289916992},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.522599995136261},{"id":"https://openalex.org/C2780992000","wikidata":"https://www.wikidata.org/wiki/Q17016113","display_name":"Generator (circuit theory)","level":3,"score":0.5008000135421753},{"id":"https://openalex.org/C148220186","wikidata":"https://www.wikidata.org/wiki/Q7111912","display_name":"Outcome (game theory)","level":2,"score":0.45820000767707825},{"id":"https://openalex.org/C137293760","wikidata":"https://www.wikidata.org/wiki/Q3621696","display_name":"Language model","level":2,"score":0.3799000084400177},{"id":"https://openalex.org/C204321447","wikidata":"https://www.wikidata.org/wiki/Q30642","display_name":"Natural language processing","level":1,"score":0.2978000044822693},{"id":"https://openalex.org/C86827895","wikidata":"https://www.wikidata.org/wiki/Q7098582","display_name":"Opportunistic reasoning","level":4,"score":0.2922999858856201},{"id":"https://openalex.org/C13687954","wikidata":"https://www.wikidata.org/wiki/Q4826847","display_name":"Autonomous agent","level":2,"score":0.271699994802475},{"id":"https://openalex.org/C204323151","wikidata":"https://www.wikidata.org/wiki/Q905424","display_name":"Range (aeronautics)","level":2,"score":0.2648000121116638},{"id":"https://openalex.org/C193221554","wikidata":"https://www.wikidata.org/wiki/Q5153664","display_name":"Commonsense reasoning","level":2,"score":0.2624000012874603},{"id":"https://openalex.org/C136389625","wikidata":"https://www.wikidata.org/wiki/Q334384","display_name":"Supervised learning","level":3,"score":0.25940001010894775},{"id":"https://openalex.org/C18762648","wikidata":"https://www.wikidata.org/wiki/Q42213","display_name":"Work (physics)","level":2,"score":0.2565999925136566},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.2565000057220459},{"id":"https://openalex.org/C184337299","wikidata":"https://www.wikidata.org/wiki/Q1437428","display_name":"Semantics (computer science)","level":2,"score":0.25290000438690186}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2604.07415","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.07415","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"Preprint"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2604.07415","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.07415","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Preprint"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Large":[0],"language":[1],"models":[2,41,54],"(LLMs)":[3],"are":[4],"probabilistic":[5],"in":[6,51,150,165],"nature":[7],"and":[8,125,153],"perform":[9],"more":[10,146],"reliably":[11],"when":[12],"augmented":[13],"with":[14,28,93,141],"external":[15,123],"information.":[16,57],"As":[17],"complex":[18,56,178],"queries":[19],"often":[20],"require":[21],"multi-step":[22],"reasoning":[23,33,139,148,167],"over":[24,157],"the":[25,46,107,120],"retrieved":[26],"information,":[27],"no":[29],"clear":[30],"or":[31,100],"predetermined":[32],"path,":[34],"they":[35],"remain":[36],"challenging.":[37],"Recent":[38],"approaches":[39],"train":[40],"using":[42,109,158],"reinforcement":[43],"learning":[44],"on":[45,81,87,132],"model's":[47],"outcome,":[48],"showing":[49],"promise":[50],"improving":[52],"how":[53],"handle":[55],"We":[58],"introduce":[59],"SubSearch,":[60],"a":[61,89,183],"specialized":[62],"framework":[63],"that":[64,73,136,169],"shifts":[65],"from":[66],"outcome-only":[67],"supervision":[68],"to":[69,145,172,186],"intermediate":[70,138],"reward":[71,83,91],"signals":[72],"incentivize":[74],"planning":[75],"high-quality":[76],"reasoning.":[77,130],"Unlike":[78],"previous":[79],"work":[80],"process":[82,111,188],"modeling,":[84],"which":[85,113],"focuses":[86],"training":[88],"separate":[90],"model":[92],"annotated":[94],"trajectories":[95],"by":[96],"either":[97],"human":[98],"annotators":[99],"large":[101],"LLM":[102],"judges,":[103],"SubSearch":[104,162],"directly":[105],"optimizes":[106],"generator":[108],"intrinsic":[110,142],"rewards,":[112,118],"we":[114],"define":[115],"as":[116],"internally-derived":[117],"eliminating":[119],"need":[121],"for":[122,177],"supervision,":[124],"moving":[126],"towards":[127],"autonomous":[128],"information-intensive":[129],"Experiments":[131],"seven":[133],"benchmarks":[134],"show":[135],"rewarding":[137],"steps":[140],"rewards":[143],"leads":[144],"robust":[147],"traces":[149,168],"both":[151],"QA":[152,155],"multi-hop":[154],"datasets":[156],"only":[159],"outcome":[160],"rewards.":[161],"can":[163],"help":[164],"building":[166],"allow":[170],"agents":[171],"better":[173],"integrate":[174],"search":[175],"engines":[176],"query":[179],"answering,":[180],"while":[181],"offering":[182],"data-efficient":[184],"alternative":[185],"supervised":[187],"modeling.":[189]},"counts_by_year":[],"updated_date":"2026-07-01T06:00:48.157686","created_date":"2026-04-11T00:00:00"}