{"id":"https://openalex.org/W7138877196","doi":"https://doi.org/10.1609/aaai.v40i39.40560","title":"SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling","display_name":"SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling","publication_year":2026,"publication_date":"2026-03-14","ids":{"openalex":"https://openalex.org/W7138877196","doi":"https://doi.org/10.1609/aaai.v40i39.40560"},"language":null,"primary_location":{"id":"doi:10.1609/aaai.v40i39.40560","is_oa":true,"landing_page_url":"https://doi.org/10.1609/aaai.v40i39.40560","pdf_url":"https://ojs.aaai.org/index.php/AAAI/article/download/40560/44521","source":{"id":"https://openalex.org/S4210191458","display_name":"Proceedings of the AAAI Conference on Artificial Intelligence","issn_l":"2159-5399","issn":["2159-5399","2374-3468"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/P4310320058","host_organization_name":"Association for the Advancement of Artificial Intelligence","host_organization_lineage":["https://openalex.org/P4310320058"],"host_organization_lineage_names":["Association for the Advancement of Artificial Intelligence"],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the AAAI Conference on Artificial Intelligence","raw_type":"journal-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"diamond","oa_url":"https://ojs.aaai.org/index.php/AAAI/article/download/40560/44521","any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":null,"display_name":"Md Imbesat Hassan Rizvi","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Md Imbesat Hassan Rizvi","raw_affiliation_strings":["Technical University of Darmstadt, Germany"],"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"Xiaodan Zhu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xiaodan Zhu","raw_affiliation_strings":["Queen\u2019s University, Canada"],"affiliations":[]},{"author_position":"last","author":{"id":null,"display_name":"Iryna Gurevych","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Iryna Gurevych","raw_affiliation_strings":["Technical University of Darmstadt, Germany"],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":3,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":true,"cited_by_count":0,"citation_normalized_percentile":{"value":0.76993044,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":"40","issue":"39","first_page":"32808","last_page":"32816"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.37599998712539673,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.37599998712539673,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T13629","display_name":"Text Readability and Simplification","score":0.07850000262260437,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10703","display_name":"Business Process Modeling and Analysis","score":0.0640999972820282,"subfield":{"id":"https://openalex.org/subfields/1404","display_name":"Management Information Systems"},"field":{"id":"https://openalex.org/fields/14","display_name":"Business, Management and Accounting"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/annotation","display_name":"Annotation","score":0.7491999864578247},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.6355000138282776},{"id":"https://openalex.org/keywords/ranking","display_name":"Ranking (information retrieval)","score":0.5602999925613403},{"id":"https://openalex.org/keywords/scalability","display_name":"Scalability","score":0.4932999908924103},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.4672999978065491},{"id":"https://openalex.org/keywords/speedup","display_name":"Speedup","score":0.41370001435279846}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.8057000041007996},{"id":"https://openalex.org/C2776321320","wikidata":"https://www.wikidata.org/wiki/Q857525","display_name":"Annotation","level":2,"score":0.7491999864578247},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6601999998092651},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.6355000138282776},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.5921000242233276},{"id":"https://openalex.org/C189430467","wikidata":"https://www.wikidata.org/wiki/Q7293293","display_name":"Ranking (information retrieval)","level":2,"score":0.5602999925613403},{"id":"https://openalex.org/C48044578","wikidata":"https://www.wikidata.org/wiki/Q727490","display_name":"Scalability","level":2,"score":0.4932999908924103},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.4672999978065491},{"id":"https://openalex.org/C68339613","wikidata":"https://www.wikidata.org/wiki/Q1549489","display_name":"Speedup","level":2,"score":0.41370001435279846},{"id":"https://openalex.org/C48145219","wikidata":"https://www.wikidata.org/wiki/Q1335365","display_name":"Security token","level":2,"score":0.3952000141143799},{"id":"https://openalex.org/C204321447","wikidata":"https://www.wikidata.org/wiki/Q30642","display_name":"Natural language processing","level":1,"score":0.36250001192092896},{"id":"https://openalex.org/C127705205","wikidata":"https://www.wikidata.org/wiki/Q5748245","display_name":"Heuristics","level":2,"score":0.3199000060558319},{"id":"https://openalex.org/C194648553","wikidata":"https://www.wikidata.org/wiki/Q1364774","display_name":"Spare part","level":2,"score":0.3156999945640564},{"id":"https://openalex.org/C124101348","wikidata":"https://www.wikidata.org/wiki/Q172491","display_name":"Data mining","level":1,"score":0.28949999809265137},{"id":"https://openalex.org/C77967617","wikidata":"https://www.wikidata.org/wiki/Q4677561","display_name":"Active learning (machine learning)","level":2,"score":0.2793999910354614},{"id":"https://openalex.org/C137293760","wikidata":"https://www.wikidata.org/wiki/Q3621696","display_name":"Language model","level":2,"score":0.27410000562667847},{"id":"https://openalex.org/C76956256","wikidata":"https://www.wikidata.org/wiki/Q27610560","display_name":"Process modeling","level":3,"score":0.2612999975681305}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1609/aaai.v40i39.40560","is_oa":true,"landing_page_url":"https://doi.org/10.1609/aaai.v40i39.40560","pdf_url":"https://ojs.aaai.org/index.php/AAAI/article/download/40560/44521","source":{"id":"https://openalex.org/S4210191458","display_name":"Proceedings of the AAAI Conference on Artificial Intelligence","issn_l":"2159-5399","issn":["2159-5399","2374-3468"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/P4310320058","host_organization_name":"Association for the Advancement of Artificial Intelligence","host_organization_lineage":["https://openalex.org/P4310320058"],"host_organization_lineage_names":["Association for the Advancement of Artificial Intelligence"],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the AAAI Conference on Artificial Intelligence","raw_type":"journal-article"}],"best_oa_location":{"id":"doi:10.1609/aaai.v40i39.40560","is_oa":true,"landing_page_url":"https://doi.org/10.1609/aaai.v40i39.40560","pdf_url":"https://ojs.aaai.org/index.php/AAAI/article/download/40560/44521","source":{"id":"https://openalex.org/S4210191458","display_name":"Proceedings of the AAAI Conference on Artificial Intelligence","issn_l":"2159-5399","issn":["2159-5399","2374-3468"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/P4310320058","host_organization_name":"Association for the Advancement of Artificial Intelligence","host_organization_lineage":["https://openalex.org/P4310320058"],"host_organization_lineage_names":["Association for the Advancement of Artificial Intelligence"],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the AAAI Conference on Artificial Intelligence","raw_type":"journal-article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":true,"grobid_xml":true},"content_urls":{"pdf":"https://content.openalex.org/works/W7138877196.pdf","grobid_xml":"https://content.openalex.org/works/W7138877196.grobid-xml"},"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Process":[0,97],"or":[1],"step-wise":[2],"supervision":[3,184],"has":[4],"played":[5],"a":[6,27,41,176],"crucial":[7],"role":[8],"in":[9,65,92,151,185],"advancing":[10],"complex":[11],"multi-step":[12],"reasoning":[13,64,78,87],"capabilities":[14],"of":[15,128,153],"Large":[16],"Language":[17],"Models":[18,99],"(LLMs).":[19],"However,":[20],"efficient,":[21],"high-quality":[22],"automated":[23],"process":[24,183],"annotation":[25,49],"remains":[26],"significant":[28],"challenge.":[29],"To":[30],"address":[31],"this,":[32],"we":[33],"introduce":[34],"Single-Pass":[35],"Annotation":[36],"with":[37,62,144,163],"Reference-Guided":[38],"Evaluation":[39],"(SPARE),":[40],"novel":[42],"structured":[43],"framework":[44],"that":[45],"enables":[46],"efficient":[47],"per-step":[48],"by":[50],"jointly":[51],"aligning":[52],"solution":[53,180],"steps":[54],"to":[55,132],"reference":[56],"solutions":[57],"and":[58,85,103,107,134,178],"determine":[59],"its":[60],"accuracy":[61],"explicit":[63],"single":[66],"generation.":[67],"We":[68],"demonstrate":[69],"SPARE's":[70],"effectiveness":[71],"across":[72],"four":[73],"diverse":[74],"datasets":[75],"spanning":[76],"mathematical":[77],"(GSM8K,":[79],"MATH),":[80],"multi-hop":[81],"question":[82],"answering":[83],"(MuSiQue-Ans),":[84],"spatial":[86],"(SpaRP),":[88],"showing":[89],"consistent":[90],"improvements":[91],"two":[93],"applications:":[94],"(1)":[95],"training":[96,129],"Reward":[98],"(PRMs)":[100],"for":[101,115,168,181],"ranking":[102],"aggregating":[104],"multiple":[105],"generations,":[106],"(2)":[108],"fine-tuning":[109],"models":[110],"via":[111],"offline":[112],"reinforcement":[113],"learning":[114],"greedy":[116],"decoding.":[117],"On":[118],"PROCESSBENCH,":[119],"SPARE":[120,174],"demonstrates":[121],"data-efficient":[122],"out-of-distribution":[123],"generalization,":[124],"using":[125],"only":[126],"~16%":[127],"samples":[130],"compared":[131],"human-labeled":[133],"other":[135],"synthetically":[136],"trained":[137],"baselines.":[138],"Additionally,":[139],"it":[140],"achieves":[141],"competitive":[142],"performance":[143],"MCTS-based":[145],"methods":[146],"while":[147],"offering":[148],"2.3x":[149],"speedup":[150],"terms":[152],"total":[154],"token":[155],"count.":[156],"Manual":[157],"analysis":[158],"reveals":[159],"complementary":[160],"precision-recall":[161],"characteristics":[162],"MCTS":[164],"approaches,":[165],"suggesting":[166],"potential":[167],"ensemble":[169],"methods.":[170],"These":[171],"results":[172],"establish":[173],"as":[175],"practical":[177],"scalable":[179],"automatic":[182],"LLM":[186],"reasoning.":[187]},"counts_by_year":[],"updated_date":"2026-03-20T23:20:44.827607","created_date":"2026-03-06T00:00:00"}