{"id":"https://openalex.org/W7133333702","doi":"https://doi.org/10.48550/arxiv.2603.01221","title":"Epistemic Gain, Aleatoric Cost: Uncertainty Decomposition in Multi-Agent Debate for Math Reasoning","display_name":"Epistemic Gain, Aleatoric Cost: Uncertainty Decomposition in Multi-Agent Debate for Math Reasoning","publication_year":2026,"publication_date":"2026-03-01","ids":{"openalex":"https://openalex.org/W7133333702","doi":"https://doi.org/10.48550/arxiv.2603.01221"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.01221","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.01221","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.01221","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5128010119","display_name":"Dan Qiao","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Qiao, Dan","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5124933298","display_name":"Binbin Chen","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Chen, Binbin","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5127978085","display_name":"Fengyu Cai","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Cai, Fengyu","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5127982672","display_name":"Jianlong Chen","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Chen, Jianlong","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5127930914","display_name":"Wenhao Li","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Li, Wenhao","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5124966398","display_name":"Fuxin Jiang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Jiang, Fuxin","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5127954293","display_name":"Zuzhi Chen","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Chen, Zuzhi","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128016507","display_name":"Hongyuan Zha","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zha, Hongyuan","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5101487889","display_name":"Tieying Zhang","orcid":"https://orcid.org/0009-0003-2250-5528"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhang, Tieying","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5128014227","display_name":"Baoxiang Wang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Baoxiang","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":10,"corresponding_author_ids":["https://openalex.org/A5128010119"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10456","display_name":"Multi-Agent Systems and Negotiation","score":0.19519999623298645,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10456","display_name":"Multi-Agent Systems and Negotiation","score":0.19519999623298645,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11883","display_name":"Embodied and Extended Cognition","score":0.15790000557899475,"subfield":{"id":"https://openalex.org/subfields/2805","display_name":"Cognitive Neuroscience"},"field":{"id":"https://openalex.org/fields/28","display_name":"Neuroscience"},"domain":{"id":"https://openalex.org/domains/1","display_name":"Life Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.061900001019239426,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/uncertainty-quantification","display_name":"Uncertainty quantification","score":0.7303000092506409},{"id":"https://openalex.org/keywords/context","display_name":"Context (archaeology)","score":0.5885000228881836},{"id":"https://openalex.org/keywords/bayesian-probability","display_name":"Bayesian probability","score":0.5200999975204468},{"id":"https://openalex.org/keywords/divergence","display_name":"Divergence (linguistics)","score":0.41130000352859497},{"id":"https://openalex.org/keywords/uncertainty-reduction-theory","display_name":"Uncertainty reduction theory","score":0.4072999954223633},{"id":"https://openalex.org/keywords/bayesian-inference","display_name":"Bayesian inference","score":0.38749998807907104},{"id":"https://openalex.org/keywords/class","display_name":"Class (philosophy)","score":0.3756999969482422},{"id":"https://openalex.org/keywords/epistemic-virtue","display_name":"Epistemic virtue","score":0.37450000643730164}],"concepts":[{"id":"https://openalex.org/C32230216","wikidata":"https://www.wikidata.org/wiki/Q7882499","display_name":"Uncertainty quantification","level":2,"score":0.7303000092506409},{"id":"https://openalex.org/C2779343474","wikidata":"https://www.wikidata.org/wiki/Q3109175","display_name":"Context (archaeology)","level":2,"score":0.5885000228881836},{"id":"https://openalex.org/C107673813","wikidata":"https://www.wikidata.org/wiki/Q812534","display_name":"Bayesian probability","level":2,"score":0.5200999975204468},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4828999936580658},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.41609999537467957},{"id":"https://openalex.org/C207390915","wikidata":"https://www.wikidata.org/wiki/Q1230525","display_name":"Divergence (linguistics)","level":2,"score":0.41130000352859497},{"id":"https://openalex.org/C111472728","wikidata":"https://www.wikidata.org/wiki/Q9471","display_name":"Epistemology","level":1,"score":0.4097999930381775},{"id":"https://openalex.org/C94361409","wikidata":"https://www.wikidata.org/wiki/Q7882500","display_name":"Uncertainty reduction theory","level":2,"score":0.4072999954223633},{"id":"https://openalex.org/C160234255","wikidata":"https://www.wikidata.org/wiki/Q812535","display_name":"Bayesian inference","level":3,"score":0.38749998807907104},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.37709999084472656},{"id":"https://openalex.org/C2777212361","wikidata":"https://www.wikidata.org/wiki/Q5127848","display_name":"Class (philosophy)","level":2,"score":0.3756999969482422},{"id":"https://openalex.org/C135584619","wikidata":"https://www.wikidata.org/wiki/Q5383593","display_name":"Epistemic virtue","level":3,"score":0.37450000643730164},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.3637999892234802},{"id":"https://openalex.org/C12713177","wikidata":"https://www.wikidata.org/wiki/Q1900281","display_name":"Perspective (graphical)","level":2,"score":0.3628999888896942},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3587000072002411},{"id":"https://openalex.org/C2777366796","wikidata":"https://www.wikidata.org/wiki/Q6017758","display_name":"Indeterminacy (philosophy)","level":2,"score":0.319599986076355},{"id":"https://openalex.org/C111335779","wikidata":"https://www.wikidata.org/wiki/Q3454686","display_name":"Reduction (mathematics)","level":2,"score":0.3037000000476837},{"id":"https://openalex.org/C124681953","wikidata":"https://www.wikidata.org/wiki/Q339062","display_name":"Decomposition","level":2,"score":0.2870999872684479},{"id":"https://openalex.org/C37381756","wikidata":"https://www.wikidata.org/wiki/Q20203288","display_name":"Representativeness heuristic","level":2,"score":0.2782000005245209},{"id":"https://openalex.org/C99498987","wikidata":"https://www.wikidata.org/wiki/Q2210247","display_name":"Noise (video)","level":3,"score":0.2766999900341034},{"id":"https://openalex.org/C18296254","wikidata":"https://www.wikidata.org/wiki/Q1395219","display_name":"Skepticism","level":2,"score":0.274399995803833},{"id":"https://openalex.org/C7493553","wikidata":"https://www.wikidata.org/wiki/Q1520777","display_name":"Certainty","level":2,"score":0.25589999556541443},{"id":"https://openalex.org/C171752962","wikidata":"https://www.wikidata.org/wiki/Q255166","display_name":"Kullback\u2013Leibler divergence","level":2,"score":0.251800000667572},{"id":"https://openalex.org/C137209882","wikidata":"https://www.wikidata.org/wiki/Q1403517","display_name":"Measurement uncertainty","level":2,"score":0.2500999867916107}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.01221","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.01221","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.01221","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.01221","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/4","display_name":"Quality Education","score":0.5723292827606201}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Multi-Agent":[0],"Debate":[1],"(MAD)":[2],"has":[3],"shown":[4],"promise":[5],"in":[6,40],"leveraging":[7],"collective":[8],"intelligence":[9],"to":[10],"improve":[11],"reasoning":[12,140],"and":[13,43,48,76,122,135,137,152],"reduce":[14],"hallucinations,":[15],"yet":[16],"it":[17],"remains":[18],"unclear":[19],"how":[20],"information":[21,124],"exchange":[22],"shapes":[23],"the":[24],"underlying":[25],"ability.":[26],"Empirically,":[27],"MAD":[28],"exhibits":[29],"paradoxical":[30],"phenomena,":[31],"such":[32],"as":[33],"accuracy":[34,134],"improvement":[35],"accompanied":[36],"by":[37,73,80],"substantial":[38],"increase":[39],"token":[41],"entropy,":[42],"remarkable":[44],"divergence":[45],"between":[46],"homogeneous":[47],"heterogeneous":[49],"model":[50,82,86],"combinations.":[51],"In":[52],"this":[53,105],"paper,":[54],"we":[55,88,107],"propose":[56],"a":[57,145],"Bayesian":[58,147],"uncertainty":[59,68,71,78,148],"analysis":[60],"framework":[61],"for":[62,150],"MAD,":[63],"which":[64],"decomposes":[65],"total":[66],"predictive":[67],"into":[69],"epistemic":[70,97,123],"reducible":[72],"debate":[74,92],"context":[75],"aleatoric":[77,101,119],"induced":[79],"internal":[81],"noise.":[83],"Across":[84],"multiple":[85],"configurations,":[87],"find":[89],"that":[90,116,128],"effective":[91],"hinges":[93],"on":[94,104],"achieving":[95],"high":[96],"gain":[98],"under":[99],"controlled":[100],"cost.":[102],"Building":[103],"insight,":[106],"design":[108],"an":[109],"uncertainty-guided":[110],"multi-agent":[111],"reinforcement":[112],"learning":[113],"(MARL)":[114],"algorithm":[115],"explicitly":[117],"optimizes":[118],"noise":[120],"reduction":[121],"utilization.":[125],"Experiments":[126],"show":[127],"our":[129],"training":[130],"significantly":[131],"improves":[132],"post-debate":[133],"stability,":[136],"enhances":[138],"individual":[139],"beyond":[141],"single-agent":[142],"RL,":[143],"providing":[144],"unified":[146],"perspective":[149],"understanding":[151],"improving":[153],"MAD.":[154]},"counts_by_year":[],"updated_date":"2026-03-04T07:09:34.246503","created_date":"2026-03-04T00:00:00"}