{"id":"https://openalex.org/W7160536371","doi":"https://doi.org/10.48550/arxiv.2605.05179","title":"Estimating the expected output of wide random MLPs more efficiently than sampling","display_name":"Estimating the expected output of wide random MLPs more efficiently than sampling","publication_year":2026,"publication_date":"2026-05-06","ids":{"openalex":"https://openalex.org/W7160536371","doi":"https://doi.org/10.48550/arxiv.2605.05179"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2605.05179","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.05179","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2605.05179","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5103546866","display_name":"Wilson Wu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wu, Wilson","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5114328829","display_name":"Victor Lecomte","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lecomte, Victor","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135566471","display_name":"Michael Winer","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Winer, Michael","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135629329","display_name":"George Robinson","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Robinson, George","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135603598","display_name":"Jacob Hilton","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Hilton, Jacob","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5135616815","display_name":"Paul Christiano","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Christiano, Paul","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":6,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.18709999322891235,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.18709999322891235,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.09449999779462814,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.06069999933242798,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/estimator","display_name":"Estimator","score":0.7839000225067139},{"id":"https://openalex.org/keywords/monte-carlo-method","display_name":"Monte Carlo method","score":0.630299985408783},{"id":"https://openalex.org/keywords/importance-sampling","display_name":"Importance sampling","score":0.5663999915122986},{"id":"https://openalex.org/keywords/sampling","display_name":"Sampling (signal processing)","score":0.5232999920845032},{"id":"https://openalex.org/keywords/cumulant","display_name":"Cumulant","score":0.5001999735832214},{"id":"https://openalex.org/keywords/gaussian","display_name":"Gaussian","score":0.49790000915527344},{"id":"https://openalex.org/keywords/mean-squared-error","display_name":"Mean squared error","score":0.4542999863624573},{"id":"https://openalex.org/keywords/rare-events","display_name":"Rare events","score":0.41449999809265137},{"id":"https://openalex.org/keywords/path","display_name":"Path (computing)","score":0.38659998774528503}],"concepts":[{"id":"https://openalex.org/C185429906","wikidata":"https://www.wikidata.org/wiki/Q1130160","display_name":"Estimator","level":2,"score":0.7839000225067139},{"id":"https://openalex.org/C19499675","wikidata":"https://www.wikidata.org/wiki/Q232207","display_name":"Monte Carlo method","level":2,"score":0.630299985408783},{"id":"https://openalex.org/C52740198","wikidata":"https://www.wikidata.org/wiki/Q1539564","display_name":"Importance sampling","level":3,"score":0.5663999915122986},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.525600016117096},{"id":"https://openalex.org/C140779682","wikidata":"https://www.wikidata.org/wiki/Q210868","display_name":"Sampling (signal processing)","level":3,"score":0.5232999920845032},{"id":"https://openalex.org/C172686274","wikidata":"https://www.wikidata.org/wiki/Q746007","display_name":"Cumulant","level":2,"score":0.5001999735832214},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.49799999594688416},{"id":"https://openalex.org/C163716315","wikidata":"https://www.wikidata.org/wiki/Q901177","display_name":"Gaussian","level":2,"score":0.49790000915527344},{"id":"https://openalex.org/C139945424","wikidata":"https://www.wikidata.org/wiki/Q1940696","display_name":"Mean squared error","level":2,"score":0.4542999863624573},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.4415999948978424},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.43549999594688416},{"id":"https://openalex.org/C2777317252","wikidata":"https://www.wikidata.org/wiki/Q18393516","display_name":"Rare events","level":2,"score":0.41449999809265137},{"id":"https://openalex.org/C2777735758","wikidata":"https://www.wikidata.org/wiki/Q817765","display_name":"Path (computing)","level":2,"score":0.38659998774528503},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.3544999957084656},{"id":"https://openalex.org/C187192777","wikidata":"https://www.wikidata.org/wiki/Q381699","display_name":"Rejection sampling","level":5,"score":0.3206999897956848},{"id":"https://openalex.org/C61326573","wikidata":"https://www.wikidata.org/wiki/Q1496376","display_name":"Gaussian process","level":3,"score":0.30959999561309814},{"id":"https://openalex.org/C167928553","wikidata":"https://www.wikidata.org/wiki/Q1376021","display_name":"Estimation theory","level":2,"score":0.30250000953674316},{"id":"https://openalex.org/C201362023","wikidata":"https://www.wikidata.org/wiki/Q658574","display_name":"Hermite polynomials","level":2,"score":0.2969000041484833},{"id":"https://openalex.org/C149441793","wikidata":"https://www.wikidata.org/wiki/Q200726","display_name":"Probability distribution","level":2,"score":0.28610000014305115},{"id":"https://openalex.org/C141042865","wikidata":"https://www.wikidata.org/wiki/Q200125","display_name":"Expected value","level":2,"score":0.2809999883174896},{"id":"https://openalex.org/C96250715","wikidata":"https://www.wikidata.org/wiki/Q965330","display_name":"Estimation","level":2,"score":0.2800999879837036},{"id":"https://openalex.org/C167085575","wikidata":"https://www.wikidata.org/wiki/Q6803654","display_name":"Mean squared prediction error","level":2,"score":0.2646999955177307},{"id":"https://openalex.org/C198531522","wikidata":"https://www.wikidata.org/wiki/Q485146","display_name":"Sample (material)","level":2,"score":0.2635999917984009},{"id":"https://openalex.org/C111350023","wikidata":"https://www.wikidata.org/wiki/Q1191869","display_name":"Markov chain Monte Carlo","level":3,"score":0.25760000944137573},{"id":"https://openalex.org/C129848803","wikidata":"https://www.wikidata.org/wiki/Q2564360","display_name":"Sample size determination","level":2,"score":0.2547000050544739},{"id":"https://openalex.org/C13153151","wikidata":"https://www.wikidata.org/wiki/Q1639846","display_name":"Hybrid Monte Carlo","level":4,"score":0.2540000081062317},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.25369998812675476}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2605.05179","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.05179","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2605.05179","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.05179","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"By":[0],"far":[1],"the":[2,19,26,55,65,118],"most":[3],"common":[4],"way":[5],"to":[6,15,43,140],"estimate":[7,44],"an":[8,36],"expected":[9,46],"loss":[10,20],"in":[11],"machine":[12],"learning":[13],"is":[14,31],"draw":[16],"samples,":[17],"compute":[18],"on":[21],"each":[22,70],"one,":[23],"and":[24,77,84,123],"take":[25],"empirical":[27],"average.":[28],"However,":[29],"sampling":[30],"not":[32],"necessarily":[33],"optimal.":[34],"Given":[35],"MLP":[37],"at":[38,57,69,116],"initialization,":[39],"we":[40,60],"show":[41,81],"how":[42,126],"its":[45],"output":[47],"over":[48],"Gaussian":[49],"inputs":[50],"without":[51],"running":[52],"samples":[53],"through":[54],"network":[56],"all.":[58],"Instead,":[59],"produce":[61],"approximate":[62],"representations":[63],"of":[64,67,120,148],"distributions":[66],"activations":[68],"layer,":[71],"leveraging":[72],"tools":[73],"such":[74],"as":[75],"cumulants":[76],"Hermite":[78],"expansions.":[79],"We":[80,107],"both":[82],"theoretically":[83],"empirically":[85],"that":[86,110],"for":[87,131],"sufficiently":[88],"wide":[89],"networks,":[90],"our":[91,111],"estimator":[92],"achieves":[93],"a":[94,138,144],"target":[95],"mean":[96],"squared":[97],"error":[98],"using":[99],"substantially":[100],"fewer":[101],"FLOPs":[102],"than":[103],"Monte":[104],"Carlo":[105],"sampling.":[106],"find":[108],"moreover":[109],"methods":[112],"perform":[113],"particularly":[114],"well":[115],"estimating":[117],"probabilities":[119],"rare":[121],"events,":[122],"additionally":[124],"demonstrate":[125],"they":[127],"can":[128],"be":[129],"used":[130],"model":[132],"training.":[133],"Together,":[134],"these":[135],"findings":[136],"suggest":[137],"path":[139],"producing":[141],"models":[142],"with":[143],"greatly":[145],"reduced":[146],"probability":[147],"catastrophic":[149],"tail":[150],"risks.":[151]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-05-08T00:00:00"}