{"id":"https://openalex.org/W7160038304","doi":"https://doi.org/10.48550/arxiv.2605.00581","title":"Gradient Regularized Newton Boosting Trees with Global Convergence","display_name":"Gradient Regularized Newton Boosting Trees with Global Convergence","publication_year":2026,"publication_date":"2026-05-01","ids":{"openalex":"https://openalex.org/W7160038304","doi":"https://doi.org/10.48550/arxiv.2605.00581"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2605.00581","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.00581","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2605.00581","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5106583769","display_name":"Nikita Zozoulenko","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zozoulenko, Nikita","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5051024654","display_name":"Daniel Falkowski","orcid":"https://orcid.org/0009-0004-4902-9645"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Falkowski, Daniel","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135208880","display_name":"Thomas Cass","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Cass, Thomas","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5069340033","display_name":"Lukas Gonon","orcid":"https://orcid.org/0000-0003-3367-2455"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Gonon, Lukas","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":4,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.8274000287055969,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.8274000287055969,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10764","display_name":"Privacy-Preserving Technologies in Data","score":0.05739999935030937,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.031700000166893005,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/newtons-method-in-optimization","display_name":"Newton's method in optimization","score":0.6261000037193298},{"id":"https://openalex.org/keywords/lipschitz-continuity","display_name":"Lipschitz continuity","score":0.5990999937057495},{"id":"https://openalex.org/keywords/boosting","display_name":"Boosting (machine learning)","score":0.5651000142097473},{"id":"https://openalex.org/keywords/gradient-descent","display_name":"Gradient descent","score":0.5557000041007996},{"id":"https://openalex.org/keywords/rate-of-convergence","display_name":"Rate of convergence","score":0.511900007724762},{"id":"https://openalex.org/keywords/gradient-boosting","display_name":"Gradient boosting","score":0.5062000155448914},{"id":"https://openalex.org/keywords/newtons-method","display_name":"Newton's method","score":0.4973999857902527},{"id":"https://openalex.org/keywords/square-root","display_name":"Square root","score":0.47929999232292175},{"id":"https://openalex.org/keywords/proximal-gradient-methods-for-learning","display_name":"Proximal gradient methods for learning","score":0.4726000130176544}],"concepts":[{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.7145000100135803},{"id":"https://openalex.org/C179127668","wikidata":"https://www.wikidata.org/wiki/Q17086396","display_name":"Newton's method in optimization","level":4,"score":0.6261000037193298},{"id":"https://openalex.org/C22324862","wikidata":"https://www.wikidata.org/wiki/Q652707","display_name":"Lipschitz continuity","level":2,"score":0.5990999937057495},{"id":"https://openalex.org/C46686674","wikidata":"https://www.wikidata.org/wiki/Q466303","display_name":"Boosting (machine learning)","level":2,"score":0.5651000142097473},{"id":"https://openalex.org/C153258448","wikidata":"https://www.wikidata.org/wiki/Q1199743","display_name":"Gradient descent","level":3,"score":0.5557000041007996},{"id":"https://openalex.org/C57869625","wikidata":"https://www.wikidata.org/wiki/Q1783502","display_name":"Rate of convergence","level":3,"score":0.511900007724762},{"id":"https://openalex.org/C70153297","wikidata":"https://www.wikidata.org/wiki/Q5591907","display_name":"Gradient boosting","level":3,"score":0.5062000155448914},{"id":"https://openalex.org/C85189116","wikidata":"https://www.wikidata.org/wiki/Q374195","display_name":"Newton's method","level":3,"score":0.4973999857902527},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.4860000014305115},{"id":"https://openalex.org/C11577676","wikidata":"https://www.wikidata.org/wiki/Q134237","display_name":"Square root","level":2,"score":0.47929999232292175},{"id":"https://openalex.org/C79248915","wikidata":"https://www.wikidata.org/wiki/Q17086776","display_name":"Proximal gradient methods for learning","level":5,"score":0.4726000130176544},{"id":"https://openalex.org/C28826006","wikidata":"https://www.wikidata.org/wiki/Q33521","display_name":"Applied mathematics","level":1,"score":0.41280001401901245},{"id":"https://openalex.org/C145446738","wikidata":"https://www.wikidata.org/wiki/Q319913","display_name":"Convex function","level":3,"score":0.40119999647140503},{"id":"https://openalex.org/C157972887","wikidata":"https://www.wikidata.org/wiki/Q463359","display_name":"Convex optimization","level":3,"score":0.3783999979496002},{"id":"https://openalex.org/C112680207","wikidata":"https://www.wikidata.org/wiki/Q714886","display_name":"Regular polygon","level":2,"score":0.3677000105381012},{"id":"https://openalex.org/C191795146","wikidata":"https://www.wikidata.org/wiki/Q3878446","display_name":"Norm (philosophy)","level":2,"score":0.350600004196167},{"id":"https://openalex.org/C141404830","wikidata":"https://www.wikidata.org/wiki/Q2823869","display_name":"AdaBoost","level":3,"score":0.33309999108314514},{"id":"https://openalex.org/C62799726","wikidata":"https://www.wikidata.org/wiki/Q190056","display_name":"Hilbert space","level":2,"score":0.32589998841285706},{"id":"https://openalex.org/C173443657","wikidata":"https://www.wikidata.org/wiki/Q7606635","display_name":"Steffensen's method","level":5,"score":0.3149999976158142},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.3073999881744385},{"id":"https://openalex.org/C206688291","wikidata":"https://www.wikidata.org/wiki/Q7617819","display_name":"Stochastic gradient descent","level":3,"score":0.30630001425743103},{"id":"https://openalex.org/C117898588","wikidata":"https://www.wikidata.org/wiki/Q6664310","display_name":"Local convergence","level":3,"score":0.3021000027656555},{"id":"https://openalex.org/C115680565","wikidata":"https://www.wikidata.org/wiki/Q5977448","display_name":"Gradient method","level":2,"score":0.2980000078678131},{"id":"https://openalex.org/C10494615","wikidata":"https://www.wikidata.org/wiki/Q17086765","display_name":"Proximal Gradient Methods","level":4,"score":0.2971999943256378},{"id":"https://openalex.org/C122041747","wikidata":"https://www.wikidata.org/wiki/Q838611","display_name":"Ball (mathematics)","level":2,"score":0.2962000072002411},{"id":"https://openalex.org/C50817715","wikidata":"https://www.wikidata.org/wiki/Q79895177","display_name":"Regret","level":2,"score":0.26660001277923584},{"id":"https://openalex.org/C116149140","wikidata":"https://www.wikidata.org/wiki/Q2070951","display_name":"Descent direction","level":4,"score":0.262800008058548},{"id":"https://openalex.org/C137836250","wikidata":"https://www.wikidata.org/wiki/Q984063","display_name":"Optimization problem","level":2,"score":0.2574999928474426},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.25589999556541443}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2605.00581","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.00581","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2605.00581","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.00581","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/16","display_name":"Peace, Justice and strong institutions","score":0.4941202402114868}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Gradient":[0],"Boosting":[1],"Decision":[2],"Trees":[3],"(GBDTs)":[4],"dominate":[5],"tabular":[6],"machine":[7],"learning,":[8],"with":[9,61,67,88,125,183,191],"modern":[10],"implementations":[11],"like":[12],"XGBoost,":[13],"LightGBM,":[14],"and":[15,77,90],"CatBoost":[16],"being":[17],"based":[18,70],"on":[19,64,71],"Newton":[20,40,55,86,102,134,205],"boosting:":[21],"a":[22,105,117,130,169,177,184],"second-order":[23,180],"descent":[24],"step":[25],"in":[26],"the":[27,36,72,137,146,157,161],"space":[28],"of":[29,39,74,108,160,188],"decision":[30],"trees.":[31],"Despite":[32],"its":[33],"empirical":[34],"success,":[35],"global":[37],"convergence":[38,109],"boosting":[41,87,103,190,206],"is":[42],"poorly":[43],"understood":[44],"compared":[45],"to":[46,136,156],"first-order":[47,189],"boosting.":[48],"In":[49,194],"this":[50,82,173],"paper,":[51],"we":[52,84,128,197],"introduce":[53],"Restricted":[54],"Descent,":[56],"which":[57],"studies":[58],"convex":[59,113,123],"optimization":[60],"Newton's":[62],"method":[63],"Hilbert":[65],"spaces":[66],"inexact":[68],"iterates,":[69],"concepts":[73],"cosine":[75],"angle":[76],"weak":[78,139],"gradient":[79,132,162],"edge.":[80],"Within":[81],"framework,":[83],"recover":[85],"GBDTs":[89],"classical":[91,147],"finite-dimensional":[92],"theory":[93],"as":[94],"special":[95],"cases.":[96],"We":[97,167],"first":[98],"prove":[99],"that":[100,115,187,199],"vanilla":[101,204],"achieves":[104],"linear":[106],"rate":[107,171,185],"for":[110,172],"smooth,":[111],"strongly":[112],"losses":[114,124],"satisfy":[116],"Hessian-dominance":[118],"condition.":[119],"To":[120],"handle":[121],"general":[122],"Lipschitz":[126],"Hessians,":[127],"extend":[129],"recent":[131],"regularized":[133],"scheme":[135,143,201],"restricted":[138],"learner":[140],"setting.":[141],"This":[142],"minimally":[144],"modifies":[145],"algorithm":[148,182],"by":[149],"introducing":[150],"an":[151],"adaptive":[152],"$\\ell_2$-regularization":[153],"term":[154],"proportional":[155],"square":[158],"root":[159],"norm":[163],"at":[164],"each":[165],"iteration.":[166],"establish":[168],"$\\mathcal{O}(\\frac{1}{k^2})$":[170],"scheme,":[174],"thereby":[175],"obtaining":[176],"globally":[178],"convergent":[179],"GBDT":[181],"matching":[186],"Nesterov":[192],"momentum.":[193],"numerical":[195],"experiments,":[196],"show":[198],"our":[200],"converges":[202],"while":[203],"may":[207],"diverge.":[208]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-05-05T00:00:00"}