{"id":"https://openalex.org/W7134903904","doi":"https://doi.org/10.1007/s10957-026-02958-8","title":"Geometric-Entropic Optimization: Integrating Optimal Transport with Riemannian Gradient Methods for Neural Network Training","display_name":"Geometric-Entropic Optimization: Integrating Optimal Transport with Riemannian Gradient Methods for Neural Network Training","publication_year":2026,"publication_date":"2026-03-11","ids":{"openalex":"https://openalex.org/W7134903904","doi":"https://doi.org/10.1007/s10957-026-02958-8"},"language":"en","primary_location":{"id":"doi:10.1007/s10957-026-02958-8","is_oa":true,"landing_page_url":"https://doi.org/10.1007/s10957-026-02958-8","pdf_url":"https://link.springer.com/content/pdf/10.1007/s10957-026-02958-8.pdf","source":{"id":"https://openalex.org/S52430896","display_name":"Journal of Optimization Theory and Applications","issn_l":"0022-3239","issn":["0022-3239","1573-2878"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319900","host_organization_name":"Springer Science+Business Media","host_organization_lineage":["https://openalex.org/P4310319900","https://openalex.org/P4310319965"],"host_organization_lineage_names":["Springer Science+Business Media","Springer Nature"],"type":"journal"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Journal of Optimization Theory and Applications","raw_type":"journal-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"hybrid","oa_url":"https://link.springer.com/content/pdf/10.1007/s10957-026-02958-8.pdf","any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5128755080","display_name":"Massimiliano Ferrara","orcid":null},"institutions":[{"id":"https://openalex.org/I59725666","display_name":"University of Reggio Calabria","ror":"https://ror.org/041sz8d87","country_code":"IT","type":"education","lineage":["https://openalex.org/I59725666"]},{"id":"https://openalex.org/I71209653","display_name":"Bocconi University","ror":"https://ror.org/05crjpb27","country_code":"IT","type":"education","lineage":["https://openalex.org/I71209653"]},{"id":"https://openalex.org/I96268669","display_name":"Okan University","ror":"https://ror.org/054d5vq03","country_code":"TR","type":"education","lineage":["https://openalex.org/I96268669"]}],"countries":["IT","TR"],"is_corresponding":true,"raw_author_name":"Massimiliano Ferrara","raw_affiliation_strings":["Advanced Computing Laboratory, Faculty of Engineering and Natural Sciences, Istanbul Okan University, Istanbul, Turkey","Department of Law, Economics and Human Sciences & Decisions Lab, University Mediterranea of Reggio Calabria, Reggio Calabria, Italy","ICRIOS \u2013 Invernizzi Centre for Research on Innovation, Organization, Strategy and Entrepreneurship, Bocconi University, Milan, Italy"],"affiliations":[{"raw_affiliation_string":"Advanced Computing Laboratory, Faculty of Engineering and Natural Sciences, Istanbul Okan University, Istanbul, Turkey","institution_ids":["https://openalex.org/I96268669"]},{"raw_affiliation_string":"Department of Law, Economics and Human Sciences & Decisions Lab, University Mediterranea of Reggio Calabria, Reggio Calabria, Italy","institution_ids":["https://openalex.org/I59725666"]},{"raw_affiliation_string":"ICRIOS \u2013 Invernizzi Centre for Research on Innovation, Organization, Strategy and Entrepreneurship, Bocconi University, Milan, Italy","institution_ids":["https://openalex.org/I71209653"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":1,"corresponding_author_ids":["https://openalex.org/A5128755080"],"corresponding_institution_ids":["https://openalex.org/I59725666","https://openalex.org/I71209653","https://openalex.org/I96268669"],"apc_list":{"value":2390,"currency":"EUR","value_usd":2990},"apc_paid":{"value":2390,"currency":"EUR","value_usd":2990},"fwci":0.0,"has_fulltext":true,"cited_by_count":0,"citation_normalized_percentile":{"value":0.60237591,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":"209","issue":"1","first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.7332000136375427,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.7332000136375427,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12814","display_name":"Gaussian Processes and Bayesian Inference","score":0.031099999323487282,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10719","display_name":"3D Shape Modeling and Analysis","score":0.02370000071823597,"subfield":{"id":"https://openalex.org/subfields/2206","display_name":"Computational Mechanics"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/riemannian-manifold","display_name":"Riemannian manifold","score":0.6547999978065491},{"id":"https://openalex.org/keywords/gradient-descent","display_name":"Gradient descent","score":0.6097999811172485},{"id":"https://openalex.org/keywords/theory-of-computation","display_name":"Theory of computation","score":0.5516999959945679},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.5383999943733215},{"id":"https://openalex.org/keywords/benchmark","display_name":"Benchmark (surveying)","score":0.5202000141143799},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.517799973487854},{"id":"https://openalex.org/keywords/metric","display_name":"Metric (unit)","score":0.5131999850273132},{"id":"https://openalex.org/keywords/stochastic-gradient-descent","display_name":"Stochastic gradient descent","score":0.4927999973297119},{"id":"https://openalex.org/keywords/balanced-flow","display_name":"Balanced flow","score":0.49149999022483826},{"id":"https://openalex.org/keywords/gradient-method","display_name":"Gradient method","score":0.4422999918460846}],"concepts":[{"id":"https://openalex.org/C2779593128","wikidata":"https://www.wikidata.org/wiki/Q632814","display_name":"Riemannian manifold","level":2,"score":0.6547999978065491},{"id":"https://openalex.org/C153258448","wikidata":"https://www.wikidata.org/wiki/Q1199743","display_name":"Gradient descent","level":3,"score":0.6097999811172485},{"id":"https://openalex.org/C24858836","wikidata":"https://www.wikidata.org/wiki/Q844718","display_name":"Theory of computation","level":2,"score":0.5516999959945679},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.5458999872207642},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.5383999943733215},{"id":"https://openalex.org/C185798385","wikidata":"https://www.wikidata.org/wiki/Q1161707","display_name":"Benchmark (surveying)","level":2,"score":0.5202000141143799},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.517799973487854},{"id":"https://openalex.org/C176217482","wikidata":"https://www.wikidata.org/wiki/Q860554","display_name":"Metric (unit)","level":2,"score":0.5131999850273132},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.5001999735832214},{"id":"https://openalex.org/C206688291","wikidata":"https://www.wikidata.org/wiki/Q7617819","display_name":"Stochastic gradient descent","level":3,"score":0.4927999973297119},{"id":"https://openalex.org/C167879884","wikidata":"https://www.wikidata.org/wiki/Q727568","display_name":"Balanced flow","level":2,"score":0.49149999022483826},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.4832000136375427},{"id":"https://openalex.org/C115680565","wikidata":"https://www.wikidata.org/wiki/Q5977448","display_name":"Gradient method","level":2,"score":0.4422999918460846},{"id":"https://openalex.org/C529865628","wikidata":"https://www.wikidata.org/wiki/Q1790740","display_name":"Manifold (fluid mechanics)","level":2,"score":0.4214000105857849},{"id":"https://openalex.org/C109546454","wikidata":"https://www.wikidata.org/wiki/Q3798604","display_name":"Information geometry","level":4,"score":0.41769999265670776},{"id":"https://openalex.org/C12713177","wikidata":"https://www.wikidata.org/wiki/Q1900281","display_name":"Perspective (graphical)","level":2,"score":0.4000999927520752},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.3822000026702881},{"id":"https://openalex.org/C163415756","wikidata":"https://www.wikidata.org/wiki/Q126473","display_name":"Contraction (grammar)","level":2,"score":0.3723999857902527},{"id":"https://openalex.org/C89109886","wikidata":"https://www.wikidata.org/wiki/Q1535924","display_name":"Trust region","level":3,"score":0.35249999165534973},{"id":"https://openalex.org/C28826006","wikidata":"https://www.wikidata.org/wiki/Q33521","display_name":"Applied mathematics","level":1,"score":0.3425999879837036},{"id":"https://openalex.org/C181104567","wikidata":"https://www.wikidata.org/wiki/Q761383","display_name":"Riemannian geometry","level":2,"score":0.3391000032424927},{"id":"https://openalex.org/C91575142","wikidata":"https://www.wikidata.org/wiki/Q1971426","display_name":"Optimal control","level":2,"score":0.33000001311302185},{"id":"https://openalex.org/C2777211547","wikidata":"https://www.wikidata.org/wiki/Q17141490","display_name":"Training (meteorology)","level":2,"score":0.30379998683929443},{"id":"https://openalex.org/C61797465","wikidata":"https://www.wikidata.org/wiki/Q1188986","display_name":"Term (time)","level":2,"score":0.2946000099182129},{"id":"https://openalex.org/C161999928","wikidata":"https://www.wikidata.org/wiki/Q4556320","display_name":"Variational inequality","level":2,"score":0.2922999858856201},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.28760001063346863},{"id":"https://openalex.org/C169391604","wikidata":"https://www.wikidata.org/wiki/Q7604402","display_name":"Statistical manifold","level":5,"score":0.26930001378059387},{"id":"https://openalex.org/C165551260","wikidata":"https://www.wikidata.org/wiki/Q4428962","display_name":"Adjoint equation","level":3,"score":0.2671999931335449},{"id":"https://openalex.org/C137836250","wikidata":"https://www.wikidata.org/wiki/Q984063","display_name":"Optimization problem","level":2,"score":0.25870001316070557},{"id":"https://openalex.org/C77618280","wikidata":"https://www.wikidata.org/wiki/Q1155772","display_name":"Scheme (mathematics)","level":2,"score":0.25859999656677246},{"id":"https://openalex.org/C3309286","wikidata":"https://www.wikidata.org/wiki/Q4907693","display_name":"Bilevel optimization","level":3,"score":0.257999986410141},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.25540000200271606},{"id":"https://openalex.org/C106953101","wikidata":"https://www.wikidata.org/wiki/Q1814838","display_name":"Parallel transport","level":2,"score":0.2526000142097473}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1007/s10957-026-02958-8","is_oa":true,"landing_page_url":"https://doi.org/10.1007/s10957-026-02958-8","pdf_url":"https://link.springer.com/content/pdf/10.1007/s10957-026-02958-8.pdf","source":{"id":"https://openalex.org/S52430896","display_name":"Journal of Optimization Theory and Applications","issn_l":"0022-3239","issn":["0022-3239","1573-2878"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319900","host_organization_name":"Springer Science+Business Media","host_organization_lineage":["https://openalex.org/P4310319900","https://openalex.org/P4310319965"],"host_organization_lineage_names":["Springer Science+Business Media","Springer Nature"],"type":"journal"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Journal of Optimization Theory and Applications","raw_type":"journal-article"}],"best_oa_location":{"id":"doi:10.1007/s10957-026-02958-8","is_oa":true,"landing_page_url":"https://doi.org/10.1007/s10957-026-02958-8","pdf_url":"https://link.springer.com/content/pdf/10.1007/s10957-026-02958-8.pdf","source":{"id":"https://openalex.org/S52430896","display_name":"Journal of Optimization Theory and Applications","issn_l":"0022-3239","issn":["0022-3239","1573-2878"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319900","host_organization_name":"Springer Science+Business Media","host_organization_lineage":["https://openalex.org/P4310319900","https://openalex.org/P4310319965"],"host_organization_lineage_names":["Springer Science+Business Media","Springer Nature"],"type":"journal"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Journal of Optimization Theory and Applications","raw_type":"journal-article"},"sustainable_development_goals":[],"awards":[],"funders":[{"id":"https://openalex.org/F4320316351","display_name":"Universit\u00e0 degli Studi Mediterranea di Reggio Calabria","ror":"https://ror.org/041sz8d87"}],"has_content":{"pdf":true,"grobid_xml":true},"content_urls":{"pdf":"https://content.openalex.org/works/W7134903904.pdf","grobid_xml":"https://content.openalex.org/works/W7134903904.grobid-xml"},"referenced_works_count":7,"referenced_works":["https://openalex.org/W1483804921","https://openalex.org/W1970789124","https://openalex.org/W1990283121","https://openalex.org/W2058015783","https://openalex.org/W4205293427","https://openalex.org/W4233762729","https://openalex.org/W4243105054"],"related_works":[],"abstract_inverted_index":{"Abstract":[0],"We":[1,45],"introduce":[2],"Geometric-Entropic":[3],"Optimization":[4],"(GEO),":[5],"an":[6,53],"algorithm":[7,22],"for":[8],"neural":[9],"network":[10],"training":[11],"that":[12,50],"integrates":[13],"Riemannian":[14,92],"gradient":[15,93],"methods":[16],"with":[17,29,119],"entropy-regularized":[18],"optimal":[19],"transport.":[20],"The":[21,128],"operates":[23],"on":[24,42,106,125],"a":[25,30,145],"parameter":[26],"manifold":[27],"equipped":[28],"combined":[31],"Fisher-Wasserstein":[32],"metric":[33],"and":[34,95,110,141],"incorporates":[35],"Sinkhorn-type":[36],"projections":[37],"to":[38],"enforce":[39],"distributional":[40],"constraints":[41],"layer":[43],"activations.":[44],"establish":[46],"convergence":[47],"guarantees":[48],"showing":[49],"GEO":[51],"achieves":[52],"$$O(1/\\sqrt{T})":[54],"+":[55],"O(\\rho":[56],"^{2K})$$":[57],"<mml:math":[58],"xmlns:mml=\"http://www.w3.org/1998/Math/MathML\">":[59],"<mml:mrow>":[60,62,73,77],"<mml:mi>O</mml:mi>":[61,72],"<mml:mo>(</mml:mo>":[63,74],"<mml:mn>1</mml:mn>":[64],"<mml:mo>/</mml:mo>":[65],"<mml:msqrt>":[66],"<mml:mi>T</mml:mi>":[67],"</mml:msqrt>":[68],"<mml:mo>)</mml:mo>":[69,82],"</mml:mrow>":[70,80,83,84],"<mml:mo>+</mml:mo>":[71],"<mml:msup>":[75],"<mml:mi>\u03c1</mml:mi>":[76],"<mml:mn>2</mml:mn>":[78],"<mml:mi>K</mml:mi>":[79],"</mml:msup>":[81],"</mml:math>":[85],"rate,":[86],"where":[87],"the":[88,96,99,151],"first":[89],"term":[90],"reflects":[91],"descent":[94],"second":[97],"captures":[98],"contraction":[100],"of":[101,122],"Sinkhorn":[102],"iterations.":[103],"Computational":[104],"experiments":[105],"continuous":[107],"control":[108],"tasks":[109],"language":[111],"modeling":[112],"demonstrate":[113],"consistent":[114],"improvements":[115],"over":[116],"standard":[117],"optimizers,":[118],"performance":[120],"gains":[121],"approximately":[123],"20%":[124],"benchmark":[126],"tasks.":[127],"theoretical":[129],"framework":[130],"unifies":[131],"recent":[132],"architectural":[133],"innovations":[134],"in":[135,150],"deep":[136],"learning,":[137],"including":[138],"manifold-constrained":[139],"connections":[140],"orthogonality-preserving":[142],"updates":[143],"within":[144],"coherent":[146],"optimization-theoretic":[147],"perspective":[148],"rooted":[149],"geometric":[152],"dynamics":[153],"tradition.":[154]},"counts_by_year":[],"updated_date":"2026-04-09T08:11:56.329763","created_date":"2026-03-12T00:00:00"}