{"id":"https://openalex.org/W3090906309","doi":"https://doi.org/10.1109/ijcnn48605.2020.9207074","title":"Hessian-based Bounds on Learning Rate for Gradient Descent Algorithms","display_name":"Hessian-based Bounds on Learning Rate for Gradient Descent Algorithms","publication_year":2020,"publication_date":"2020-07-01","ids":{"openalex":"https://openalex.org/W3090906309","doi":"https://doi.org/10.1109/ijcnn48605.2020.9207074","mag":"3090906309"},"language":"en","primary_location":{"id":"doi:10.1109/ijcnn48605.2020.9207074","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ijcnn48605.2020.9207074","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2020 International Joint Conference on Neural Networks (IJCNN)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5076059393","display_name":"Prayag Gowgi","orcid":null},"institutions":[{"id":"https://openalex.org/I59270414","display_name":"Indian Institute of Science Bangalore","ror":"https://ror.org/04dese585","country_code":"IN","type":"education","lineage":["https://openalex.org/I59270414"]}],"countries":["IN"],"is_corresponding":true,"raw_author_name":"Prayag Gowgi","raw_affiliation_strings":["Department of Electronic Systems Engineering, Indian Institute of Science, Bengaluru, India"],"affiliations":[{"raw_affiliation_string":"Department of Electronic Systems Engineering, Indian Institute of Science, Bengaluru, India","institution_ids":["https://openalex.org/I59270414"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5055106245","display_name":"Shayan Srinivasa Garani","orcid":"https://orcid.org/0000-0002-2459-1445"},"institutions":[{"id":"https://openalex.org/I59270414","display_name":"Indian Institute of Science Bangalore","ror":"https://ror.org/04dese585","country_code":"IN","type":"education","lineage":["https://openalex.org/I59270414"]}],"countries":["IN"],"is_corresponding":false,"raw_author_name":"Shayan Srinivasa Garani","raw_affiliation_strings":["Department of Electronic Systems Engineering, Indian Institute of Science, Bengaluru, India"],"affiliations":[{"raw_affiliation_string":"Department of Electronic Systems Engineering, Indian Institute of Science, Bengaluru, India","institution_ids":["https://openalex.org/I59270414"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5076059393"],"corresponding_institution_ids":["https://openalex.org/I59270414"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":1,"citation_normalized_percentile":{"value":0.1212624,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":90,"max":94},"biblio":{"volume":"35","issue":null,"first_page":"1","last_page":"8"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10320","display_name":"Neural Networks and Applications","score":0.9997000098228455,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10320","display_name":"Neural Networks and Applications","score":0.9997000098228455,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.9993000030517578,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10057","display_name":"Face and Expression Recognition","score":0.9944999814033508,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/hessian-matrix","display_name":"Hessian matrix","score":0.8760440945625305},{"id":"https://openalex.org/keywords/rate-of-convergence","display_name":"Rate of convergence","score":0.7455703020095825},{"id":"https://openalex.org/keywords/stochastic-gradient-descent","display_name":"Stochastic gradient descent","score":0.664672315120697},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.6084938645362854},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.5967572331428528},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.5566248297691345},{"id":"https://openalex.org/keywords/gradient-descent","display_name":"Gradient descent","score":0.5406714081764221},{"id":"https://openalex.org/keywords/heuristic","display_name":"Heuristic","score":0.4652370512485504},{"id":"https://openalex.org/keywords/eigenvalues-and-eigenvectors","display_name":"Eigenvalues and eigenvectors","score":0.4501473903656006},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.437442809343338},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.43200021982192993},{"id":"https://openalex.org/keywords/applied-mathematics","display_name":"Applied mathematics","score":0.3609515428543091},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.3511378765106201},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.3498908281326294},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.30386877059936523},{"id":"https://openalex.org/keywords/key","display_name":"Key (lock)","score":0.08347028493881226}],"concepts":[{"id":"https://openalex.org/C203616005","wikidata":"https://www.wikidata.org/wiki/Q620495","display_name":"Hessian matrix","level":2,"score":0.8760440945625305},{"id":"https://openalex.org/C57869625","wikidata":"https://www.wikidata.org/wiki/Q1783502","display_name":"Rate of convergence","level":3,"score":0.7455703020095825},{"id":"https://openalex.org/C206688291","wikidata":"https://www.wikidata.org/wiki/Q7617819","display_name":"Stochastic gradient descent","level":3,"score":0.664672315120697},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.6084938645362854},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.5967572331428528},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.5566248297691345},{"id":"https://openalex.org/C153258448","wikidata":"https://www.wikidata.org/wiki/Q1199743","display_name":"Gradient descent","level":3,"score":0.5406714081764221},{"id":"https://openalex.org/C173801870","wikidata":"https://www.wikidata.org/wiki/Q201413","display_name":"Heuristic","level":2,"score":0.4652370512485504},{"id":"https://openalex.org/C158693339","wikidata":"https://www.wikidata.org/wiki/Q190524","display_name":"Eigenvalues and eigenvectors","level":2,"score":0.4501473903656006},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.437442809343338},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.43200021982192993},{"id":"https://openalex.org/C28826006","wikidata":"https://www.wikidata.org/wiki/Q33521","display_name":"Applied mathematics","level":1,"score":0.3609515428543091},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.3511378765106201},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3498908281326294},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.30386877059936523},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.08347028493881226},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C62520636","wikidata":"https://www.wikidata.org/wiki/Q944","display_name":"Quantum mechanics","level":1,"score":0.0},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.0},{"id":"https://openalex.org/C38652104","wikidata":"https://www.wikidata.org/wiki/Q3510521","display_name":"Computer security","level":1,"score":0.0},{"id":"https://openalex.org/C50522688","wikidata":"https://www.wikidata.org/wiki/Q189833","display_name":"Economic growth","level":1,"score":0.0}],"mesh":[],"locations_count":2,"locations":[{"id":"doi:10.1109/ijcnn48605.2020.9207074","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ijcnn48605.2020.9207074","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2020 International Joint Conference on Neural Networks (IJCNN)","raw_type":"proceedings-article"},{"id":"pmh:oai:eprints.iisc.ac.in:67405","is_oa":false,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4306401429","display_name":"ePrints@IISc (Indian Institute of Science)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I59270414","host_organization_name":"Indian Institute of Science Bangalore","host_organization_lineage":["https://openalex.org/I59270414"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"acceptedVersion","is_accepted":true,"is_published":false,"raw_source_name":"","raw_type":"Conference Paper"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":19,"referenced_works":["https://openalex.org/W6908809","https://openalex.org/W1522301498","https://openalex.org/W1577258119","https://openalex.org/W1990517717","https://openalex.org/W2000200144","https://openalex.org/W2002011878","https://openalex.org/W2124776405","https://openalex.org/W2142426721","https://openalex.org/W2146502635","https://openalex.org/W2166322089","https://openalex.org/W2964121744","https://openalex.org/W3029645440","https://openalex.org/W3120740533","https://openalex.org/W3141738472","https://openalex.org/W4239758949","https://openalex.org/W4293775970","https://openalex.org/W6600284362","https://openalex.org/W6631190155","https://openalex.org/W6681435938"],"related_works":["https://openalex.org/W2355987247","https://openalex.org/W3143650729","https://openalex.org/W4221162014","https://openalex.org/W3177326532","https://openalex.org/W4297883503","https://openalex.org/W2169345436","https://openalex.org/W2053964895","https://openalex.org/W2952728270","https://openalex.org/W2042173174","https://openalex.org/W4206903459"],"abstract_inverted_index":{"Learning":[0],"rate":[1,9,42,83,101,106],"is":[2,64],"a":[3,104],"crucial":[4],"parameter":[5],"governing":[6],"the":[7,16,40,51,55,68,71,82,89,96],"convergence":[8,85,108],"of":[10,15,30,43,54,70,84,86,107],"any":[11],"learning":[12,17,31,41,47,100],"algorithm.":[13],"Most":[14],"algorithms":[18,48],"based":[19,45],"on":[20,27,39,99],"stochastic":[21],"gradient":[22],"descent":[23],"(SGD)":[24],"method":[25],"depend":[26],"heuristic":[28],"choice":[29],"rate.":[32],"In":[33],"this":[34],"paper,":[35],"we":[36,74],"derive":[37],"bounds":[38,98],"SGD":[44],"adaptive":[46],"by":[49],"analyzing":[50],"largest":[52],"eigenvalue":[53],"Hessian":[56],"matrix":[57],"from":[58],"first":[59],"principles.":[60],"The":[61],"proposed":[62,97],"approach":[63],"analytical.":[65],"To":[66],"illustrate":[67],"efficacy":[69],"analytical":[72],"approach,":[73],"considered":[75],"several":[76],"high-dimensional":[77],"data":[78],"sets":[79],"and":[80,93,112],"compared":[81],"error":[87],"for":[88],"neural":[90],"gas":[91],"algorithm":[92],"showed":[94],"that":[95],"result":[102],"in":[103],"faster":[105],"than":[109],"AdaDec,":[110],"Adam,":[111],"AdaDelta":[113],"approaches":[114],"which":[115],"require":[116],"hyper-parameter":[117],"tuning.":[118]},"counts_by_year":[{"year":2024,"cited_by_count":1}],"updated_date":"2026-04-04T16:13:02.066488","created_date":"2025-10-10T00:00:00"}