{"id":"https://openalex.org/W2898734122","doi":"https://doi.org/10.1145/3274250.3274262","title":"Stochastic Gradient Descent Combines Second-Order Information for Training Neural Network","display_name":"Stochastic Gradient Descent Combines Second-Order Information for Training Neural Network","publication_year":2018,"publication_date":"2018-07-15","ids":{"openalex":"https://openalex.org/W2898734122","doi":"https://doi.org/10.1145/3274250.3274262","mag":"2898734122"},"language":"en","primary_location":{"id":"doi:10.1145/3274250.3274262","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3274250.3274262","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 2018 1st International Conference on Mathematics and Statistics","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5101684129","display_name":"Minyu Chen","orcid":"https://orcid.org/0000-0002-4034-3855"},"institutions":[{"id":"https://openalex.org/I2799291450","display_name":"Oregon Department of Education","ror":"https://ror.org/04pfhbg73","country_code":"US","type":"government","lineage":["https://openalex.org/I2799291450"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"Minyu Chen","raw_affiliation_strings":["Oregon Episcopal School, USA"],"affiliations":[{"raw_affiliation_string":"Oregon Episcopal School, USA","institution_ids":["https://openalex.org/I2799291450"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":["https://openalex.org/A5101684129"],"corresponding_institution_ids":["https://openalex.org/I2799291450"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.12200589,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"69","last_page":"73"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12676","display_name":"Machine Learning and ELM","score":0.9993000030517578,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10036","display_name":"Advanced Neural Network Applications","score":0.9968000054359436,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7860504388809204},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.6756638884544373},{"id":"https://openalex.org/keywords/stochastic-gradient-descent","display_name":"Stochastic gradient descent","score":0.6236943006515503},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.6230093836784363},{"id":"https://openalex.org/keywords/schema","display_name":"Schema (genetic algorithms)","score":0.5626221895217896},{"id":"https://openalex.org/keywords/gradient-descent","display_name":"Gradient descent","score":0.5503144860267639},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.4937001168727875},{"id":"https://openalex.org/keywords/offset","display_name":"Offset (computer science)","score":0.48374366760253906},{"id":"https://openalex.org/keywords/deep-learning","display_name":"Deep learning","score":0.45824238657951355},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.4562649726867676},{"id":"https://openalex.org/keywords/deep-neural-networks","display_name":"Deep neural networks","score":0.43874549865722656},{"id":"https://openalex.org/keywords/rate-of-convergence","display_name":"Rate of convergence","score":0.43013519048690796},{"id":"https://openalex.org/keywords/backpropagation","display_name":"Backpropagation","score":0.41239798069000244},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.32375165820121765},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.09961402416229248}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7860504388809204},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.6756638884544373},{"id":"https://openalex.org/C206688291","wikidata":"https://www.wikidata.org/wiki/Q7617819","display_name":"Stochastic gradient descent","level":3,"score":0.6236943006515503},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6230093836784363},{"id":"https://openalex.org/C52146309","wikidata":"https://www.wikidata.org/wiki/Q7431116","display_name":"Schema (genetic algorithms)","level":2,"score":0.5626221895217896},{"id":"https://openalex.org/C153258448","wikidata":"https://www.wikidata.org/wiki/Q1199743","display_name":"Gradient descent","level":3,"score":0.5503144860267639},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4937001168727875},{"id":"https://openalex.org/C175291020","wikidata":"https://www.wikidata.org/wiki/Q1156822","display_name":"Offset (computer science)","level":2,"score":0.48374366760253906},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.45824238657951355},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.4562649726867676},{"id":"https://openalex.org/C2984842247","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep neural networks","level":3,"score":0.43874549865722656},{"id":"https://openalex.org/C57869625","wikidata":"https://www.wikidata.org/wiki/Q1783502","display_name":"Rate of convergence","level":3,"score":0.43013519048690796},{"id":"https://openalex.org/C155032097","wikidata":"https://www.wikidata.org/wiki/Q798503","display_name":"Backpropagation","level":3,"score":0.41239798069000244},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.32375165820121765},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.09961402416229248},{"id":"https://openalex.org/C127162648","wikidata":"https://www.wikidata.org/wiki/Q16858953","display_name":"Channel (broadcasting)","level":2,"score":0.0},{"id":"https://openalex.org/C50522688","wikidata":"https://www.wikidata.org/wiki/Q189833","display_name":"Economic growth","level":1,"score":0.0},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.0},{"id":"https://openalex.org/C31258907","wikidata":"https://www.wikidata.org/wiki/Q1301371","display_name":"Computer network","level":1,"score":0.0},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1145/3274250.3274262","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3274250.3274262","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 2018 1st International Conference on Mathematics and Statistics","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":7,"referenced_works":["https://openalex.org/W592963477","https://openalex.org/W1916559533","https://openalex.org/W2079299054","https://openalex.org/W2896556344","https://openalex.org/W2951781666","https://openalex.org/W4248841288","https://openalex.org/W4300448178"],"related_works":["https://openalex.org/W2115605526","https://openalex.org/W3093883775","https://openalex.org/W1539246760","https://openalex.org/W2786746258","https://openalex.org/W4225893763","https://openalex.org/W2788727425","https://openalex.org/W2405196115","https://openalex.org/W2104893957","https://openalex.org/W2971074373","https://openalex.org/W4402471162"],"abstract_inverted_index":{"Deep":[0],"learning":[1,20],"is":[2],"received":[3],"special":[4],"attention":[5],"in":[6],"the":[7,11,32,42,55,72,81,94,117,134,143],"last":[8],"decade":[9],"following":[10],"increasing":[12],"popularity":[13],"of":[14,98,119],"artificial":[15],"intelligence.":[16],"A":[17],"successful":[18],"deep":[19],"application":[21],"highly":[22],"depends":[23],"on":[24,80,106,137],"an":[25],"effective":[26],"training":[27,113],"neural":[28,74],"network":[29,75],"method.":[30],"Currently,":[31],"first-order":[33],"methods,":[34,123],"e.g.":[35],"stochastic":[36],"gradient":[37],"descent":[38],"method":[39,45,136],"may":[40],"be":[41],"most":[43],"widely-used":[44],"due":[46],"to":[47],"its":[48,103,130],"simplicity":[49],"and":[50,65,121],"generally":[51],"good":[52],"performance.":[53],"However,":[54],"first":[56,120],"methods":[57],"possess":[58],"varied":[59],"weakness,":[60],"like":[61],"lower":[62],"convergence":[63],"rate":[64],"easily":[66],"stalking":[67],"around":[68],"saddle":[69],"points":[70],"for":[71],"nonconvex":[73],"problem.":[76],"The":[77,140],"second-order":[78],"method,":[79],"other":[82],"hand,":[83],"can":[84],"address":[85],"these":[86,107],"issues":[87],"by":[88],"utilizing":[89],"second":[90,122],"derivative":[91],"information,":[92],"but":[93],"high":[95],"computational":[96],"cost":[97],"computing":[99],"second-derivative":[100],"information":[101],"limits":[102],"usage.":[104],"Based":[105],"motivations,":[108],"we":[109,132],"design":[110],"a":[111],"new":[112,135,144],"schema":[114],"that":[115],"combine":[116],"advantages":[118],"meanwhile":[124],"eliminate":[125],"their":[126],"disadvantages.":[127],"To":[128],"demonstrate":[129],"effectiveness,":[131],"test":[133],"dataset,":[138],"cifar-10.":[139],"results":[141],"show":[142],"approach":[145],"performs":[146],"as":[147],"our":[148],"desired.":[149]},"counts_by_year":[],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}