{"id":"https://openalex.org/W4413823116","doi":"https://doi.org/10.1109/icccn65249.2025.11133842","title":"Revisiting the Straggling Problem in GPU-based Distributed Deep Learning Training","display_name":"Revisiting the Straggling Problem in GPU-based Distributed Deep Learning Training","publication_year":2025,"publication_date":"2025-08-04","ids":{"openalex":"https://openalex.org/W4413823116","doi":"https://doi.org/10.1109/icccn65249.2025.11133842"},"language":"en","primary_location":{"id":"doi:10.1109/icccn65249.2025.11133842","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icccn65249.2025.11133842","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 34th International Conference on Computer Communications and Networks (ICCCN)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5037178139","display_name":"Suraiya Tairin","orcid":"https://orcid.org/0009-0004-1946-5235"},"institutions":[{"id":"https://openalex.org/I51556381","display_name":"University of Virginia","ror":"https://ror.org/0153tk833","country_code":"US","type":"education","lineage":["https://openalex.org/I51556381"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"Suraiya Tairin","raw_affiliation_strings":["University of Virginia,Department of Computer Science,Charlottesville,VA,22904"],"affiliations":[{"raw_affiliation_string":"University of Virginia,Department of Computer Science,Charlottesville,VA,22904","institution_ids":["https://openalex.org/I51556381"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5040160093","display_name":"Zeyu Zhang","orcid":"https://orcid.org/0009-0005-7853-6854"},"institutions":[{"id":"https://openalex.org/I51556381","display_name":"University of Virginia","ror":"https://ror.org/0153tk833","country_code":"US","type":"education","lineage":["https://openalex.org/I51556381"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Zeyu Zhang","raw_affiliation_strings":["University of Virginia,Department of Computer Science,Charlottesville,VA,22904"],"affiliations":[{"raw_affiliation_string":"University of Virginia,Department of Computer Science,Charlottesville,VA,22904","institution_ids":["https://openalex.org/I51556381"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5050569064","display_name":"Haiying Shen","orcid":"https://orcid.org/0000-0002-7548-6223"},"institutions":[{"id":"https://openalex.org/I51556381","display_name":"University of Virginia","ror":"https://ror.org/0153tk833","country_code":"US","type":"education","lineage":["https://openalex.org/I51556381"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Haiying Shen","raw_affiliation_strings":["University of Virginia,Department of Computer Science,Charlottesville,VA,22904"],"affiliations":[{"raw_affiliation_string":"University of Virginia,Department of Computer Science,Charlottesville,VA,22904","institution_ids":["https://openalex.org/I51556381"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5037178139"],"corresponding_institution_ids":["https://openalex.org/I51556381"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.13170833,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"9"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.8626000285148621,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.8626000285148621,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7420084476470947},{"id":"https://openalex.org/keywords/training","display_name":"Training (meteorology)","score":0.6485113501548767},{"id":"https://openalex.org/keywords/deep-learning","display_name":"Deep learning","score":0.5465816855430603},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.4761464595794678},{"id":"https://openalex.org/keywords/general-purpose-computing-on-graphics-processing-units","display_name":"General-purpose computing on graphics processing units","score":0.4223264157772064},{"id":"https://openalex.org/keywords/parallel-computing","display_name":"Parallel computing","score":0.3329152464866638},{"id":"https://openalex.org/keywords/computational-science","display_name":"Computational science","score":0.3253859281539917},{"id":"https://openalex.org/keywords/human\u2013computer-interaction","display_name":"Human\u2013computer interaction","score":0.32397717237472534},{"id":"https://openalex.org/keywords/computer-graphics","display_name":"Computer graphics (images)","score":0.24666589498519897},{"id":"https://openalex.org/keywords/graphics","display_name":"Graphics","score":0.0889197289943695},{"id":"https://openalex.org/keywords/physics","display_name":"Physics","score":0.06514286994934082}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7420084476470947},{"id":"https://openalex.org/C2777211547","wikidata":"https://www.wikidata.org/wiki/Q17141490","display_name":"Training (meteorology)","level":2,"score":0.6485113501548767},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.5465816855430603},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4761464595794678},{"id":"https://openalex.org/C50630238","wikidata":"https://www.wikidata.org/wiki/Q971505","display_name":"General-purpose computing on graphics processing units","level":3,"score":0.4223264157772064},{"id":"https://openalex.org/C173608175","wikidata":"https://www.wikidata.org/wiki/Q232661","display_name":"Parallel computing","level":1,"score":0.3329152464866638},{"id":"https://openalex.org/C459310","wikidata":"https://www.wikidata.org/wiki/Q117801","display_name":"Computational science","level":1,"score":0.3253859281539917},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.32397717237472534},{"id":"https://openalex.org/C121684516","wikidata":"https://www.wikidata.org/wiki/Q7600677","display_name":"Computer graphics (images)","level":1,"score":0.24666589498519897},{"id":"https://openalex.org/C21442007","wikidata":"https://www.wikidata.org/wiki/Q1027879","display_name":"Graphics","level":2,"score":0.0889197289943695},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.06514286994934082},{"id":"https://openalex.org/C153294291","wikidata":"https://www.wikidata.org/wiki/Q25261","display_name":"Meteorology","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/icccn65249.2025.11133842","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icccn65249.2025.11133842","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 34th International Conference on Computer Communications and Networks (ICCCN)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":22,"referenced_works":["https://openalex.org/W148247732","https://openalex.org/W1571061365","https://openalex.org/W2040147130","https://openalex.org/W2402144811","https://openalex.org/W2523435939","https://openalex.org/W2911382970","https://openalex.org/W2962725887","https://openalex.org/W2982408761","https://openalex.org/W3011751313","https://openalex.org/W3097875570","https://openalex.org/W3155611867","https://openalex.org/W3162118826","https://openalex.org/W3166272535","https://openalex.org/W3177263144","https://openalex.org/W3202665973","https://openalex.org/W4200234277","https://openalex.org/W4220741164","https://openalex.org/W4283798991","https://openalex.org/W4288079579","https://openalex.org/W4383749415","https://openalex.org/W4386260573","https://openalex.org/W4386840193"],"related_works":["https://openalex.org/W2505380084","https://openalex.org/W230091440","https://openalex.org/W4400333498","https://openalex.org/W2233261550","https://openalex.org/W1980160788","https://openalex.org/W1656096860","https://openalex.org/W2095928260","https://openalex.org/W2268149564","https://openalex.org/W1984739956","https://openalex.org/W2763312740"],"abstract_inverted_index":{"The":[0],"straggler":[1,47,74,97,159],"problem":[2],"has":[3,15],"been":[4],"extensively":[5],"studied":[6],"in":[7,20,33,50,84,96,185,243],"CPU-based":[8],"distributed":[9,23,126,140],"deep":[10],"learning":[11],"(DL)":[12],"training":[13,69,104,233],"but":[14],"not":[16,29,78],"received":[17],"significant":[18],"attention":[19],"homogeneous":[21,136,247],"GPU-based":[22,139],"training,":[24,141],"possibly":[25],"because":[26],"GPUs":[27],"do":[28,77],"typically":[30],"become":[31],"bottlenecks":[32],"this":[34,37,51,85,174],"scenario.":[35],"In":[36],"paper,":[38],"we":[39,118],"conduct":[40],"experiment":[41],"measurements":[42],"and":[43,62,68,87,123,137,148,231,235,240,246],"find":[44],"that":[45,156,224],"the":[46,81,112,144,189,202,244],"problems":[48],"persist":[49],"scenario,":[52,86],"primarily":[53],"stemming":[54],"from":[55,90,115],"communication":[56,82,165,171,195],"hurdles,":[57],"compounded":[58],"by":[59,71,197],"computation":[60],"delays,":[61],"stragglers":[63,83],"substantially":[64],"inflate":[65],"resource":[66,100],"consumption":[67],"time":[70,234],"\u223c50%.":[72],"Existing":[73],"mitigation":[75],"methods":[76,184],"directly":[79],"address":[80],"they":[88],"suffer":[89],"drawbacks":[91],"such":[92],"as":[93],"prolonged":[94],"latency":[95],"removal,":[98],"high":[99,164],"consumption,":[101],"or":[102],"compromised":[103],"accuracy.":[105,256],"To":[106],"tackle":[107],"these":[108],"limitations,":[109],"based":[110],"on":[111,221],"insights":[113],"derived":[114],"thorough":[116],"measurements,":[117],"propose":[119],"a":[120,153,158,161],"Straggler-aware":[121],"Time":[122],"Resource":[124],"Efficient":[125],"DL":[127],"Training":[128],"system":[129],"(STRET).":[130],"STRET":[131,225],"is":[132,205],"tailored":[133],"for":[134],"both":[135,143],"heterogeneous":[138,245],"encompassing":[142],"parameter":[145],"server":[146],"(PS)":[147],"all-reduce":[149],"architectures.":[150],"It":[151],"creates":[152],"hybrid":[154],"architecture":[155],"connects":[157],"to":[160,169,177,187,214,229,238,251],"non-straggler":[162],"possessing":[163],"bandwidth":[166],"with":[167],"it":[168,180,192,208],"reduce":[170,215,227],"delay.":[172],"If":[173],"method":[175],"fails":[176],"eliminate":[178],"stragglers,":[179],"runs":[181],"two":[182],"complementary":[183],"sequence":[186],"remove":[188],"stragglers.":[190],"First,":[191],"further":[193],"reduces":[194],"overhead":[196],"withholding":[198],"reporting":[199],"gradients":[200],"when":[201],"accuracy":[203],"increment":[204],"marginal.":[206],"Second,":[207],"conducts":[209],"one-time":[210],"batch":[211],"size":[212],"tuning":[213],"iteration":[216],"time.":[217],"Real":[218],"experimental":[219],"results":[220],"TensorFlow":[222],"show":[223],"can":[226],"up":[228,237],"56%":[230],"41%":[232],"save":[236],"94%":[239],"96%":[241],"resources":[242],"scenarios,":[248],"respectively,":[249],"compared":[250],"state-of-the-art":[252],"approaches":[253],"while":[254],"preserving":[255]},"counts_by_year":[],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}