{"id":"https://openalex.org/W7084094348","doi":"https://doi.org/10.1109/infocom55648.2025.11044593","title":"MemFerry: A Fast and Memory Efficient Offload Training Framework with Hybrid GPU Computation","display_name":"MemFerry: A Fast and Memory Efficient Offload Training Framework with Hybrid GPU Computation","publication_year":2025,"publication_date":"2025-05-19","ids":{"openalex":"https://openalex.org/W7084094348","doi":"https://doi.org/10.1109/infocom55648.2025.11044593"},"language":"en","primary_location":{"id":"doi:10.1109/infocom55648.2025.11044593","is_oa":false,"landing_page_url":"https://doi.org/10.1109/infocom55648.2025.11044593","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE INFOCOM 2025 - IEEE Conference on Computer Communications","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":null,"display_name":"Zhiyi Yao","orcid":null},"institutions":[{"id":"https://openalex.org/I24943067","display_name":"Fudan University","ror":"https://ror.org/013q1eq08","country_code":"CN","type":"education","lineage":["https://openalex.org/I24943067"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Zhiyi Yao","raw_affiliation_strings":["Fudan University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Fudan University","institution_ids":["https://openalex.org/I24943067"]}]},{"author_position":"middle","author":{"id":null,"display_name":"Zuning Liang","orcid":null},"institutions":[{"id":"https://openalex.org/I24943067","display_name":"Fudan University","ror":"https://ror.org/013q1eq08","country_code":"CN","type":"education","lineage":["https://openalex.org/I24943067"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Zuning Liang","raw_affiliation_strings":["Fudan University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Fudan University","institution_ids":["https://openalex.org/I24943067"]}]},{"author_position":"middle","author":{"id":null,"display_name":"Yuedong Xu","orcid":null},"institutions":[{"id":"https://openalex.org/I24943067","display_name":"Fudan University","ror":"https://ror.org/013q1eq08","country_code":"CN","type":"education","lineage":["https://openalex.org/I24943067"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Yuedong Xu","raw_affiliation_strings":["Fudan University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Fudan University","institution_ids":["https://openalex.org/I24943067"]}]},{"author_position":"middle","author":{"id":null,"display_name":"Jin Zhao","orcid":null},"institutions":[{"id":"https://openalex.org/I24943067","display_name":"Fudan University","ror":"https://ror.org/013q1eq08","country_code":"CN","type":"education","lineage":["https://openalex.org/I24943067"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Jin Zhao","raw_affiliation_strings":["Fudan University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Fudan University","institution_ids":["https://openalex.org/I24943067"]}]},{"author_position":"middle","author":{"id":null,"display_name":"Jessie Hui Wang","orcid":null},"institutions":[{"id":"https://openalex.org/I99065089","display_name":"Tsinghua University","ror":"https://ror.org/03cve4549","country_code":"CN","type":"education","lineage":["https://openalex.org/I99065089"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Jessie Hui Wang","raw_affiliation_strings":["Tsinghua University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Tsinghua University","institution_ids":["https://openalex.org/I99065089"]}]},{"author_position":"last","author":{"id":null,"display_name":"Tong Li","orcid":null},"institutions":[{"id":"https://openalex.org/I78988378","display_name":"Renmin University of China","ror":"https://ror.org/041pakw92","country_code":"CN","type":"education","lineage":["https://openalex.org/I78988378"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Tong Li","raw_affiliation_strings":["Renmin University of China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Renmin University of China","institution_ids":["https://openalex.org/I78988378"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":6,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.52394509,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"10"},"is_retracted":false,"is_paratext":false,"is_xpac":true,"primary_topic":{"id":"https://openalex.org/T10054","display_name":"Parallel Computing and Optimization Techniques","score":0.7721999883651733,"subfield":{"id":"https://openalex.org/subfields/1708","display_name":"Hardware and Architecture"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10054","display_name":"Parallel Computing and Optimization Techniques","score":0.7721999883651733,"subfield":{"id":"https://openalex.org/subfields/1708","display_name":"Hardware and Architecture"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10036","display_name":"Advanced Neural Network Applications","score":0.05139999836683273,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10101","display_name":"Cloud Computing and Resource Management","score":0.04320000112056732,"subfield":{"id":"https://openalex.org/subfields/1710","display_name":"Information Systems"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/central-processing-unit","display_name":"Central processing unit","score":0.49050000309944153},{"id":"https://openalex.org/keywords/computation","display_name":"Computation","score":0.45809999108314514},{"id":"https://openalex.org/keywords/leverage","display_name":"Leverage (statistics)","score":0.4050999879837036},{"id":"https://openalex.org/keywords/memory-management","display_name":"Memory management","score":0.39410001039505005},{"id":"https://openalex.org/keywords/scalability","display_name":"Scalability","score":0.3921999931335449},{"id":"https://openalex.org/keywords/memory-model","display_name":"Memory model","score":0.36410000920295715},{"id":"https://openalex.org/keywords/overhead","display_name":"Overhead (engineering)","score":0.36070001125335693},{"id":"https://openalex.org/keywords/general-purpose-computing-on-graphics-processing-units","display_name":"General-purpose computing on graphics processing units","score":0.3287000060081482},{"id":"https://openalex.org/keywords/speedup","display_name":"Speedup","score":0.32499998807907104}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.8773000240325928},{"id":"https://openalex.org/C173608175","wikidata":"https://www.wikidata.org/wiki/Q232661","display_name":"Parallel computing","level":1,"score":0.7505000233650208},{"id":"https://openalex.org/C49154492","wikidata":"https://www.wikidata.org/wiki/Q5300","display_name":"Central processing unit","level":2,"score":0.49050000309944153},{"id":"https://openalex.org/C45374587","wikidata":"https://www.wikidata.org/wiki/Q12525525","display_name":"Computation","level":2,"score":0.45809999108314514},{"id":"https://openalex.org/C153083717","wikidata":"https://www.wikidata.org/wiki/Q6535263","display_name":"Leverage (statistics)","level":2,"score":0.4050999879837036},{"id":"https://openalex.org/C176649486","wikidata":"https://www.wikidata.org/wiki/Q2308807","display_name":"Memory management","level":3,"score":0.39410001039505005},{"id":"https://openalex.org/C48044578","wikidata":"https://www.wikidata.org/wiki/Q727490","display_name":"Scalability","level":2,"score":0.3921999931335449},{"id":"https://openalex.org/C12186640","wikidata":"https://www.wikidata.org/wiki/Q6815743","display_name":"Memory model","level":3,"score":0.36410000920295715},{"id":"https://openalex.org/C2779960059","wikidata":"https://www.wikidata.org/wiki/Q7113681","display_name":"Overhead (engineering)","level":2,"score":0.36070001125335693},{"id":"https://openalex.org/C50630238","wikidata":"https://www.wikidata.org/wiki/Q971505","display_name":"General-purpose computing on graphics processing units","level":3,"score":0.3287000060081482},{"id":"https://openalex.org/C68339613","wikidata":"https://www.wikidata.org/wiki/Q1549489","display_name":"Speedup","level":2,"score":0.32499998807907104},{"id":"https://openalex.org/C201410400","wikidata":"https://www.wikidata.org/wiki/Q1064412","display_name":"Multithreading","level":3,"score":0.3156999945640564},{"id":"https://openalex.org/C34165917","wikidata":"https://www.wikidata.org/wiki/Q188267","display_name":"Programming paradigm","level":2,"score":0.3149000108242035},{"id":"https://openalex.org/C124304363","wikidata":"https://www.wikidata.org/wiki/Q673661","display_name":"Abstraction","level":2,"score":0.31290000677108765},{"id":"https://openalex.org/C157742956","wikidata":"https://www.wikidata.org/wiki/Q3237776","display_name":"Frequency scaling","level":3,"score":0.3122999966144562},{"id":"https://openalex.org/C37724790","wikidata":"https://www.wikidata.org/wiki/Q210813","display_name":"Direct memory access","level":3,"score":0.3043999969959259},{"id":"https://openalex.org/C43521106","wikidata":"https://www.wikidata.org/wiki/Q2165493","display_name":"Pipeline (software)","level":2,"score":0.30000001192092896},{"id":"https://openalex.org/C133875982","wikidata":"https://www.wikidata.org/wiki/Q764810","display_name":"Shared memory","level":2,"score":0.29100000858306885},{"id":"https://openalex.org/C9390403","wikidata":"https://www.wikidata.org/wiki/Q3966","display_name":"Computer hardware","level":1,"score":0.290800005197525},{"id":"https://openalex.org/C86111242","wikidata":"https://www.wikidata.org/wiki/Q859595","display_name":"Coprocessor","level":2,"score":0.2888000011444092},{"id":"https://openalex.org/C74912251","wikidata":"https://www.wikidata.org/wiki/Q6815727","display_name":"Memory footprint","level":2,"score":0.28600001335144043},{"id":"https://openalex.org/C2780870223","wikidata":"https://www.wikidata.org/wiki/Q1004415","display_name":"Runtime system","level":2,"score":0.2784999907016754},{"id":"https://openalex.org/C149635348","wikidata":"https://www.wikidata.org/wiki/Q193040","display_name":"Embedded system","level":1,"score":0.2743000090122223},{"id":"https://openalex.org/C47487241","wikidata":"https://www.wikidata.org/wiki/Q5227230","display_name":"Data access","level":2,"score":0.27410000562667847},{"id":"https://openalex.org/C83283714","wikidata":"https://www.wikidata.org/wiki/Q121117","display_name":"Supercomputer","level":2,"score":0.2655999958515167},{"id":"https://openalex.org/C2781335571","wikidata":"https://www.wikidata.org/wiki/Q2633544","display_name":"GPU cluster","level":3,"score":0.26330000162124634},{"id":"https://openalex.org/C206729178","wikidata":"https://www.wikidata.org/wiki/Q2271896","display_name":"Scheduling (production processes)","level":2,"score":0.2603999972343445}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/infocom55648.2025.11044593","is_oa":false,"landing_page_url":"https://doi.org/10.1109/infocom55648.2025.11044593","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE INFOCOM 2025 - IEEE Conference on Computer Communications","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"With":[0],"the":[1,24,37,106,140],"ever-growing":[2],"size":[3],"of":[4,39,47,86,99],"deep":[5],"learning":[6],"models,":[7],"GPU":[8,43,64,110,124,146,153],"memory":[9,29,71,111,125,137,154,170],"is":[10,20],"prone":[11],"to":[12,27,72,109,113,123,168,180,192,209],"be":[13],"insufficient":[14],"during":[15],"training.":[16],"A":[17],"prominent":[18],"approach":[19],"ZeRO-Offload":[21,40,193],"which":[22],"moves":[23],"optimizer":[25],"states":[26],"CPU":[28,70,148,169],"and":[30,49,51,78,82,90,104,118,147,183,198],"performs":[31],"parameter":[32,141],"update":[33],"using":[34],"CPU.":[35],"However,":[36],"deficiencies":[38],"include":[41],"low":[42],"utilization,":[44],"imperfect":[45],"overlapping":[46],"communication":[48],"computation,":[50],"inflexible":[52],"offloading.":[53],"In":[54],"this":[55],"paper,":[56],"we":[57,156],"leverage":[58],"Direct":[59],"Host":[60],"Access":[61],"(DHA)":[62],"in":[63,145],"that":[65,165,176],"can":[66],"compute":[67],"data":[68,210],"on":[69,194,212],"form":[73],"a":[74,91,135,195],"novel":[75],"hybrid":[76],"on-GPU":[77],"DHA.":[79,172],"We":[80],"design":[81],"implement":[83],"MemFerry":[84,177],"consisting":[85],"an":[87],"execution":[88],"scheduler":[89,95],"shadow":[92,132],"model.":[93],"The":[94,131],"strategically":[96],"chooses":[97],"layers":[98],"parameters":[100,108,122],"for":[101,126,139],"DHA":[102,121],"computation":[103],"transmits":[105],"remaining":[107],"simultaneously":[112],"shorten":[114],"forward":[115],"propagation":[116,129],"time,":[117],"further":[119,151],"loads":[120],"reducing":[127],"backward":[128],"time.":[130],"model":[133,190],"presents":[134],"unified":[136],"abstraction":[138],"partitions":[142],"stored":[143],"separately":[144],"memories.":[149],"To":[150],"reduce":[152],"usage,":[155],"present":[157],"GO-MemFerry":[158,184],"along":[159],"with":[160],"its":[161],"dynamic":[162],"programming":[163],"algorithm":[164],"offloads":[166],"gradients":[167],"via":[171],"Our":[173],"experiments":[174],"show":[175],"trains":[178],"up":[179],"1.68x":[181],"faster":[182],"could":[185],"train":[186],"1.52":[187],"x":[188],"larger":[189],"compared":[191],"single":[196],"GPU,":[197],"increase":[199],"training":[200],"speed":[201],"by":[202],"at":[203],"least":[204],"28.1":[205],"%":[206],"when":[207],"scaling":[208],"parallelism":[211],"8":[213],"GPUs.":[214]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-10-10T00:00:00"}