{"id":"https://openalex.org/W1967802285","doi":"https://doi.org/10.1145/1810085.1810128","title":"Large-scale FFT on GPU clusters","display_name":"Large-scale FFT on GPU clusters","publication_year":2010,"publication_date":"2010-06-02","ids":{"openalex":"https://openalex.org/W1967802285","doi":"https://doi.org/10.1145/1810085.1810128","mag":"1967802285"},"language":"en","primary_location":{"id":"doi:10.1145/1810085.1810128","is_oa":false,"landing_page_url":"https://doi.org/10.1145/1810085.1810128","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 24th ACM International Conference on Supercomputing","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5100400360","display_name":"Yifeng Chen","orcid":"https://orcid.org/0000-0003-1358-3367"},"institutions":[{"id":"https://openalex.org/I20231570","display_name":"Peking University","ror":"https://ror.org/02v51f717","country_code":"CN","type":"education","lineage":["https://openalex.org/I20231570"]}],"countries":["CN"],"is_corresponding":true,"raw_author_name":"Yifeng Chen","raw_affiliation_strings":["Peking University, Beijing, China","Peking University, Beijing, China#TAB#"],"affiliations":[{"raw_affiliation_string":"Peking University, Beijing, China","institution_ids":["https://openalex.org/I20231570"]},{"raw_affiliation_string":"Peking University, Beijing, China#TAB#","institution_ids":["https://openalex.org/I20231570"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5102915338","display_name":"Xiang Cui","orcid":"https://orcid.org/0000-0001-9165-3776"},"institutions":[{"id":"https://openalex.org/I20231570","display_name":"Peking University","ror":"https://ror.org/02v51f717","country_code":"CN","type":"education","lineage":["https://openalex.org/I20231570"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Xiang Cui","raw_affiliation_strings":["Peking University, Beijing, China","Peking University, Beijing, China#TAB#"],"affiliations":[{"raw_affiliation_string":"Peking University, Beijing, China","institution_ids":["https://openalex.org/I20231570"]},{"raw_affiliation_string":"Peking University, Beijing, China#TAB#","institution_ids":["https://openalex.org/I20231570"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5100633784","display_name":"Hong Mei","orcid":"https://orcid.org/0000-0003-2380-3976"},"institutions":[{"id":"https://openalex.org/I20231570","display_name":"Peking University","ror":"https://ror.org/02v51f717","country_code":"CN","type":"education","lineage":["https://openalex.org/I20231570"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Hong Mei","raw_affiliation_strings":["Peking University, Beijing, China","Peking University, Beijing, China#TAB#"],"affiliations":[{"raw_affiliation_string":"Peking University, Beijing, China","institution_ids":["https://openalex.org/I20231570"]},{"raw_affiliation_string":"Peking University, Beijing, China#TAB#","institution_ids":["https://openalex.org/I20231570"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5100400360"],"corresponding_institution_ids":["https://openalex.org/I20231570"],"apc_list":null,"apc_paid":null,"fwci":8.7391,"has_fulltext":false,"cited_by_count":85,"citation_normalized_percentile":{"value":0.98014841,"is_in_top_1_percent":false,"is_in_top_10_percent":true},"cited_by_percentile_year":{"min":89,"max":100},"biblio":{"volume":null,"issue":null,"first_page":"315","last_page":"324"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10054","display_name":"Parallel Computing and Optimization Techniques","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1708","display_name":"Hardware and Architecture"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10054","display_name":"Parallel Computing and Optimization Techniques","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1708","display_name":"Hardware and Architecture"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11181","display_name":"Advanced Data Storage Technologies","score":0.9991000294685364,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10715","display_name":"Distributed and Parallel Computing Systems","score":0.9890000224113464,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.8843682408332825},{"id":"https://openalex.org/keywords/speedup","display_name":"Speedup","score":0.8695603609085083},{"id":"https://openalex.org/keywords/parallel-computing","display_name":"Parallel computing","score":0.7866930961608887},{"id":"https://openalex.org/keywords/memory-bandwidth","display_name":"Memory bandwidth","score":0.6628075242042542},{"id":"https://openalex.org/keywords/bottleneck","display_name":"Bottleneck","score":0.5729663968086243},{"id":"https://openalex.org/keywords/gpu-cluster","display_name":"GPU cluster","score":0.5564461946487427},{"id":"https://openalex.org/keywords/fast-fourier-transform","display_name":"Fast Fourier transform","score":0.5267766714096069},{"id":"https://openalex.org/keywords/bandwidth","display_name":"Bandwidth (computing)","score":0.49283289909362793},{"id":"https://openalex.org/keywords/distributed-memory","display_name":"Distributed memory","score":0.4657619297504425},{"id":"https://openalex.org/keywords/locality","display_name":"Locality","score":0.4608883559703827},{"id":"https://openalex.org/keywords/high-memory","display_name":"High memory","score":0.4160749614238739},{"id":"https://openalex.org/keywords/shared-memory","display_name":"Shared memory","score":0.38459542393684387},{"id":"https://openalex.org/keywords/computational-science","display_name":"Computational science","score":0.33104732632637024},{"id":"https://openalex.org/keywords/cuda","display_name":"CUDA","score":0.22942325472831726},{"id":"https://openalex.org/keywords/embedded-system","display_name":"Embedded system","score":0.2021380364894867},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.1570594310760498}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.8843682408332825},{"id":"https://openalex.org/C68339613","wikidata":"https://www.wikidata.org/wiki/Q1549489","display_name":"Speedup","level":2,"score":0.8695603609085083},{"id":"https://openalex.org/C173608175","wikidata":"https://www.wikidata.org/wiki/Q232661","display_name":"Parallel computing","level":1,"score":0.7866930961608887},{"id":"https://openalex.org/C188045654","wikidata":"https://www.wikidata.org/wiki/Q17148339","display_name":"Memory bandwidth","level":2,"score":0.6628075242042542},{"id":"https://openalex.org/C2780513914","wikidata":"https://www.wikidata.org/wiki/Q18210350","display_name":"Bottleneck","level":2,"score":0.5729663968086243},{"id":"https://openalex.org/C2781335571","wikidata":"https://www.wikidata.org/wiki/Q2633544","display_name":"GPU cluster","level":3,"score":0.5564461946487427},{"id":"https://openalex.org/C75172450","wikidata":"https://www.wikidata.org/wiki/Q623950","display_name":"Fast Fourier transform","level":2,"score":0.5267766714096069},{"id":"https://openalex.org/C2776257435","wikidata":"https://www.wikidata.org/wiki/Q1576430","display_name":"Bandwidth (computing)","level":2,"score":0.49283289909362793},{"id":"https://openalex.org/C91481028","wikidata":"https://www.wikidata.org/wiki/Q1054686","display_name":"Distributed memory","level":3,"score":0.4657619297504425},{"id":"https://openalex.org/C2779808786","wikidata":"https://www.wikidata.org/wiki/Q6664603","display_name":"Locality","level":2,"score":0.4608883559703827},{"id":"https://openalex.org/C2781357197","wikidata":"https://www.wikidata.org/wiki/Q5757597","display_name":"High memory","level":2,"score":0.4160749614238739},{"id":"https://openalex.org/C133875982","wikidata":"https://www.wikidata.org/wiki/Q764810","display_name":"Shared memory","level":2,"score":0.38459542393684387},{"id":"https://openalex.org/C459310","wikidata":"https://www.wikidata.org/wiki/Q117801","display_name":"Computational science","level":1,"score":0.33104732632637024},{"id":"https://openalex.org/C2778119891","wikidata":"https://www.wikidata.org/wiki/Q477690","display_name":"CUDA","level":2,"score":0.22942325472831726},{"id":"https://openalex.org/C149635348","wikidata":"https://www.wikidata.org/wiki/Q193040","display_name":"Embedded system","level":1,"score":0.2021380364894867},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.1570594310760498},{"id":"https://openalex.org/C41895202","wikidata":"https://www.wikidata.org/wiki/Q8162","display_name":"Linguistics","level":1,"score":0.0},{"id":"https://openalex.org/C31258907","wikidata":"https://www.wikidata.org/wiki/Q1301371","display_name":"Computer network","level":1,"score":0.0},{"id":"https://openalex.org/C138885662","wikidata":"https://www.wikidata.org/wiki/Q5891","display_name":"Philosophy","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1145/1810085.1810128","is_oa":false,"landing_page_url":"https://doi.org/10.1145/1810085.1810128","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 24th ACM International Conference on Supercomputing","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[{"id":"https://openalex.org/G8535318734","display_name":null,"funder_award_id":"45210130-0442","funder_id":"https://openalex.org/F4320321540","funder_display_name":"Ministry of Science and Technology of the People's Republic of China"}],"funders":[{"id":"https://openalex.org/F4320321540","display_name":"Ministry of Science and Technology of the People's Republic of China","ror":"https://ror.org/027s68j25"}],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":10,"referenced_works":["https://openalex.org/W1992851788","https://openalex.org/W2019790901","https://openalex.org/W2063186542","https://openalex.org/W2107483876","https://openalex.org/W2108600626","https://openalex.org/W2113190809","https://openalex.org/W2114927422","https://openalex.org/W2119309553","https://openalex.org/W2166395705","https://openalex.org/W2170611190"],"related_works":["https://openalex.org/W2026512611","https://openalex.org/W1985165680","https://openalex.org/W4245497162","https://openalex.org/W2353146130","https://openalex.org/W1990817968","https://openalex.org/W2150064838","https://openalex.org/W1933089384","https://openalex.org/W1967597631","https://openalex.org/W3039662906","https://openalex.org/W1967802285"],"abstract_inverted_index":{"A":[0],"GPU":[1,8,58,78,108,121,133],"cluster":[2,5,233],"is":[3,12,175,189],"a":[4,76,107,231],"equipped":[6],"with":[7,26,51,213,220,234,240],"devices.":[9],"Excellent":[10],"acceleration":[11],"achievable":[13],"for":[14,75,101,128,225,248],"computation-intensive":[15],"tasks":[16,25,34,105],"(e.":[17,29],"g.":[18,30],"matrix":[19,162],"multiplication":[20],"and":[21,23,57,144,152,154,217],"LINPACK)":[22],"bandwidth-intensive":[24],"data":[27,40,148,173,178,187],"locality":[28,41],"finite-difference":[31],"simulation).":[32],"Bandwidth-intensive":[33],"such":[35,160],"as":[36,46,91,161,201],"large-scale":[37,89],"FFTs":[38],"without":[39],"are":[42,246],"harder":[43],"to":[44,94,97,114,139,210,215,222,242],"accelerate,":[45],"the":[47,52,62,71,83,118,124,190,202],"bottleneck":[48],"often":[49],"lies":[50],"PCI":[53],"between":[54,65,150],"main":[55,191],"memory":[56,60,126,135,151],"device":[59,79,134],"or":[61],"communication":[63,204],"network":[64],"workstation":[66],"nodes.":[67],"That":[68],"means":[69],"optimizing":[70],"performance":[72],"of":[73,120,182,194],"FFT":[74,90,229],"single":[77],"will":[80],"not":[81],"improve":[82],"overall":[84],"performance.":[85],"This":[86,180],"paper":[87],"uses":[88],"an":[92],"example":[93],"show":[95],"how":[96],"achieve":[98],"substantial":[99],"speedups":[100],"these":[102],"more":[103],"challenging":[104],"on":[106,230],"cluster.":[109],"Three":[110],"GPU-related":[111],"factors":[112,198],"lead":[113],"better":[115],"performance:":[116],"firstly":[117],"use":[119],"devices":[122],"improves":[123],"sustained":[125],"bandwidth":[127],"processing":[129],"large-size":[130],"data;":[131],"secondly":[132],"allows":[136],"larger":[137],"subtasks":[138],"be":[140,165],"processed":[141],"in":[142,206],"whole":[143],"hence":[145],"reduces":[146],"repeated":[147],"transfers":[149],"processors;":[153],"finally":[155],"some":[156],"costly":[157],"main-memory":[158],"operations":[159],"transposition":[163],"can":[164],"significantly":[166],"sped":[167],"up":[168],"by":[169],"GPUs":[170],"if":[171],"necessary":[172],"adjustment":[174],"performed":[176],"during":[177,186],"transfers.":[179],"technique":[181],"manipulating":[183],"array":[184],"dimensions":[185],"transfer":[188],"technical":[192],"contribution":[193],"this":[195],"paper.":[196],"These":[197],"(as":[199],"well":[200],"improved":[203],"library":[205],"our":[207],"implementation)":[208],"attribute":[209],"24.3x":[211],"speedup":[212,219,239],"respect":[214,221,241],"FFTW":[216],"7x":[218],"Intel":[223],"MKL":[224],"4096":[226],"3D":[227],"single-precision":[228],"16-node":[232],"32":[235],"GPUs.":[236],"Around":[237],"5x":[238],"both":[243],"standard":[244],"libraries":[245],"achieved":[247],"double":[249],"precision.":[250]},"counts_by_year":[{"year":2026,"cited_by_count":1},{"year":2025,"cited_by_count":3},{"year":2024,"cited_by_count":3},{"year":2022,"cited_by_count":1},{"year":2021,"cited_by_count":7},{"year":2020,"cited_by_count":4},{"year":2019,"cited_by_count":4},{"year":2018,"cited_by_count":5},{"year":2017,"cited_by_count":2},{"year":2016,"cited_by_count":6},{"year":2015,"cited_by_count":6},{"year":2014,"cited_by_count":8},{"year":2013,"cited_by_count":16},{"year":2012,"cited_by_count":8}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}