{"id":"https://openalex.org/W4239583065","doi":"https://doi.org/10.1109/pact.2002.1106026","title":"Optimizing loop performance for clustered VLIW architectures","display_name":"Optimizing loop performance for clustered VLIW architectures","publication_year":2003,"publication_date":"2003-06-26","ids":{"openalex":"https://openalex.org/W4239583065","doi":"https://doi.org/10.1109/pact.2002.1106026"},"language":"en","primary_location":{"id":"doi:10.1109/pact.2002.1106026","is_oa":false,"landing_page_url":"https://doi.org/10.1109/pact.2002.1106026","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings.International Conference on Parallel Architectures and Compilation Techniques","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5026633500","display_name":"Qian Yi","orcid":"https://orcid.org/0000-0002-5130-9249"},"institutions":[{"id":"https://openalex.org/I11957088","display_name":"Michigan Technological University","ror":"https://ror.org/0036rpn28","country_code":"US","type":"education","lineage":["https://openalex.org/I11957088"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"Yi Qian","raw_affiliation_strings":["Department of Computer Science, Michigan Technological University, Houghton, MI, USA"],"affiliations":[{"raw_affiliation_string":"Department of Computer Science, Michigan Technological University, Houghton, MI, USA","institution_ids":["https://openalex.org/I11957088"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5002599549","display_name":"Steve Carr","orcid":"https://orcid.org/0000-0002-8922-0805"},"institutions":[{"id":"https://openalex.org/I11957088","display_name":"Michigan Technological University","ror":"https://ror.org/0036rpn28","country_code":"US","type":"education","lineage":["https://openalex.org/I11957088"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"S. Carr","raw_affiliation_strings":["Department of Computer Science, Michigan Technological University, Houghton, MI, USA"],"affiliations":[{"raw_affiliation_string":"Department of Computer Science, Michigan Technological University, Houghton, MI, USA","institution_ids":["https://openalex.org/I11957088"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5108507899","display_name":"P. Sweany","orcid":null},"institutions":[{"id":"https://openalex.org/I74760111","display_name":"Texas Instruments (United States)","ror":"https://ror.org/03vsmv677","country_code":"US","type":"company","lineage":["https://openalex.org/I74760111"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"P. Sweany","raw_affiliation_strings":["Texas Instrumenits, Inc., Dallas, TX, USA"],"affiliations":[{"raw_affiliation_string":"Texas Instrumenits, Inc., Dallas, TX, USA","institution_ids":["https://openalex.org/I74760111"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5026633500"],"corresponding_institution_ids":["https://openalex.org/I11957088"],"apc_list":null,"apc_paid":null,"fwci":0.2564,"has_fulltext":false,"cited_by_count":8,"citation_normalized_percentile":{"value":0.6226145,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":94},"biblio":{"volume":null,"issue":null,"first_page":"271","last_page":"280"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10054","display_name":"Parallel Computing and Optimization Techniques","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1708","display_name":"Hardware and Architecture"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10054","display_name":"Parallel Computing and Optimization Techniques","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1708","display_name":"Hardware and Architecture"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10829","display_name":"Interconnection Networks and Systems","score":0.9986000061035156,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10904","display_name":"Embedded Systems Design Techniques","score":0.9980999827384949,"subfield":{"id":"https://openalex.org/subfields/1708","display_name":"Hardware and Architecture"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/loop-unrolling","display_name":"Loop unrolling","score":0.9077489376068115},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.8834753036499023},{"id":"https://openalex.org/keywords/parallel-computing","display_name":"Parallel computing","score":0.8038195967674255},{"id":"https://openalex.org/keywords/very-long-instruction-word","display_name":"Very long instruction word","score":0.7855216860771179},{"id":"https://openalex.org/keywords/register-allocation","display_name":"Register allocation","score":0.7638837099075317},{"id":"https://openalex.org/keywords/instruction-level-parallelism","display_name":"Instruction-level parallelism","score":0.7170739769935608},{"id":"https://openalex.org/keywords/register-file","display_name":"Register file","score":0.6966524124145508},{"id":"https://openalex.org/keywords/compiler","display_name":"Compiler","score":0.5672276020050049},{"id":"https://openalex.org/keywords/software-pipelining","display_name":"Software pipelining","score":0.5468823313713074},{"id":"https://openalex.org/keywords/speedup","display_name":"Speedup","score":0.5316423177719116},{"id":"https://openalex.org/keywords/data-parallelism","display_name":"Data parallelism","score":0.5200766921043396},{"id":"https://openalex.org/keywords/instruction-scheduling","display_name":"Instruction scheduling","score":0.49378499388694763},{"id":"https://openalex.org/keywords/instruction-set","display_name":"Instruction set","score":0.4934941530227661},{"id":"https://openalex.org/keywords/optimizing-compiler","display_name":"Optimizing compiler","score":0.4840661585330963},{"id":"https://openalex.org/keywords/loop-optimization","display_name":"Loop optimization","score":0.4764019548892975},{"id":"https://openalex.org/keywords/porting","display_name":"Porting","score":0.47638005018234253},{"id":"https://openalex.org/keywords/processor-register","display_name":"Processor register","score":0.4240989089012146},{"id":"https://openalex.org/keywords/software","display_name":"Software","score":0.3654283881187439},{"id":"https://openalex.org/keywords/parallelism","display_name":"Parallelism (grammar)","score":0.33894479274749756},{"id":"https://openalex.org/keywords/schedule","display_name":"Schedule","score":0.29155611991882324},{"id":"https://openalex.org/keywords/computer-hardware","display_name":"Computer hardware","score":0.19819462299346924},{"id":"https://openalex.org/keywords/memory-address","display_name":"Memory address","score":0.1402479112148285},{"id":"https://openalex.org/keywords/dynamic-priority-scheduling","display_name":"Dynamic priority scheduling","score":0.124773770570755}],"concepts":[{"id":"https://openalex.org/C76970557","wikidata":"https://www.wikidata.org/wiki/Q1869750","display_name":"Loop unrolling","level":3,"score":0.9077489376068115},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.8834753036499023},{"id":"https://openalex.org/C173608175","wikidata":"https://www.wikidata.org/wiki/Q232661","display_name":"Parallel computing","level":1,"score":0.8038195967674255},{"id":"https://openalex.org/C170595534","wikidata":"https://www.wikidata.org/wiki/Q249743","display_name":"Very long instruction word","level":2,"score":0.7855216860771179},{"id":"https://openalex.org/C128916667","wikidata":"https://www.wikidata.org/wiki/Q1343660","display_name":"Register allocation","level":3,"score":0.7638837099075317},{"id":"https://openalex.org/C140763907","wikidata":"https://www.wikidata.org/wiki/Q2714055","display_name":"Instruction-level parallelism","level":3,"score":0.7170739769935608},{"id":"https://openalex.org/C117280010","wikidata":"https://www.wikidata.org/wiki/Q180944","display_name":"Register file","level":3,"score":0.6966524124145508},{"id":"https://openalex.org/C169590947","wikidata":"https://www.wikidata.org/wiki/Q47506","display_name":"Compiler","level":2,"score":0.5672276020050049},{"id":"https://openalex.org/C188854837","wikidata":"https://www.wikidata.org/wiki/Q268469","display_name":"Software pipelining","level":3,"score":0.5468823313713074},{"id":"https://openalex.org/C68339613","wikidata":"https://www.wikidata.org/wiki/Q1549489","display_name":"Speedup","level":2,"score":0.5316423177719116},{"id":"https://openalex.org/C61483411","wikidata":"https://www.wikidata.org/wiki/Q3124522","display_name":"Data parallelism","level":3,"score":0.5200766921043396},{"id":"https://openalex.org/C73564150","wikidata":"https://www.wikidata.org/wiki/Q11417093","display_name":"Instruction scheduling","level":5,"score":0.49378499388694763},{"id":"https://openalex.org/C202491316","wikidata":"https://www.wikidata.org/wiki/Q272683","display_name":"Instruction set","level":2,"score":0.4934941530227661},{"id":"https://openalex.org/C190902152","wikidata":"https://www.wikidata.org/wiki/Q1325106","display_name":"Optimizing compiler","level":3,"score":0.4840661585330963},{"id":"https://openalex.org/C29331672","wikidata":"https://www.wikidata.org/wiki/Q3354468","display_name":"Loop optimization","level":4,"score":0.4764019548892975},{"id":"https://openalex.org/C106251023","wikidata":"https://www.wikidata.org/wiki/Q851989","display_name":"Porting","level":3,"score":0.47638005018234253},{"id":"https://openalex.org/C2871975","wikidata":"https://www.wikidata.org/wiki/Q187466","display_name":"Processor register","level":4,"score":0.4240989089012146},{"id":"https://openalex.org/C2777904410","wikidata":"https://www.wikidata.org/wiki/Q7397","display_name":"Software","level":2,"score":0.3654283881187439},{"id":"https://openalex.org/C2781172179","wikidata":"https://www.wikidata.org/wiki/Q853109","display_name":"Parallelism (grammar)","level":2,"score":0.33894479274749756},{"id":"https://openalex.org/C68387754","wikidata":"https://www.wikidata.org/wiki/Q7271585","display_name":"Schedule","level":2,"score":0.29155611991882324},{"id":"https://openalex.org/C9390403","wikidata":"https://www.wikidata.org/wiki/Q3966","display_name":"Computer hardware","level":1,"score":0.19819462299346924},{"id":"https://openalex.org/C153247305","wikidata":"https://www.wikidata.org/wiki/Q835713","display_name":"Memory address","level":3,"score":0.1402479112148285},{"id":"https://openalex.org/C107568181","wikidata":"https://www.wikidata.org/wiki/Q5319000","display_name":"Dynamic priority scheduling","level":3,"score":0.124773770570755},{"id":"https://openalex.org/C119948110","wikidata":"https://www.wikidata.org/wiki/Q7858726","display_name":"Two-level scheduling","level":4,"score":0.0},{"id":"https://openalex.org/C111919701","wikidata":"https://www.wikidata.org/wiki/Q9135","display_name":"Operating system","level":1,"score":0.0},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.0},{"id":"https://openalex.org/C98986596","wikidata":"https://www.wikidata.org/wiki/Q1143031","display_name":"Semiconductor memory","level":2,"score":0.0}],"mesh":[],"locations_count":2,"locations":[{"id":"doi:10.1109/pact.2002.1106026","is_oa":false,"landing_page_url":"https://doi.org/10.1109/pact.2002.1106026","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings.International Conference on Parallel Architectures and Compilation Techniques","raw_type":"proceedings-article"},{"id":"pmh:oai:digitalcommons.mtu.edu:michigantech-p-30153","is_oa":false,"landing_page_url":"https://digitalcommons.mtu.edu/michigantech-p/10851","pdf_url":null,"source":{"id":"https://openalex.org/S4377196391","display_name":"Digital Commons - Michigan Tech (Michigan Technological University)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I11957088","host_organization_name":"Michigan Technological University","host_organization_lineage":["https://openalex.org/I11957088"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"Michigan Tech Publications, Part 1","raw_type":"text"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[{"id":"https://openalex.org/F4320306076","display_name":"National Science Foundation","ror":"https://ror.org/021nxhr62"}],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":19,"referenced_works":["https://openalex.org/W74295851","https://openalex.org/W1899165969","https://openalex.org/W1966708457","https://openalex.org/W2051533028","https://openalex.org/W2057577013","https://openalex.org/W2100097836","https://openalex.org/W2115184416","https://openalex.org/W2123412205","https://openalex.org/W2138007781","https://openalex.org/W4232919122","https://openalex.org/W4233676330","https://openalex.org/W4240165549","https://openalex.org/W4241052066","https://openalex.org/W4242172296","https://openalex.org/W4242383623","https://openalex.org/W4248667787","https://openalex.org/W4250047106","https://openalex.org/W6603051598","https://openalex.org/W6663737718"],"related_works":["https://openalex.org/W2152533950","https://openalex.org/W4252395411","https://openalex.org/W4205539271","https://openalex.org/W1971661230","https://openalex.org/W4253352037","https://openalex.org/W4299303078","https://openalex.org/W4239583065","https://openalex.org/W2142682265","https://openalex.org/W1563688358","https://openalex.org/W2074002609"],"abstract_inverted_index":{"Modem":[0],"embedded":[1,23],"systems":[2],"often":[3],"require":[4,85],"high":[5,26],"degrees":[6],"of":[7,72,134,152,170,186,194,208],"instruction-level":[8],"parallelism":[9,144],"(ILP)":[10],"within":[11],"strict":[12],"constraints":[13],"on":[14,32,101,210],"power":[15],"consumption":[16],"and":[17,140,173,188,197,219],"chip":[18],"cost.":[19],"Unfortunately,":[20],"a":[21,40,70,102,171,204,216],"high-performance":[22],"processor":[24],"with":[25],"ILP":[27,196],"generally":[28],"puts":[29],"large":[30],"demands":[31],"register":[33,43,58],"resources,":[34],"making":[35],"it":[36],"difficult":[37],"to":[38,69,107,124,147,182],"maintain":[39],"single,":[41],"multi-ported":[42],"bank.":[44],"To":[45],"address":[46],"this":[47,157],"problem,":[48],"some":[49],"architectures,":[50,113],"e.g.":[51],"the":[52,57,114,120,132,143,150,166,184,192,220],"Texas":[53],"Instruments":[54],"TMS320C6x,":[55],"partition":[56],"bank":[59,78],"into":[60],"multiple":[61],"banks":[62],"that":[63,86,178],"are":[64,80],"each":[65],"directly":[66],"connected":[67],"only":[68,118],"subset":[71],"functional":[73,76],"units.":[74],"These":[75],"unit/register":[77],"groups":[79],"called":[81],"clusters.":[82],"Clustered":[83],"architectures":[84],"either":[87],"copy":[88],"operations":[89],"or":[90],"delay":[91],"slots":[92],"be":[93,180],"inserted":[94],"when":[95],"an":[96,161,175],"operation":[97],"accesses":[98],"data":[99,136,154,199],"stored":[100],"different":[103],"cluster":[104],"In":[105,156],"order":[106],"generate":[108],"excellent":[109],"code":[110],"for":[111,164,214],"such":[112],"compiler":[115],"must":[116,130],"not":[117],"spread":[119],"computation":[121],"across":[122],"clusters":[123],"achieve":[125],"maximum":[126],"parallelism,":[127],"but":[128],"also":[129],"limit":[131,149],"effects":[133,151,193],"intercluster":[135,153,167,198],"transfers.":[137,155,200],"Loop":[138],"unrolling":[139,190],"unroll-and-jam":[141,187],"enhance":[142],"in":[145],"loops":[146,213],"help":[148],"paper":[158],"we":[159],"describe":[160],"accurate":[162],"metric":[163],"predicting":[165],"communication":[168],"cost":[169],"loop":[172,189],"present":[174],"integer-optimization":[176],"problem":[177],"can":[179],"used":[181],"guide":[183],"application":[185],"considering":[191],"both":[195,215],"Our":[201],"method":[202],"achieves":[203],"harmonic":[205],"mean":[206],"speedup":[207],"1.4-1.7":[209],"software":[211],"pipelined":[212],"simulated":[217],"architecture":[218],"TI":[221],"TMS320C64x.":[222]},"counts_by_year":[{"year":2017,"cited_by_count":1},{"year":2014,"cited_by_count":1},{"year":2012,"cited_by_count":1}],"updated_date":"2026-03-20T23:20:44.827607","created_date":"2025-10-10T00:00:00"}