{"id":"https://openalex.org/W4417125231","doi":"https://doi.org/10.1145/3757377.3763831","title":"Input-Aware Sparse Attention for Real-Time Co-Speech Video Generation","display_name":"Input-Aware Sparse Attention for Real-Time Co-Speech Video Generation","publication_year":2025,"publication_date":"2025-12-08","ids":{"openalex":"https://openalex.org/W4417125231","doi":"https://doi.org/10.1145/3757377.3763831"},"language":null,"primary_location":{"id":"doi:10.1145/3757377.3763831","is_oa":true,"landing_page_url":"https://doi.org/10.1145/3757377.3763831","pdf_url":null,"source":null,"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the SIGGRAPH Asia 2025 Conference Papers","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"gold","oa_url":"https://doi.org/10.1145/3757377.3763831","any_repository_has_fulltext":null},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5006589842","display_name":"Beijia Lu","orcid":"https://orcid.org/0000-0002-3113-9131"},"institutions":[{"id":"https://openalex.org/I74973139","display_name":"Carnegie Mellon University","ror":"https://ror.org/05x2bcf33","country_code":"US","type":"education","lineage":["https://openalex.org/I74973139"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Beijia Lu","raw_affiliation_strings":["Carnegie Mellon University, Pittsburgh, USA"],"raw_orcid":"https://orcid.org/0000-0002-3113-9131","affiliations":[{"raw_affiliation_string":"Carnegie Mellon University, Pittsburgh, USA","institution_ids":["https://openalex.org/I74973139"]}]},{"author_position":"middle","author":{"id":null,"display_name":"Ziyi Chen","orcid":"https://orcid.org/0009-0009-4064-324X"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ziyi Chen","raw_affiliation_strings":["PAII Inc., Palo Alto, USA"],"raw_orcid":"https://orcid.org/0009-0009-4064-324X","affiliations":[{"raw_affiliation_string":"PAII Inc., Palo Alto, USA","institution_ids":[]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5016038454","display_name":"Jing Xiao","orcid":"https://orcid.org/0000-0001-9615-4749"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Jing Xiao","raw_affiliation_strings":["PAII Inc., Palo Alto, USA"],"raw_orcid":"https://orcid.org/0000-0001-9615-4749","affiliations":[{"raw_affiliation_string":"PAII Inc., Palo Alto, USA","institution_ids":[]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5102883508","display_name":"Jun-Yan Zhu","orcid":"https://orcid.org/0000-0001-8504-3410"},"institutions":[{"id":"https://openalex.org/I74973139","display_name":"Carnegie Mellon University","ror":"https://ror.org/05x2bcf33","country_code":"US","type":"education","lineage":["https://openalex.org/I74973139"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Jun-Yan Zhu","raw_affiliation_strings":["Carnegie Mellon University, Pittsburgh, USA"],"raw_orcid":"https://orcid.org/0000-0001-8504-3410","affiliations":[{"raw_affiliation_string":"Carnegie Mellon University, Pittsburgh, USA","institution_ids":["https://openalex.org/I74973139"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.45154994,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"11"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10775","display_name":"Generative Adversarial Networks and Image Synthesis","score":0.5078999996185303,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10775","display_name":"Generative Adversarial Networks and Image Synthesis","score":0.5078999996185303,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11448","display_name":"Face recognition and analysis","score":0.14180000126361847,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.10689999908208847,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/motion","display_name":"Motion (physics)","score":0.5001999735832214},{"id":"https://openalex.org/keywords/inference","display_name":"Inference","score":0.49619999527931213},{"id":"https://openalex.org/keywords/computation","display_name":"Computation","score":0.4636000096797943},{"id":"https://openalex.org/keywords/synchronization","display_name":"Synchronization (alternating current)","score":0.44940000772476196},{"id":"https://openalex.org/keywords/distillation","display_name":"Distillation","score":0.38499999046325684},{"id":"https://openalex.org/keywords/noise-reduction","display_name":"Noise reduction","score":0.36809998750686646},{"id":"https://openalex.org/keywords/quality","display_name":"Quality (philosophy)","score":0.36250001192092896},{"id":"https://openalex.org/keywords/video-denoising","display_name":"Video denoising","score":0.3452000021934509}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.8263000249862671},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6450999975204468},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.5629000067710876},{"id":"https://openalex.org/C104114177","wikidata":"https://www.wikidata.org/wiki/Q79782","display_name":"Motion (physics)","level":2,"score":0.5001999735832214},{"id":"https://openalex.org/C2776214188","wikidata":"https://www.wikidata.org/wiki/Q408386","display_name":"Inference","level":2,"score":0.49619999527931213},{"id":"https://openalex.org/C45374587","wikidata":"https://www.wikidata.org/wiki/Q12525525","display_name":"Computation","level":2,"score":0.4636000096797943},{"id":"https://openalex.org/C2778562939","wikidata":"https://www.wikidata.org/wiki/Q1298791","display_name":"Synchronization (alternating current)","level":3,"score":0.44940000772476196},{"id":"https://openalex.org/C204030448","wikidata":"https://www.wikidata.org/wiki/Q101017","display_name":"Distillation","level":2,"score":0.38499999046325684},{"id":"https://openalex.org/C163294075","wikidata":"https://www.wikidata.org/wiki/Q581861","display_name":"Noise reduction","level":2,"score":0.36809998750686646},{"id":"https://openalex.org/C2779530757","wikidata":"https://www.wikidata.org/wiki/Q1207505","display_name":"Quality (philosophy)","level":2,"score":0.36250001192092896},{"id":"https://openalex.org/C30814859","wikidata":"https://www.wikidata.org/wiki/Q4119603","display_name":"Video denoising","level":5,"score":0.3452000021934509},{"id":"https://openalex.org/C36464697","wikidata":"https://www.wikidata.org/wiki/Q451553","display_name":"Visualization","level":2,"score":0.34310001134872437},{"id":"https://openalex.org/C111335779","wikidata":"https://www.wikidata.org/wiki/Q3454686","display_name":"Reduction (mathematics)","level":2,"score":0.3357999920845032},{"id":"https://openalex.org/C103910844","wikidata":"https://www.wikidata.org/wiki/Q2631256","display_name":"Video quality","level":3,"score":0.32190001010894775},{"id":"https://openalex.org/C2776449333","wikidata":"https://www.wikidata.org/wiki/Q7928781","display_name":"View synthesis","level":3,"score":0.31290000677108765},{"id":"https://openalex.org/C202474056","wikidata":"https://www.wikidata.org/wiki/Q1931635","display_name":"Video tracking","level":3,"score":0.30489999055862427},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.30140000581741333},{"id":"https://openalex.org/C121687571","wikidata":"https://www.wikidata.org/wiki/Q4677630","display_name":"Activity recognition","level":2,"score":0.267300009727478},{"id":"https://openalex.org/C160086991","wikidata":"https://www.wikidata.org/wiki/Q5939193","display_name":"Human visual system model","level":3,"score":0.262800008058548},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.26109999418258667},{"id":"https://openalex.org/C65483669","wikidata":"https://www.wikidata.org/wiki/Q3536669","display_name":"Video processing","level":2,"score":0.25130000710487366}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1145/3757377.3763831","is_oa":true,"landing_page_url":"https://doi.org/10.1145/3757377.3763831","pdf_url":null,"source":null,"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the SIGGRAPH Asia 2025 Conference Papers","raw_type":"proceedings-article"}],"best_oa_location":{"id":"doi:10.1145/3757377.3763831","is_oa":true,"landing_page_url":"https://doi.org/10.1145/3757377.3763831","pdf_url":null,"source":null,"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the SIGGRAPH Asia 2025 Conference Papers","raw_type":"proceedings-article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":29,"referenced_works":["https://openalex.org/W2015475217","https://openalex.org/W2133665775","https://openalex.org/W2962785568","https://openalex.org/W2962795401","https://openalex.org/W2963073614","https://openalex.org/W2963168844","https://openalex.org/W2964449965","https://openalex.org/W2969985801","https://openalex.org/W3034577585","https://openalex.org/W3081492798","https://openalex.org/W3176913662","https://openalex.org/W3180770160","https://openalex.org/W4214876496","https://openalex.org/W4312933868","https://openalex.org/W4386075767","https://openalex.org/W4386075984","https://openalex.org/W4390190334","https://openalex.org/W4390872297","https://openalex.org/W4402703119","https://openalex.org/W4402726956","https://openalex.org/W4402727140","https://openalex.org/W4402727178","https://openalex.org/W4402904155","https://openalex.org/W4404965439","https://openalex.org/W4404965447","https://openalex.org/W4413144436","https://openalex.org/W4413145441","https://openalex.org/W4415798523","https://openalex.org/W7103752023"],"related_works":[],"abstract_inverted_index":{"Diffusion":[0],"models":[1],"can":[2],"synthesize":[3],"realistic":[4],"co-speech":[5],"video":[6,14,45,60,74],"from":[7],"audio":[8],"for":[9,82],"various":[10],"applications,":[11],"such":[12,105],"as":[13,106],"creation":[15],"and":[16,30,62,85,111,121,131,149,159,175],"virtual":[17],"agents.":[18],"However,":[19],"existing":[20],"diffusion-based":[21],"methods":[22,58],"are":[23],"slow":[24],"due":[25],"to":[26,99,102,172],"numerous":[27],"denoising":[28],"steps":[29],"costly":[31],"attention":[32,84,101,117,158],"mechanisms,":[33],"preventing":[34],"real-time":[35,66,165],"deployment.":[36],"In":[37],"this":[38],"work,":[39],"we":[40,139],"distill":[41],"a":[42,48],"many-step":[43],"diffusion":[44,56],"model":[46],"into":[47],"few-step":[49],"student":[50],"model.":[51],"Unfortunately,":[52],"directly":[53],"applying":[54],"recent":[55,173],"distillation":[57,75,143,160],"degrades":[59],"quality":[61,170],"falls":[63],"short":[64],"of":[65,125,186],"performance.":[67],"To":[68,134],"address":[69],"these":[70],"issues,":[71],"our":[72,155,162,187],"new":[73],"method":[76,163],"leverages":[77],"input":[78,95],"human":[79,96],"pose":[80,97],"conditioning":[81],"both":[83],"loss":[86,144],"functions.":[87],"We":[88,178],"first":[89],"propose":[90],"using":[91],"accurate":[92],"correspondence":[93],"between":[94],"keypoints":[98],"guide":[100],"relevant":[103],"regions,":[104],"the":[107,184],"speaker\u2019s":[108],"face,":[109],"hands,":[110],"upper":[112],"body.":[113],"This":[114],"input-aware":[115,142,156],"sparse":[116,157],"reduces":[118],"redundant":[119],"computations":[120],"strengthens":[122],"temporal":[123],"correspondences":[124],"body":[126],"parts,":[127],"improving":[128],"inference":[129],"efficiency":[130],"motion":[132,151],"coherence.":[133],"further":[135],"enhance":[136],"visual":[137,169],"quality,":[138],"introduce":[140],"an":[141],"that":[145],"improves":[146],"lip":[147],"synchronization":[148],"hand":[150],"realism.":[152],"By":[153],"integrating":[154],"loss,":[161],"achieves":[164],"performance":[166],"with":[167],"improved":[168],"compared":[171],"audio-driven":[174],"input-driven":[176],"methods.":[177],"also":[179],"conduct":[180],"extensive":[181],"experiments":[182],"showing":[183],"effectiveness":[185],"algorithmic":[188],"design":[189],"choices.":[190]},"counts_by_year":[],"updated_date":"2026-07-29T14:22:42.915294","created_date":"2025-12-08T00:00:00"}