{"id":"https://openalex.org/W4417062154","doi":"https://doi.org/10.1109/3dv69130.2026.00139","title":"CamC2V: Context-aware Controllable Video Generation","display_name":"CamC2V: Context-aware Controllable Video Generation","publication_year":2026,"publication_date":"2026-03-20","ids":{"openalex":"https://openalex.org/W4417062154","doi":"https://doi.org/10.1109/3dv69130.2026.00139"},"language":"en","primary_location":{"id":"doi:10.1109/3dv69130.2026.00139","is_oa":false,"landing_page_url":"https://doi.org/10.1109/3dv69130.2026.00139","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2026 International Conference on 3D Vision (3DV)","raw_type":"proceedings-article"},"type":"article","indexed_in":["arxiv","crossref","datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://arxiv.org/pdf/2504.06022","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5120640841","display_name":"Luis Denninger","orcid":null},"institutions":[{"id":"https://openalex.org/I135140700","display_name":"University of Bonn","ror":"https://ror.org/041nas322","country_code":"DE","type":"education","lineage":["https://openalex.org/I135140700"]}],"countries":["DE"],"is_corresponding":false,"raw_author_name":"Luis Denninger","raw_affiliation_strings":["University of Bonn"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"University of Bonn","institution_ids":["https://openalex.org/I135140700"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5120715362","display_name":"Sina Mokhtarzadeh Azar","orcid":null},"institutions":[{"id":"https://openalex.org/I135140700","display_name":"University of Bonn","ror":"https://ror.org/041nas322","country_code":"DE","type":"education","lineage":["https://openalex.org/I135140700"]}],"countries":["DE"],"is_corresponding":false,"raw_author_name":"Sina Mokhtarzadeh Azar","raw_affiliation_strings":["University of Bonn"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"University of Bonn","institution_ids":["https://openalex.org/I135140700"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5012240246","display_name":"J\u00fcergen Gall","orcid":"https://orcid.org/0000-0002-9447-3399"},"institutions":[{"id":"https://openalex.org/I135140700","display_name":"University of Bonn","ror":"https://ror.org/041nas322","country_code":"DE","type":"education","lineage":["https://openalex.org/I135140700"]}],"countries":["DE"],"is_corresponding":false,"raw_author_name":"Juergen Gall","raw_affiliation_strings":["University of Bonn"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"University of Bonn","institution_ids":["https://openalex.org/I135140700"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.01222162,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1458","last_page":"1467"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10775","display_name":"Generative Adversarial Networks and Image Synthesis","score":0.8460000157356262,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10775","display_name":"Generative Adversarial Networks and Image Synthesis","score":0.8460000157356262,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11019","display_name":"Image Enhancement Techniques","score":0.03889999911189079,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10531","display_name":"Advanced Vision and Imaging","score":0.02280000038444996,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/context","display_name":"Context (archaeology)","score":0.6290000081062317},{"id":"https://openalex.org/keywords/semantics","display_name":"Semantics (computer science)","score":0.5659999847412109},{"id":"https://openalex.org/keywords/image","display_name":"Image (mathematics)","score":0.4221999943256378},{"id":"https://openalex.org/keywords/quality","display_name":"Quality (philosophy)","score":0.4138000011444092},{"id":"https://openalex.org/keywords/visualization","display_name":"Visualization","score":0.40310001373291016},{"id":"https://openalex.org/keywords/code","display_name":"Code (set theory)","score":0.38339999318122864},{"id":"https://openalex.org/keywords/context-model","display_name":"Context model","score":0.3822999894618988},{"id":"https://openalex.org/keywords/limiting","display_name":"Limiting","score":0.349700003862381}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7782999873161316},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.6392999887466431},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6380000114440918},{"id":"https://openalex.org/C2779343474","wikidata":"https://www.wikidata.org/wiki/Q3109175","display_name":"Context (archaeology)","level":2,"score":0.6290000081062317},{"id":"https://openalex.org/C184337299","wikidata":"https://www.wikidata.org/wiki/Q1437428","display_name":"Semantics (computer science)","level":2,"score":0.5659999847412109},{"id":"https://openalex.org/C115961682","wikidata":"https://www.wikidata.org/wiki/Q860623","display_name":"Image (mathematics)","level":2,"score":0.4221999943256378},{"id":"https://openalex.org/C2779530757","wikidata":"https://www.wikidata.org/wiki/Q1207505","display_name":"Quality (philosophy)","level":2,"score":0.4138000011444092},{"id":"https://openalex.org/C36464697","wikidata":"https://www.wikidata.org/wiki/Q451553","display_name":"Visualization","level":2,"score":0.40310001373291016},{"id":"https://openalex.org/C2776760102","wikidata":"https://www.wikidata.org/wiki/Q5139990","display_name":"Code (set theory)","level":3,"score":0.38339999318122864},{"id":"https://openalex.org/C183322885","wikidata":"https://www.wikidata.org/wiki/Q17007702","display_name":"Context model","level":3,"score":0.3822999894618988},{"id":"https://openalex.org/C188198153","wikidata":"https://www.wikidata.org/wiki/Q1613840","display_name":"Limiting","level":2,"score":0.349700003862381},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.3402000069618225},{"id":"https://openalex.org/C39890363","wikidata":"https://www.wikidata.org/wiki/Q36108","display_name":"Generative grammar","level":2,"score":0.3375000059604645},{"id":"https://openalex.org/C55020928","wikidata":"https://www.wikidata.org/wiki/Q3813865","display_name":"Image quality","level":3,"score":0.3257000148296356},{"id":"https://openalex.org/C41458344","wikidata":"https://www.wikidata.org/wiki/Q732577","display_name":"Publication","level":2,"score":0.3240000009536743},{"id":"https://openalex.org/C9417928","wikidata":"https://www.wikidata.org/wiki/Q1070689","display_name":"Image processing","level":3,"score":0.30090001225471497},{"id":"https://openalex.org/C167966045","wikidata":"https://www.wikidata.org/wiki/Q5532625","display_name":"Generative model","level":3,"score":0.28780001401901245},{"id":"https://openalex.org/C160086991","wikidata":"https://www.wikidata.org/wiki/Q5939193","display_name":"Human visual system model","level":3,"score":0.28529998660087585},{"id":"https://openalex.org/C77618280","wikidata":"https://www.wikidata.org/wiki/Q1155772","display_name":"Scheme (mathematics)","level":2,"score":0.2849000096321106},{"id":"https://openalex.org/C121684516","wikidata":"https://www.wikidata.org/wiki/Q7600677","display_name":"Computer graphics (images)","level":1,"score":0.28349998593330383},{"id":"https://openalex.org/C202474056","wikidata":"https://www.wikidata.org/wiki/Q1931635","display_name":"Video tracking","level":3,"score":0.27790001034736633},{"id":"https://openalex.org/C119657128","wikidata":"https://www.wikidata.org/wiki/Q11633","display_name":"Photography","level":2,"score":0.2628999948501587},{"id":"https://openalex.org/C105842133","wikidata":"https://www.wikidata.org/wiki/Q1899679","display_name":"Visual communication","level":2,"score":0.2605000138282776}],"mesh":[],"locations_count":3,"locations":[{"id":"doi:10.1109/3dv69130.2026.00139","is_oa":false,"landing_page_url":"https://doi.org/10.1109/3dv69130.2026.00139","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2026 International Conference on 3D Vision (3DV)","raw_type":"proceedings-article"},{"id":"pmh:oai:arXiv.org:2504.06022","is_oa":true,"landing_page_url":"https://arxiv.org/abs/2504.06022","pdf_url":"https://arxiv.org/pdf/2504.06022","source":{"id":"https://openalex.org/S4393918464","display_name":"ArXiv.org","issn_l":"2331-8422","issn":["2331-8422"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},{"id":"doi:10.48550/arxiv.2504.06022","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2504.06022","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:oai:arXiv.org:2504.06022","is_oa":true,"landing_page_url":"https://arxiv.org/abs/2504.06022","pdf_url":"https://arxiv.org/pdf/2504.06022","source":{"id":"https://openalex.org/S4393918464","display_name":"ArXiv.org","issn_l":"2331-8422","issn":["2331-8422"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":true,"grobid_xml":false},"content_urls":{"pdf":"https://content.openalex.org/works/W4417062154.pdf"},"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Recently,":[0],"image-to-video":[1],"(I2V)":[2],"diffusion":[3],"models":[4,21],"have":[5],"demonstrated":[6],"impressive":[7],"scene":[8,54],"understanding":[9],"and":[10,85,93,126],"generative":[11],"quality,":[12,46],"incorporating":[13],"image":[14,70],"conditions":[15,71],"to":[16,80],"guide":[17],"generation.":[18,96],"However,":[19],"these":[20],"primarily":[22],"animate":[23],"static":[24],"images":[25],"without":[26],"extending":[27],"beyond":[28],"their":[29,48],"provided":[30],"context.":[31],"Introducing":[32],"additional":[33],"constraints,":[34],"such":[35],"as":[36,72],"camera":[37,78,127],"trajectories,":[38],"can":[39],"enhance":[40],"diversity":[41],"but":[42],"often":[43],"degrade":[44],"visual":[45,87,124],"limiting":[47],"applicability":[49],"for":[50,105],"tasks":[51],"requiring":[52],"faithful":[53],"representation.":[55,109],"We":[56],"propose":[57],"CamC2V,":[58],"a":[59,118],"context-to-video":[60],"<tex":[61],"xmlns:mml=\"http://www.w3.org/1998/Math/MathML\"":[62],"xmlns:xlink=\"http://www.w3.org/1999/xlink\">$(C":[63],"2":[64],"V)$</tex>":[65],"model":[66],"that":[67],"integrates":[68],"multiple":[69],"context":[73,108],"with":[74],"3D":[75],"constraints":[76],"alongside":[77],"control":[79],"enrich":[81],"both":[82],"global":[83],"semantics":[84],"fine-grained":[86],"details.":[88],"This":[89],"enables":[90],"more":[91],"coherent":[92],"context-aware":[94],"video":[95],"Moreover,":[97],"we":[98],"motivate":[99],"the":[100,114],"necessity":[101],"of":[102],"temporal":[103],"awareness":[104],"an":[106],"effective":[107],"Our":[110,129],"comprehensive":[111],"study":[112],"on":[113],"RealEstate10K":[115],"dataset":[116],"demonstrates":[117],"24.09":[119],"%":[120],"(FVD)":[121],"improvement":[122],"in":[123],"quality":[125],"controllability.":[128],"code":[130],"is":[131],"publicly":[132],"available":[133],"at:":[134],"https://github.com/LDenninger/CamC2V.":[135]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-10-10T00:00:00"}