{"id":"https://openalex.org/W7160877076","doi":"https://doi.org/10.48550/arxiv.2605.07503","title":"Diffusion-APO: Trajectory-Aware Direct Preference Alignment for Video Diffusion Transformers","display_name":"Diffusion-APO: Trajectory-Aware Direct Preference Alignment for Video Diffusion Transformers","publication_year":2026,"publication_date":"2026-05-08","ids":{"openalex":"https://openalex.org/W7160877076","doi":"https://doi.org/10.48550/arxiv.2605.07503"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2605.07503","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.07503","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2605.07503","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5135905665","display_name":"Jingyuan Zhu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhu, Jingyuan","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5059047717","display_name":"Biaolong Chen","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Chen, Biaolong","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135857638","display_name":"Le Zhang","orcid":"https://orcid.org/0009-0001-5064-5363"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhang, Le","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135874218","display_name":"Aixi Zhang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhang, Aixi","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135858168","display_name":"Hao Jiang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Jiang, Hao","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5059615376","display_name":"Pipei Huang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Huang, Pipei","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":6,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10775","display_name":"Generative Adversarial Networks and Image Synthesis","score":0.40540000796318054,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10775","display_name":"Generative Adversarial Networks and Image Synthesis","score":0.40540000796318054,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10812","display_name":"Human Pose and Action Recognition","score":0.06780000030994415,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.04989999905228615,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/fidelity","display_name":"Fidelity","score":0.588100016117096},{"id":"https://openalex.org/keywords/inference","display_name":"Inference","score":0.5766000151634216},{"id":"https://openalex.org/keywords/scalability","display_name":"Scalability","score":0.5408999919891357},{"id":"https://openalex.org/keywords/modular-design","display_name":"Modular design","score":0.498199999332428},{"id":"https://openalex.org/keywords/synchronizing","display_name":"Synchronizing","score":0.48660001158714294},{"id":"https://openalex.org/keywords/noise","display_name":"Noise (video)","score":0.38339999318122864},{"id":"https://openalex.org/keywords/noise-reduction","display_name":"Noise reduction","score":0.3806000053882599},{"id":"https://openalex.org/keywords/high-fidelity","display_name":"High fidelity","score":0.3547999858856201},{"id":"https://openalex.org/keywords/visualization","display_name":"Visualization","score":0.34529998898506165}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7648000121116638},{"id":"https://openalex.org/C2776459999","wikidata":"https://www.wikidata.org/wiki/Q2119376","display_name":"Fidelity","level":2,"score":0.588100016117096},{"id":"https://openalex.org/C2776214188","wikidata":"https://www.wikidata.org/wiki/Q408386","display_name":"Inference","level":2,"score":0.5766000151634216},{"id":"https://openalex.org/C48044578","wikidata":"https://www.wikidata.org/wiki/Q727490","display_name":"Scalability","level":2,"score":0.5408999919891357},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5005000233650208},{"id":"https://openalex.org/C101468663","wikidata":"https://www.wikidata.org/wiki/Q1620158","display_name":"Modular design","level":2,"score":0.498199999332428},{"id":"https://openalex.org/C162932704","wikidata":"https://www.wikidata.org/wiki/Q1058791","display_name":"Synchronizing","level":3,"score":0.48660001158714294},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.448199987411499},{"id":"https://openalex.org/C99498987","wikidata":"https://www.wikidata.org/wiki/Q2210247","display_name":"Noise (video)","level":3,"score":0.38339999318122864},{"id":"https://openalex.org/C163294075","wikidata":"https://www.wikidata.org/wiki/Q581861","display_name":"Noise reduction","level":2,"score":0.3806000053882599},{"id":"https://openalex.org/C113364801","wikidata":"https://www.wikidata.org/wiki/Q26674","display_name":"High fidelity","level":2,"score":0.3547999858856201},{"id":"https://openalex.org/C36464697","wikidata":"https://www.wikidata.org/wiki/Q451553","display_name":"Visualization","level":2,"score":0.34529998898506165},{"id":"https://openalex.org/C23224414","wikidata":"https://www.wikidata.org/wiki/Q176769","display_name":"Hidden Markov model","level":2,"score":0.3361000120639801},{"id":"https://openalex.org/C2781249084","wikidata":"https://www.wikidata.org/wiki/Q908656","display_name":"Preference","level":2,"score":0.335999995470047},{"id":"https://openalex.org/C137836250","wikidata":"https://www.wikidata.org/wiki/Q984063","display_name":"Optimization problem","level":2,"score":0.32820001244544983},{"id":"https://openalex.org/C125411270","wikidata":"https://www.wikidata.org/wiki/Q18653","display_name":"Encoding (memory)","level":2,"score":0.3260999917984009},{"id":"https://openalex.org/C153258448","wikidata":"https://www.wikidata.org/wiki/Q1199743","display_name":"Gradient descent","level":3,"score":0.31130000948905945},{"id":"https://openalex.org/C66322947","wikidata":"https://www.wikidata.org/wiki/Q11658","display_name":"Transformer","level":3,"score":0.30640000104904175},{"id":"https://openalex.org/C124101348","wikidata":"https://www.wikidata.org/wiki/Q172491","display_name":"Data mining","level":1,"score":0.29789999127388},{"id":"https://openalex.org/C2779530757","wikidata":"https://www.wikidata.org/wiki/Q1207505","display_name":"Quality (philosophy)","level":2,"score":0.28780001401901245},{"id":"https://openalex.org/C155846161","wikidata":"https://www.wikidata.org/wiki/Q1143367","display_name":"Graphical model","level":2,"score":0.2831000089645386},{"id":"https://openalex.org/C117251300","wikidata":"https://www.wikidata.org/wiki/Q1849855","display_name":"Parametric statistics","level":2,"score":0.2802000045776367},{"id":"https://openalex.org/C167966045","wikidata":"https://www.wikidata.org/wiki/Q5532625","display_name":"Generative model","level":3,"score":0.26989999413490295},{"id":"https://openalex.org/C113775141","wikidata":"https://www.wikidata.org/wiki/Q428691","display_name":"Computer engineering","level":1,"score":0.2648000121116638},{"id":"https://openalex.org/C179518139","wikidata":"https://www.wikidata.org/wiki/Q5140297","display_name":"Coding (social sciences)","level":2,"score":0.26100000739097595},{"id":"https://openalex.org/C97931131","wikidata":"https://www.wikidata.org/wiki/Q5282087","display_name":"Discriminative model","level":2,"score":0.26089999079704285},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.2605000138282776},{"id":"https://openalex.org/C29265498","wikidata":"https://www.wikidata.org/wiki/Q7047719","display_name":"Noise measurement","level":3,"score":0.2581999897956848},{"id":"https://openalex.org/C43711488","wikidata":"https://www.wikidata.org/wiki/Q7534783","display_name":"Skew","level":2,"score":0.25440001487731934}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2605.07503","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.07503","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2605.07503","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.07503","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"score":0.5348870158195496,"id":"https://metadata.un.org/sdg/9","display_name":"Industry, innovation and infrastructure"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Efficiently":[0],"aligning":[1],"large-scale":[2],"video":[3,172],"diffusion":[4,173],"models":[5,58],"with":[6,83],"human":[7],"intent":[8],"requires":[9],"a":[10,72,98,103,166],"scalable":[11,171],"and":[12,24,37,105,117,131,154],"trajectory-aware":[13,73],"pathway":[14,169],"that":[15,75,109,145],"bridges":[16],"the":[17],"inherent":[18],"discrepancy":[19],"between":[20],"training":[21,81],"noise":[22,82],"distributions":[23],"practical":[25,99],"inference":[26],"trajectories.":[27],"While":[28],"existing":[29],"paradigms":[30],"such":[31],"as":[32],"Direct":[33],"Preference":[34,70],"Optimization":[35,41],"(DPO)":[36],"Group":[38],"Relative":[39],"Policy":[40],"(GRPO)":[42],"attempt":[43],"to":[44,87],"address":[45],"this,":[46],"they":[47],"are":[48],"often":[49],"hindered":[50],"by":[51,79],"either":[52],"reliance":[53],"on":[54,136],"bias-prone,":[55],"complex":[56],"reward":[57],"or":[59],"suboptimal":[60],"timestep":[61],"sampling.":[62],"In":[63],"this":[64,77,94],"paper,":[65],"we":[66,101,143],"propose":[67],"Diffusion-APO":[68,146],"(Aligned":[69],"Optimization),":[71],"algorithm":[74],"resolves":[76],"misalignment":[78],"synchronizing":[80],"inference-time":[84],"denoising":[85],"paths":[86],"maximize":[88],"gradient":[89],"signal":[90],"efficacy.":[91],"To":[92],"translate":[93],"algorithmic":[95],"innovation":[96],"into":[97],"solution,":[100],"introduce":[102],"unified":[104],"modular":[106],"RLHF":[107],"framework":[108,122],"integrates":[110],"online":[111],"ranking,":[112],"half-online":[113],"anchoring,":[114],"offline":[115],"refinement,":[116],"distillation-aware":[118],"drift":[119],"correction.":[120],"This":[121],"enables":[123],"flexible,":[124],"multi-stage":[125],"preference":[126],"alignment":[127],"across":[128],"diverse":[129],"data":[130],"computational":[132],"constraints":[133],"without":[134],"relying":[135],"scalar-reward-based":[137],"policy":[138],"gradients.":[139],"Through":[140],"extensive":[141],"experiments,":[142],"demonstrate":[144],"consistently":[147],"outperforms":[148],"standard":[149],"baselines":[150],"in":[151],"visual":[152],"quality":[153],"instruction":[155],"following,":[156],"while":[157],"effectively":[158],"preserving":[159],"generative":[160],"fidelity":[161],"during":[162],"model":[163],"acceleration,":[164],"providing":[165],"robust,":[167],"end-to-end":[168],"for":[170],"alignment.":[174]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-05-12T00:00:00"}