{"id":"https://openalex.org/W7131658768","doi":"https://doi.org/10.48550/arxiv.2602.22091","title":"Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos","display_name":"Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos","publication_year":2026,"publication_date":"2026-02-25","ids":{"openalex":"https://openalex.org/W7131658768","doi":"https://doi.org/10.48550/arxiv.2602.22091"},"language":null,"primary_location":{"id":"pmh:doi:10.48550/arxiv.2602.22091","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"publisher-specific-oa","license_id":"https://openalex.org/licenses/publisher-specific-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":null,"any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5112870703","display_name":"Matthew Strong","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Strong, Matthew","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5126946032","display_name":"Wei-Jer Chang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Chang, Wei-Jer","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5036038869","display_name":"Quentin Herau","orcid":"https://orcid.org/0009-0001-4875-9492"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Herau, Quentin","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5109609304","display_name":"Jiezhi Yang","orcid":"https://orcid.org/0000-0002-0135-2628"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yang, Jiezhi","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5126877502","display_name":"Yihan Hu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Hu, Yihan","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5049686906","display_name":"Chensheng Peng","orcid":"https://orcid.org/0000-0001-9213-5970"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Peng, Chensheng","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5126893446","display_name":"Wei Zhan","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhan, Wei","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":7,"corresponding_author_ids":["https://openalex.org/A5112870703"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10531","display_name":"Advanced Vision and Imaging","score":0.3098999857902527,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10531","display_name":"Advanced Vision and Imaging","score":0.3098999857902527,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11099","display_name":"Autonomous Vehicle Technology and Safety","score":0.20509999990463257,"subfield":{"id":"https://openalex.org/subfields/2203","display_name":"Automotive Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10775","display_name":"Generative Adversarial Networks and Image Synthesis","score":0.11739999800920486,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/leverage","display_name":"Leverage (statistics)","score":0.6140999794006348},{"id":"https://openalex.org/keywords/encoder","display_name":"Encoder","score":0.4763999879360199},{"id":"https://openalex.org/keywords/focus","display_name":"Focus (optics)","score":0.4433000087738037},{"id":"https://openalex.org/keywords/visualization","display_name":"Visualization","score":0.4368000030517578},{"id":"https://openalex.org/keywords/monocular","display_name":"Monocular","score":0.38929998874664307},{"id":"https://openalex.org/keywords/feed-forward","display_name":"Feed forward","score":0.3813999891281128},{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.3806999921798706},{"id":"https://openalex.org/keywords/motion","display_name":"Motion (physics)","score":0.3797999918460846},{"id":"https://openalex.org/keywords/deep-learning","display_name":"Deep learning","score":0.3772999942302704},{"id":"https://openalex.org/keywords/autoregressive-model","display_name":"Autoregressive model","score":0.3686999976634979}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6621999740600586},{"id":"https://openalex.org/C153083717","wikidata":"https://www.wikidata.org/wiki/Q6535263","display_name":"Leverage (statistics)","level":2,"score":0.6140999794006348},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5799000263214111},{"id":"https://openalex.org/C118505674","wikidata":"https://www.wikidata.org/wiki/Q42586063","display_name":"Encoder","level":2,"score":0.4763999879360199},{"id":"https://openalex.org/C192209626","wikidata":"https://www.wikidata.org/wiki/Q190909","display_name":"Focus (optics)","level":2,"score":0.4433000087738037},{"id":"https://openalex.org/C36464697","wikidata":"https://www.wikidata.org/wiki/Q451553","display_name":"Visualization","level":2,"score":0.4368000030517578},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.3910999894142151},{"id":"https://openalex.org/C65909025","wikidata":"https://www.wikidata.org/wiki/Q1945033","display_name":"Monocular","level":2,"score":0.38929998874664307},{"id":"https://openalex.org/C38858127","wikidata":"https://www.wikidata.org/wiki/Q5441228","display_name":"Feed forward","level":2,"score":0.3813999891281128},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.3806999921798706},{"id":"https://openalex.org/C104114177","wikidata":"https://www.wikidata.org/wiki/Q79782","display_name":"Motion (physics)","level":2,"score":0.3797999918460846},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.3772999942302704},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3720000088214874},{"id":"https://openalex.org/C159877910","wikidata":"https://www.wikidata.org/wiki/Q2202883","display_name":"Autoregressive model","level":2,"score":0.3686999976634979},{"id":"https://openalex.org/C59404180","wikidata":"https://www.wikidata.org/wiki/Q17013334","display_name":"Feature learning","level":2,"score":0.365200012922287},{"id":"https://openalex.org/C2777508537","wikidata":"https://www.wikidata.org/wiki/Q7936620","display_name":"Visual reasoning","level":2,"score":0.35740000009536743},{"id":"https://openalex.org/C48044578","wikidata":"https://www.wikidata.org/wiki/Q727490","display_name":"Scalability","level":2,"score":0.3560999929904938},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.35519999265670776},{"id":"https://openalex.org/C2776035091","wikidata":"https://www.wikidata.org/wiki/Q7928819","display_name":"Viewpoints","level":2,"score":0.35510000586509705},{"id":"https://openalex.org/C131979681","wikidata":"https://www.wikidata.org/wiki/Q1899648","display_name":"Point cloud","level":2,"score":0.30640000104904175},{"id":"https://openalex.org/C28719098","wikidata":"https://www.wikidata.org/wiki/Q44946","display_name":"Point (geometry)","level":2,"score":0.29280000925064087},{"id":"https://openalex.org/C111151474","wikidata":"https://www.wikidata.org/wiki/Q1653368","display_name":"iCub","level":4,"score":0.28859999775886536},{"id":"https://openalex.org/C48007421","wikidata":"https://www.wikidata.org/wiki/Q676252","display_name":"Motion capture","level":3,"score":0.2867000102996826},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.2815999984741211},{"id":"https://openalex.org/C67186912","wikidata":"https://www.wikidata.org/wiki/Q367664","display_name":"Data modeling","level":2,"score":0.2700999975204468},{"id":"https://openalex.org/C101738243","wikidata":"https://www.wikidata.org/wiki/Q786435","display_name":"Autoencoder","level":3,"score":0.267300009727478},{"id":"https://openalex.org/C136389625","wikidata":"https://www.wikidata.org/wiki/Q334384","display_name":"Supervised learning","level":3,"score":0.26460000872612},{"id":"https://openalex.org/C184337299","wikidata":"https://www.wikidata.org/wiki/Q1437428","display_name":"Semantics (computer science)","level":2,"score":0.26269999146461487},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.257999986410141},{"id":"https://openalex.org/C52622490","wikidata":"https://www.wikidata.org/wiki/Q1026626","display_name":"Feature extraction","level":2,"score":0.2556999921798706},{"id":"https://openalex.org/C13662910","wikidata":"https://www.wikidata.org/wiki/Q193139","display_name":"Trajectory","level":2,"score":0.25290000438690186},{"id":"https://openalex.org/C165696696","wikidata":"https://www.wikidata.org/wiki/Q11287","display_name":"Exploit","level":2,"score":0.2506999969482422}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:doi:10.48550/arxiv.2602.22091","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"publisher-specific-oa","license_id":"https://openalex.org/licenses/publisher-specific-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},{"id":"doi:10.48550/arxiv.2602.22091","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2602.22091","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:doi:10.48550/arxiv.2602.22091","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"publisher-specific-oa","license_id":"https://openalex.org/licenses/publisher-specific-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"sustainable_development_goals":[{"score":0.557774543762207,"id":"https://metadata.un.org/sdg/4","display_name":"Quality Education"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Ego-centric":[0],"driving":[1,61,73,95,171],"videos":[2,155],"available":[3],"online":[4],"provide":[5,141],"an":[6],"abundant":[7],"source":[8],"of":[9,18,198],"visual":[10],"data":[11],"for":[12,59,70,219],"autonomous":[13,72,170,220],"driving,":[14],"yet":[15],"their":[16],"lack":[17],"annotations":[19],"makes":[20],"it":[21],"difficult":[22],"to":[23,124,146,168],"learn":[24,147],"representations":[25,74],"that":[26,42,83,91,120],"capture":[27],"both":[28],"semantic":[29,134],"structure":[30],"and":[31,45,93,128,136,179,201,208],"3D":[32],"geometry.":[33],"Recent":[34],"advances":[35],"in":[36,50],"large":[37],"feedforward":[38,107],"spatial":[39],"models":[40],"demonstrate":[41],"point":[43,130],"maps":[44],"ego-motion":[46],"can":[47],"be":[48],"inferred":[49],"a":[51,56,66,106,111,148,184,196,214],"single":[52,185],"forward":[53],"pass,":[54],"suggesting":[55],"promising":[57],"direction":[58],"scalable":[60],"perception.":[62],"We":[63],"therefore":[64],"propose":[65],"label-free,":[67],"teacher-guided":[68],"framework":[69],"learning":[71],"directly":[75],"from":[76,152],"unposed":[77],"videos.":[78],"Unlike":[79],"prior":[80],"self-supervised":[81],"approaches":[82],"focus":[84],"primarily":[85],"on":[86,98,173,195],"frame-to-frame":[87],"consistency,":[88],"we":[89,104],"posit":[90],"safe":[92],"reactive":[94],"depends":[96],"critically":[97],"temporal":[99],"context.":[100],"To":[101],"this":[102],"end,":[103],"leverage":[105],"architecture":[108],"equipped":[109],"with":[110,182],"lightweight":[112],"autoregressive":[113],"module,":[114],"trained":[115],"using":[116],"multi-modal":[117],"supervisory":[118],"signals":[119],"guide":[121],"the":[122,174],"model":[123,218],"jointly":[125],"predict":[126],"current":[127],"future":[129],"maps,":[131],"camera":[132],"poses,":[133,157],"segmentation,":[135],"motion":[137,203],"masks.":[138],"Multi-modal":[139],"teachers":[140],"sequence-level":[142],"pseudo-supervision,":[143],"enabling":[144],"LFG":[145,212],"unified":[149],"pseudo-4D":[150],"representation":[151],"raw":[153],"YouTube":[154],"without":[156],"labels,":[158],"or":[159],"LiDAR.":[160],"The":[161],"resulting":[162],"encoder":[163],"not":[164],"only":[165,183],"transfers":[166],"effectively":[167],"downstream":[169],"planning":[172],"NAVSIM":[175],"benchmark,":[176],"surpassing":[177],"multi-camera":[178],"LiDAR":[180],"baselines":[181],"monocular":[186],"camera,":[187],"but":[188],"also":[189],"yields":[190],"strong":[191],"performance":[192],"when":[193],"evaluated":[194],"range":[197],"semantic,":[199],"geometric,":[200],"qualitative":[202],"prediction":[204],"tasks.":[205],"These":[206],"geometry":[207],"motion-aware":[209],"features":[210],"position":[211],"as":[213],"compelling":[215],"video-centric":[216],"foundation":[217],"driving.":[221]},"counts_by_year":[],"updated_date":"2026-04-04T16:13:02.066488","created_date":"2026-02-27T00:00:00"}