{"id":"https://openalex.org/W7161160147","doi":"https://doi.org/10.1109/dcc66757.2026.00102","title":"Compressed Video Stream Learning for Video-Text Retrieval","display_name":"Compressed Video Stream Learning for Video-Text Retrieval","publication_year":2026,"publication_date":"2026-03-24","ids":{"openalex":"https://openalex.org/W7161160147","doi":"https://doi.org/10.1109/dcc66757.2026.00102"},"language":null,"primary_location":{"id":"doi:10.1109/dcc66757.2026.00102","is_oa":false,"landing_page_url":"https://doi.org/10.1109/dcc66757.2026.00102","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2026 Data Compression Conference (DCC)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5062171476","display_name":"Qijun Wang","orcid":"https://orcid.org/0000-0003-0427-9697"},"institutions":[{"id":"https://openalex.org/I143868143","display_name":"Anhui University","ror":"https://ror.org/05th6yx34","country_code":"CN","type":"education","lineage":["https://openalex.org/I143868143"]}],"countries":["CN"],"is_corresponding":true,"raw_author_name":"Qijun Wang","raw_affiliation_strings":["School of Artificial Intelligence, Anhui University,Hefei,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"School of Artificial Intelligence, Anhui University,Hefei,China","institution_ids":["https://openalex.org/I143868143"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5080822599","display_name":"Shiyu Xie","orcid":null},"institutions":[{"id":"https://openalex.org/I143868143","display_name":"Anhui University","ror":"https://ror.org/05th6yx34","country_code":"CN","type":"education","lineage":["https://openalex.org/I143868143"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Shiyu Xie","raw_affiliation_strings":["School of Artificial Intelligence, Anhui University,Hefei,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"School of Artificial Intelligence, Anhui University,Hefei,China","institution_ids":["https://openalex.org/I143868143"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5103657771","display_name":"Liu X","orcid":null},"institutions":[{"id":"https://openalex.org/I143868143","display_name":"Anhui University","ror":"https://ror.org/05th6yx34","country_code":"CN","type":"education","lineage":["https://openalex.org/I143868143"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Xuguang Liu","raw_affiliation_strings":["School of Artificial Intelligence, Anhui University,Hefei,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"School of Artificial Intelligence, Anhui University,Hefei,China","institution_ids":["https://openalex.org/I143868143"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5062171476"],"corresponding_institution_ids":["https://openalex.org/I143868143"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.94657086,"is_in_top_1_percent":false,"is_in_top_10_percent":true},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"475","last_page":"475"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11439","display_name":"Video Analysis and Summarization","score":0.8044000267982483,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11439","display_name":"Video Analysis and Summarization","score":0.8044000267982483,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10627","display_name":"Advanced Image and Video Retrieval Techniques","score":0.029899999499320984,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.01810000091791153,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/data-compression","display_name":"Data compression","score":0.33880001306533813},{"id":"https://openalex.org/keywords/feature","display_name":"Feature (linguistics)","score":0.28529998660087585},{"id":"https://openalex.org/keywords/compression","display_name":"Compression (physics)","score":0.26669999957084656},{"id":"https://openalex.org/keywords/pattern-recognition","display_name":"Pattern recognition (psychology)","score":0.25099998712539673},{"id":"https://openalex.org/keywords/video-tracking","display_name":"Video tracking","score":0.24979999661445618}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6751999855041504},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5437999963760376},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.45820000767707825},{"id":"https://openalex.org/C78548338","wikidata":"https://www.wikidata.org/wiki/Q2493","display_name":"Data compression","level":2,"score":0.33880001306533813},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.28529998660087585},{"id":"https://openalex.org/C180016635","wikidata":"https://www.wikidata.org/wiki/Q2712821","display_name":"Compression (physics)","level":2,"score":0.26669999957084656},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.25099998712539673},{"id":"https://openalex.org/C202474056","wikidata":"https://www.wikidata.org/wiki/Q1931635","display_name":"Video tracking","level":3,"score":0.24979999661445618},{"id":"https://openalex.org/C9652623","wikidata":"https://www.wikidata.org/wiki/Q190109","display_name":"Field (mathematics)","level":2,"score":0.23980000615119934},{"id":"https://openalex.org/C9417928","wikidata":"https://www.wikidata.org/wiki/Q1070689","display_name":"Image processing","level":3,"score":0.23559999465942383}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/dcc66757.2026.00102","is_oa":false,"landing_page_url":"https://doi.org/10.1109/dcc66757.2026.00102","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2026 Data Compression Conference (DCC)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[{"id":"https://openalex.org/G7146883295","display_name":null,"funder_award_id":"62472001","funder_id":"https://openalex.org/F4320321001","funder_display_name":"National Natural Science Foundation of China"}],"funders":[{"id":"https://openalex.org/F4320321001","display_name":"National Natural Science Foundation of China","ror":"https://ror.org/01h0zpd94"}],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Video-Text":[0,48],"Retrieval":[1,49],"(VTR)":[2],"aims":[3],"to":[4,61,107,120],"align":[5],"video":[6,59,165],"content":[7],"with":[8,125],"natural":[9],"language":[10],"descriptions":[11],"and":[12,78,89,97,143,169],"is":[13,117],"a":[14,51,83,100],"fundamental":[15],"task":[16],"in":[17,39,173],"multi-modal":[18],"understanding.":[19],"Most":[20],"existing":[21,151],"methods":[22,154],"model":[23],"videos":[24],"as":[25],"uniformly":[26],"sampled":[27],"RGB":[28],"frames,":[29],"which":[30],"overlooks":[31],"rich":[32],"temporal":[33,131,171],"cues,":[34,128],"especially":[35],"motion":[36,87,127],"dynamics":[37],"encoded":[38],"videos.":[40,68],"We":[41],"propose":[42],"Compressed":[43],"Video":[44],"Stream":[45],"Learning":[46],"for":[47,111,130,167],"(CVSVTR),":[50],"framework":[52],"that":[53,147],"directly":[54],"exploits":[55],"information":[56,132],"from":[57,93],"compressed":[58,95,164],"streams":[60,166],"enhance":[62],"retrieval":[63,153],"performance":[64],"without":[65],"fully":[66],"decoding":[67],"Specifically,":[69],"CVSVTR":[70,148],"decodes":[71],"only":[72],"the":[73,94,141,160],"I-frames":[74],"of":[75,162],"each":[76],"GOP":[77],"extracts":[79],"appearance":[80,123],"features":[81,124],"using":[82],"CLIP-based":[84],"encoder.":[85],"Meanwhile,":[86],"vectors":[88],"residuals":[90],"are":[91],"parsed":[92],"bitstream":[96],"processed":[98],"by":[99,134],"lightweight":[101],"P-frame":[102],"Feature":[103],"Generation":[104],"(PFG)":[105],"module":[106],"construct":[108],"motion-aware":[109],"representations":[110],"P-frames.":[112],"A":[113],"spatial-channel":[114],"attention":[115],"mechanism":[116],"further":[118],"introduced":[119],"adaptively":[121],"fuse":[122],"compressed-domain":[126],"compensating":[129],"missed":[133],"uniform":[135],"frame":[136],"sampling.":[137],"Extensive":[138],"experiments":[139],"on":[140],"MSR-VTT":[142],"MSVD":[144],"benchmarks":[145],"demonstrate":[146],"consistently":[149],"outperforms":[150],"video-text":[152],"across":[155],"multiple":[156],"evaluation":[157],"metrics,":[158],"validating":[159],"effectiveness":[161],"leveraging":[163],"efficient":[168],"accurate":[170],"modeling":[172],"VTR.":[174]},"counts_by_year":[],"updated_date":"2026-05-16T06:04:12.930555","created_date":"2026-05-15T00:00:00"}