{"id":"https://openalex.org/W7161191322","doi":"https://doi.org/10.1109/dcc66757.2026.00038","title":"Prompt-Optimization with Contextual Mining for Cross-Modal Image Compression","display_name":"Prompt-Optimization with Contextual Mining for Cross-Modal Image Compression","publication_year":2026,"publication_date":"2026-03-24","ids":{"openalex":"https://openalex.org/W7161191322","doi":"https://doi.org/10.1109/dcc66757.2026.00038"},"language":null,"primary_location":{"id":"doi:10.1109/dcc66757.2026.00038","is_oa":false,"landing_page_url":"https://doi.org/10.1109/dcc66757.2026.00038","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2026 Data Compression Conference (DCC)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5081695558","display_name":"Shenpeng Song","orcid":"https://orcid.org/0000-0002-0366-6399"},"institutions":[{"id":"https://openalex.org/I20231570","display_name":"Peking University","ror":"https://ror.org/02v51f717","country_code":"CN","type":"education","lineage":["https://openalex.org/I20231570"]}],"countries":["CN"],"is_corresponding":true,"raw_author_name":"Shenpeng Song","raw_affiliation_strings":["School of Computer Science, Peking University,National Engineering Research Center of Visual Technology,Beijing,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"School of Computer Science, Peking University,National Engineering Research Center of Visual Technology,Beijing,China","institution_ids":["https://openalex.org/I20231570"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5136169085","display_name":"Zhimeng Huang","orcid":null},"institutions":[{"id":"https://openalex.org/I20231570","display_name":"Peking University","ror":"https://ror.org/02v51f717","country_code":"CN","type":"education","lineage":["https://openalex.org/I20231570"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Zhimeng Huang","raw_affiliation_strings":["School of Computer Science, Peking University,National Engineering Research Center of Visual Technology,Beijing,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"School of Computer Science, Peking University,National Engineering Research Center of Visual Technology,Beijing,China","institution_ids":["https://openalex.org/I20231570"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5016259963","display_name":"Junlong Gao","orcid":"https://orcid.org/0000-0002-8734-1021"},"institutions":[{"id":"https://openalex.org/I191208505","display_name":"Xiamen University","ror":"https://ror.org/00mcjh785","country_code":"CN","type":"education","lineage":["https://openalex.org/I191208505"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Junlong Gao","raw_affiliation_strings":["School of Informatics, Xiamen University,Fujian Key Laboratory of Sensing and Computing for Smart City,Xiamen,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"School of Informatics, Xiamen University,Fujian Key Laboratory of Sensing and Computing for Smart City,Xiamen,China","institution_ids":["https://openalex.org/I191208505"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5040292663","display_name":"Chuanmin Jia","orcid":"https://orcid.org/0000-0002-7418-6245"},"institutions":[{"id":"https://openalex.org/I20231570","display_name":"Peking University","ror":"https://ror.org/02v51f717","country_code":"CN","type":"education","lineage":["https://openalex.org/I20231570"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Chuanmin Jia","raw_affiliation_strings":["Wangxuan Institute of Computer Technology, Peking University,Beijing,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Wangxuan Institute of Computer Technology, Peking University,Beijing,China","institution_ids":["https://openalex.org/I20231570"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5136178013","display_name":"Siwei Ma","orcid":null},"institutions":[{"id":"https://openalex.org/I20231570","display_name":"Peking University","ror":"https://ror.org/02v51f717","country_code":"CN","type":"education","lineage":["https://openalex.org/I20231570"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Siwei Ma","raw_affiliation_strings":["School of Computer Science, Peking University,National Engineering Research Center of Visual Technology,Beijing,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"School of Computer Science, Peking University,National Engineering Research Center of Visual Technology,Beijing,China","institution_ids":["https://openalex.org/I20231570"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":5,"corresponding_author_ids":["https://openalex.org/A5081695558"],"corresponding_institution_ids":["https://openalex.org/I20231570"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.94982158,"is_in_top_1_percent":false,"is_in_top_10_percent":true},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"302","last_page":"311"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10901","display_name":"Advanced Data Compression Techniques","score":0.4814999997615814,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10901","display_name":"Advanced Data Compression Techniques","score":0.4814999997615814,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10057","display_name":"Face and Expression Recognition","score":0.046300001442432404,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10824","display_name":"Image Retrieval and Classification Techniques","score":0.04410000145435333,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/compression","display_name":"Compression (physics)","score":0.4490000009536743},{"id":"https://openalex.org/keywords/image-compression","display_name":"Image compression","score":0.39660000801086426},{"id":"https://openalex.org/keywords/image","display_name":"Image (mathematics)","score":0.391400009393692},{"id":"https://openalex.org/keywords/data-compression","display_name":"Data compression","score":0.3869999945163727},{"id":"https://openalex.org/keywords/pattern-recognition","display_name":"Pattern recognition (psychology)","score":0.3418000042438507},{"id":"https://openalex.org/keywords/context","display_name":"Context (archaeology)","score":0.33719998598098755}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6039999723434448},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5997999906539917},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.5343000292778015},{"id":"https://openalex.org/C180016635","wikidata":"https://www.wikidata.org/wiki/Q2712821","display_name":"Compression (physics)","level":2,"score":0.4490000009536743},{"id":"https://openalex.org/C13481523","wikidata":"https://www.wikidata.org/wiki/Q412438","display_name":"Image compression","level":4,"score":0.39660000801086426},{"id":"https://openalex.org/C115961682","wikidata":"https://www.wikidata.org/wiki/Q860623","display_name":"Image (mathematics)","level":2,"score":0.391400009393692},{"id":"https://openalex.org/C78548338","wikidata":"https://www.wikidata.org/wiki/Q2493","display_name":"Data compression","level":2,"score":0.3869999945163727},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.3418000042438507},{"id":"https://openalex.org/C2779343474","wikidata":"https://www.wikidata.org/wiki/Q3109175","display_name":"Context (archaeology)","level":2,"score":0.33719998598098755},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.3239000141620636},{"id":"https://openalex.org/C9417928","wikidata":"https://www.wikidata.org/wiki/Q1070689","display_name":"Image processing","level":3,"score":0.3034999966621399},{"id":"https://openalex.org/C124504099","wikidata":"https://www.wikidata.org/wiki/Q56933","display_name":"Image segmentation","level":3,"score":0.30000001192092896},{"id":"https://openalex.org/C99498987","wikidata":"https://www.wikidata.org/wiki/Q2210247","display_name":"Noise (video)","level":3,"score":0.29980000853538513},{"id":"https://openalex.org/C124101348","wikidata":"https://www.wikidata.org/wiki/Q172491","display_name":"Data mining","level":1,"score":0.2745000123977661},{"id":"https://openalex.org/C52622490","wikidata":"https://www.wikidata.org/wiki/Q1026626","display_name":"Feature extraction","level":2,"score":0.25609999895095825},{"id":"https://openalex.org/C36464697","wikidata":"https://www.wikidata.org/wiki/Q451553","display_name":"Visualization","level":2,"score":0.25110000371932983}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/dcc66757.2026.00038","is_oa":false,"landing_page_url":"https://doi.org/10.1109/dcc66757.2026.00038","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2026 Data Compression Conference (DCC)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[{"id":"https://openalex.org/G2624201814","display_name":null,"funder_award_id":"62025101,U25B2010","funder_id":"https://openalex.org/F4320321001","funder_display_name":"National Natural Science Foundation of China"}],"funders":[{"id":"https://openalex.org/F4320321001","display_name":"National Natural Science Foundation of China","ror":"https://ror.org/01h0zpd94"},{"id":"https://openalex.org/F4320334978","display_name":"Beijing Nova Program","ror":"https://ror.org/034k14f91"}],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Recent":[0],"advances":[1],"in":[2,47,56],"cross-modal":[3,72],"compression(CMC)":[4],"have":[5],"opened":[6],"new":[7],"horizons":[8],"for":[9,52],"perceptual":[10,140],"image":[11,57,73,97],"coding":[12],"at":[13,160],"ultra-low":[14],"bitrates":[15],"(below":[16],"0.1":[17],"bpp)":[18],"within":[19],"a":[20,69,101,105,119],"generative":[21,48],"compression":[22,58,74],"paradigm,":[23],"but":[24],"reconstruction":[25,145],"fidelity":[26],"is":[27],"often":[28],"compromised,":[29],"yielding":[30,147],"visually":[31],"plausible":[32],"yet":[33],"semantically":[34],"inconsistent":[35],"reconstructions.":[36],"While":[37],"prompt":[38,79,107],"engineering":[39],"with":[40],"contextual":[41,78,106],"optimization":[42,80],"has":[43],"been":[44],"extensively":[45],"explored":[46],"models,":[49],"its":[50],"potential":[51],"controlling":[53],"perception-fidelity":[54],"trade-offs":[55],"remains":[59],"largely":[60],"under-explored.":[61],"To":[62],"address":[63],"these":[64],"challenges,":[65],"we":[66],"propose":[67],"PO-CMC,":[68],"novel":[70],"diffusion-based":[71,120],"approach":[75],"that":[76,99,109,122,136],"introduces":[77],"to":[81,129],"achieve":[82],"efficient":[83],"and":[84,118,126,155,163],"perceptually":[85],"faithful":[86],"reconstruction.":[87],"The":[88],"proposed":[89],"method":[90],"comprises":[91],"three":[92],"synergistic":[93],"components:":[94],"an":[95,148],"optimized":[96],"codec":[98],"produces":[100],"compact":[102,115],"structural":[103,125],"prior,":[104],"module":[108],"adaptively":[110],"encodes":[111],"semantic":[112,127],"cues":[113],"into":[114],"textual":[116],"embeddings,":[117],"decoder":[121],"fuses":[123],"the":[124],"priors":[128],"reconstruct":[130],"high-fidelity":[131],"images.":[132],"Extensive":[133],"experiments":[134],"show":[135],"PO-CMC":[137],"achieves":[138],"superior":[139],"quality":[141],"while":[142],"maintaining":[143],"comparable":[144],"fidelity,":[146],"average":[149],"BD-rate":[150],"saving":[151],"of":[152],"72.5":[153],"%":[154,157],"79.8":[156],"over":[158],"VVC":[159],"equivalent":[161],"LPIPS":[162],"DISTS":[164],"levels,":[165],"respectively.":[166]},"counts_by_year":[],"updated_date":"2026-05-16T06:04:12.930555","created_date":"2026-05-15T00:00:00"}