{"id":"https://openalex.org/W6948486230","doi":"https://doi.org/10.48550/arxiv.2503.17907","title":"Guided Diffusion for the Extension of Machine Vision to Human Visual Perception","display_name":"Guided Diffusion for the Extension of Machine Vision to Human Visual Perception","publication_year":2025,"publication_date":"2025-03-23","ids":{"openalex":"https://openalex.org/W6948486230","doi":"https://doi.org/10.48550/arxiv.2503.17907"},"language":"en","primary_location":{"id":"doi:10.48550/arxiv.2503.17907","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2503.17907","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2503.17907","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":null,"display_name":"Shindo, Takahiro","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Shindo, Takahiro","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"Tatsumi, Yui","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Tatsumi, Yui","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"Watanabe, Taiju","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Watanabe, Taiju","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":null,"display_name":"Watanabe, Hiroshi","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Watanabe, Hiroshi","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":4,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":true,"primary_topic":{"id":"https://openalex.org/T10901","display_name":"Advanced Data Compression Techniques","score":0.5443999767303467,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10901","display_name":"Advanced Data Compression Techniques","score":0.5443999767303467,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11165","display_name":"Image and Video Quality Assessment","score":0.17910000681877136,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10741","display_name":"Video Coding and Compression Technologies","score":0.05270000174641609,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/human-visual-system-model","display_name":"Human visual system model","score":0.6345999836921692},{"id":"https://openalex.org/keywords/image-compression","display_name":"Image compression","score":0.6340000033378601},{"id":"https://openalex.org/keywords/image-processing","display_name":"Image processing","score":0.4722999930381775},{"id":"https://openalex.org/keywords/data-compression","display_name":"Data compression","score":0.4512999951839447},{"id":"https://openalex.org/keywords/coding","display_name":"Coding (social sciences)","score":0.4406000077724457},{"id":"https://openalex.org/keywords/machine-vision","display_name":"Machine vision","score":0.4124999940395355},{"id":"https://openalex.org/keywords/perception","display_name":"Perception","score":0.37290000915527344}],"concepts":[{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.7678999900817871},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.7598999738693237},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.734000027179718},{"id":"https://openalex.org/C160086991","wikidata":"https://www.wikidata.org/wiki/Q5939193","display_name":"Human visual system model","level":3,"score":0.6345999836921692},{"id":"https://openalex.org/C13481523","wikidata":"https://www.wikidata.org/wiki/Q412438","display_name":"Image compression","level":4,"score":0.6340000033378601},{"id":"https://openalex.org/C9417928","wikidata":"https://www.wikidata.org/wiki/Q1070689","display_name":"Image processing","level":3,"score":0.4722999930381775},{"id":"https://openalex.org/C78548338","wikidata":"https://www.wikidata.org/wiki/Q2493","display_name":"Data compression","level":2,"score":0.4512999951839447},{"id":"https://openalex.org/C179518139","wikidata":"https://www.wikidata.org/wiki/Q5140297","display_name":"Coding (social sciences)","level":2,"score":0.4406000077724457},{"id":"https://openalex.org/C5339829","wikidata":"https://www.wikidata.org/wiki/Q1425977","display_name":"Machine vision","level":2,"score":0.4124999940395355},{"id":"https://openalex.org/C26760741","wikidata":"https://www.wikidata.org/wiki/Q160402","display_name":"Perception","level":2,"score":0.37290000915527344},{"id":"https://openalex.org/C48044578","wikidata":"https://www.wikidata.org/wiki/Q727490","display_name":"Scalability","level":2,"score":0.3183000087738037},{"id":"https://openalex.org/C178253425","wikidata":"https://www.wikidata.org/wiki/Q162668","display_name":"Visual perception","level":3,"score":0.3138999938964844},{"id":"https://openalex.org/C104317675","wikidata":"https://www.wikidata.org/wiki/Q1070689","display_name":"Digital image processing","level":4,"score":0.29269999265670776},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.2856999933719635},{"id":"https://openalex.org/C115961682","wikidata":"https://www.wikidata.org/wiki/Q860623","display_name":"Image (mathematics)","level":2,"score":0.2648000121116638},{"id":"https://openalex.org/C63099799","wikidata":"https://www.wikidata.org/wiki/Q17147001","display_name":"Image texture","level":4,"score":0.2581999897956848}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2503.17907","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2503.17907","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2503.17907","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2503.17907","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Image":[0,61,120],"compression":[1,40,55,115,121,223],"technology":[2],"eliminates":[3],"redundant":[4],"information":[5],"to":[6,34,113,159],"enable":[7],"efficient":[8],"transmission":[9],"and":[10,18,82,196,216,219,233],"storage":[11],"of":[12,37,79,89,111,142,174],"images,":[13],"serving":[14],"both":[15,80],"machine":[16,157,194],"vision":[17,158,195],"human":[19,28,118,160,182,197],"visual":[20,161],"perception.":[21],"For":[22],"years,":[23],"image":[24,39,51,54,72,114,132,217,228],"coding":[25,73,229],"focused":[26],"on":[27,214],"perception":[29,162,183],"has":[30,66],"been":[31],"well-studied,":[32],"leading":[33],"the":[35,43,47,77,99,130,135,147,167,172,175],"development":[36],"various":[38],"standards.":[41],"On":[42],"other":[44,226],"hand,":[45],"with":[46,138,225],"rapid":[48],"advancements":[49],"in":[50],"recognition":[52],"models,":[53],"for":[56,63,96,117,155,181,231],"AI":[57],"tasks,":[58],"known":[59],"as":[60,190],"Coding":[62],"Machines":[64],"(ICM),":[65],"gained":[67],"significant":[68],"importance.":[69],"Therefore,":[70],"scalable":[71,227],"techniques":[74],"that":[75,123],"address":[76],"needs":[78],"machines":[81],"humans":[83,232],"have":[84],"become":[85],"a":[86,108,139,153,191],"key":[87],"area":[88],"interest.":[90],"Additionally,":[91],"there":[92],"is":[93],"increasing":[94],"demand":[95],"research":[97],"applying":[98],"diffusion":[100,125,148,168,188],"model,":[101],"which":[102],"can":[103,127],"generate":[104,179],"human-viewable":[105],"images":[106,180,210],"from":[107,184],"small":[109,140],"amount":[110,141],"data":[112],"methods":[116,122,230],"vision.":[119],"use":[124],"models":[126],"partially":[128],"reconstruct":[129],"target":[131],"by":[133,146,171],"guiding":[134],"generation":[136],"process":[137],"conditioning":[143],"information.":[144],"Inspired":[145],"model's":[149],"potential,":[150],"we":[151,178,220],"propose":[152],"method":[154],"extending":[156],"using":[163],"guided":[164,170],"diffusion.":[165],"Utilizing":[166],"model":[169],"output":[173],"ICM":[176],"method,":[177],"random":[185],"noise.":[186],"Guided":[187],"acts":[189],"bridge":[192],"between":[193,201],"vision,":[198],"enabling":[199],"transitions":[200],"them":[202],"without":[203],"any":[204],"additional":[205],"bitrate":[206,215],"overhead.":[207],"The":[208],"generated":[209],"then":[211],"evaluated":[212],"based":[213],"quality,":[218],"compare":[221],"their":[222],"performance":[224],"machines.":[234]},"counts_by_year":[],"updated_date":"2025-11-06T06:51:31.235846","created_date":"2025-10-10T00:00:00"}