{"id":"https://openalex.org/W7119041414","doi":"https://doi.org/10.1109/vtc2025-fall65116.2025.11310084","title":"PViTH-Net: Pyramidal Vision Transformer Homography Estimation Network for Image Stitching","display_name":"PViTH-Net: Pyramidal Vision Transformer Homography Estimation Network for Image Stitching","publication_year":2025,"publication_date":"2025-10-19","ids":{"openalex":"https://openalex.org/W7119041414","doi":"https://doi.org/10.1109/vtc2025-fall65116.2025.11310084"},"language":null,"primary_location":{"id":"doi:10.1109/vtc2025-fall65116.2025.11310084","is_oa":false,"landing_page_url":"https://doi.org/10.1109/vtc2025-fall65116.2025.11310084","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE 102nd Vehicular Technology Conference (VTC2025-Fall)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5080946926","display_name":"Sima Soltanpour","orcid":"https://orcid.org/0000-0002-2131-8902"},"institutions":[{"id":"https://openalex.org/I67031392","display_name":"Carleton University","ror":"https://ror.org/02qtvee93","country_code":"CA","type":"education","lineage":["https://openalex.org/I67031392"]}],"countries":["CA"],"is_corresponding":false,"raw_author_name":"Sima Soltanpour","raw_affiliation_strings":["Carleton University,School of Information Technology,Ottawa,Canada"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Carleton University,School of Information Technology,Ottawa,Canada","institution_ids":["https://openalex.org/I67031392"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5064648310","display_name":"Chris Joslin","orcid":"https://orcid.org/0000-0002-6728-2722"},"institutions":[{"id":"https://openalex.org/I67031392","display_name":"Carleton University","ror":"https://ror.org/02qtvee93","country_code":"CA","type":"education","lineage":["https://openalex.org/I67031392"]}],"countries":["CA"],"is_corresponding":false,"raw_author_name":"Chris Joslin","raw_affiliation_strings":["Carleton University,School of Information Technology,Ottawa,Canada"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Carleton University,School of Information Technology,Ottawa,Canada","institution_ids":["https://openalex.org/I67031392"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.60076612,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"5"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10627","display_name":"Advanced Image and Video Retrieval Techniques","score":0.7904999852180481,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10627","display_name":"Advanced Image and Video Retrieval Techniques","score":0.7904999852180481,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11448","display_name":"Face recognition and analysis","score":0.05559999868273735,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10036","display_name":"Advanced Neural Network Applications","score":0.05530000105500221,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/image-stitching","display_name":"Image stitching","score":0.7975000143051147},{"id":"https://openalex.org/keywords/homography","display_name":"Homography","score":0.720300018787384},{"id":"https://openalex.org/keywords/feature-extraction","display_name":"Feature extraction","score":0.5066999793052673},{"id":"https://openalex.org/keywords/computation","display_name":"Computation","score":0.45809999108314514},{"id":"https://openalex.org/keywords/encoder","display_name":"Encoder","score":0.44999998807907104},{"id":"https://openalex.org/keywords/transformer","display_name":"Transformer","score":0.42829999327659607},{"id":"https://openalex.org/keywords/convolutional-neural-network","display_name":"Convolutional neural network","score":0.42730000615119934},{"id":"https://openalex.org/keywords/feature","display_name":"Feature (linguistics)","score":0.3546999990940094}],"concepts":[{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.8158000111579895},{"id":"https://openalex.org/C29081049","wikidata":"https://www.wikidata.org/wiki/Q1364242","display_name":"Image stitching","level":2,"score":0.7975000143051147},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.7720999717712402},{"id":"https://openalex.org/C28751775","wikidata":"https://www.wikidata.org/wiki/Q2112539","display_name":"Homography","level":4,"score":0.720300018787384},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6675999760627747},{"id":"https://openalex.org/C52622490","wikidata":"https://www.wikidata.org/wiki/Q1026626","display_name":"Feature extraction","level":2,"score":0.5066999793052673},{"id":"https://openalex.org/C45374587","wikidata":"https://www.wikidata.org/wiki/Q12525525","display_name":"Computation","level":2,"score":0.45809999108314514},{"id":"https://openalex.org/C118505674","wikidata":"https://www.wikidata.org/wiki/Q42586063","display_name":"Encoder","level":2,"score":0.44999998807907104},{"id":"https://openalex.org/C66322947","wikidata":"https://www.wikidata.org/wiki/Q11658","display_name":"Transformer","level":3,"score":0.42829999327659607},{"id":"https://openalex.org/C81363708","wikidata":"https://www.wikidata.org/wiki/Q17084460","display_name":"Convolutional neural network","level":2,"score":0.42730000615119934},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.3546999990940094},{"id":"https://openalex.org/C52102323","wikidata":"https://www.wikidata.org/wiki/Q1671968","display_name":"Pose","level":2,"score":0.3228999972343445},{"id":"https://openalex.org/C188198153","wikidata":"https://www.wikidata.org/wiki/Q1613840","display_name":"Limiting","level":2,"score":0.2897000014781952},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.2867000102996826},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.27559998631477356},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.26980000734329224},{"id":"https://openalex.org/C76935873","wikidata":"https://www.wikidata.org/wiki/Q209121","display_name":"Image sensor","level":2,"score":0.2565999925136566},{"id":"https://openalex.org/C9417928","wikidata":"https://www.wikidata.org/wiki/Q1070689","display_name":"Image processing","level":3,"score":0.2529999911785126},{"id":"https://openalex.org/C61265191","wikidata":"https://www.wikidata.org/wiki/Q767770","display_name":"Scale-invariant feature transform","level":3,"score":0.25119999051094055}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/vtc2025-fall65116.2025.11310084","is_oa":false,"landing_page_url":"https://doi.org/10.1109/vtc2025-fall65116.2025.11310084","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE 102nd Vehicular Technology Conference (VTC2025-Fall)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":19,"referenced_works":["https://openalex.org/W2752401453","https://openalex.org/W2763280975","https://openalex.org/W2898795804","https://openalex.org/W2912340292","https://openalex.org/W3147619802","https://openalex.org/W3175515048","https://openalex.org/W3214403471","https://openalex.org/W4249418251","https://openalex.org/W4280527172","https://openalex.org/W4313007769","https://openalex.org/W4323644077","https://openalex.org/W4360610393","https://openalex.org/W4381594430","https://openalex.org/W4389666313","https://openalex.org/W4390874303","https://openalex.org/W4392824972","https://openalex.org/W4393864341","https://openalex.org/W4394596956","https://openalex.org/W4401357170"],"related_works":[],"abstract_inverted_index":{"Homography":[0],"estimation":[1,84],"is":[2,65],"crucial":[3],"for":[4,44,52,59,101],"image":[5,69],"stitching":[6,70],"in":[7,103],"autonomous":[8,104],"vehicle":[9,105],"applications,":[10],"enabling":[11],"seamless":[12],"multi-view":[13],"transformations.":[14],"While":[15],"convolutional":[16,57],"neural":[17],"networks":[18],"(CNNs)":[19],"have":[20],"achieved":[21],"state-of-the-art":[22],"performance,":[23],"they":[24],"often":[25],"struggle":[26],"with":[27],"capturing":[28],"global":[29,53],"context,":[30],"limiting":[31],"their":[32],"effectiveness.":[33],"In":[34],"this":[35],"paper,":[36],"we":[37],"propose":[38],"a":[39,49],"Pyramidal":[40],"Vision":[41],"Transformer":[42],"(PViT)":[43],"homography":[45,83],"estimation,":[46],"which":[47],"integrates":[48],"transformer":[50],"encoder":[51],"feature":[54,61],"extraction":[55],"and":[56,74,81],"layers":[58],"local":[60],"refinement.":[62],"Our":[63],"method":[64],"evaluated":[66],"on":[67],"an":[68,91],"task,":[71],"demonstrating":[72],"75%":[73],"77%":[75],"error":[76],"reduction":[77],"compared":[78],"to":[79],"conventional":[80],"learning-based":[82],"approaches,":[85],"respectively.":[86],"Additionally,":[87],"our":[88],"model":[89],"achieves":[90],"efficient":[92],"performance":[93],"by":[94],"reducing":[95],"computation":[96],"time,":[97],"making":[98],"it":[99],"suitable":[100],"deployment":[102],"vision":[106],"systems.":[107]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-01-08T00:00:00"}