{"id":"https://openalex.org/W7124924260","doi":"https://doi.org/10.1109/aiware69974.2025.00037","title":"A Tool for Benchmarking Large Language Models' Robustness in Assessing the Realism of Driving Scenarios","display_name":"A Tool for Benchmarking Large Language Models' Robustness in Assessing the Realism of Driving Scenarios","publication_year":2025,"publication_date":"2025-11-19","ids":{"openalex":"https://openalex.org/W7124924260","doi":"https://doi.org/10.1109/aiware69974.2025.00037"},"language":null,"primary_location":{"id":"doi:10.1109/aiware69974.2025.00037","is_oa":false,"landing_page_url":"https://doi.org/10.1109/aiware69974.2025.00037","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 2nd IEEE/ACM International Conference on AI-powered Software (AIware)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5011550616","display_name":"Jiahui Wu","orcid":"https://orcid.org/0000-0001-9903-5518"},"institutions":[{"id":"https://openalex.org/I2799829267","display_name":"Simula Research Laboratory","ror":"https://ror.org/00vn06n10","country_code":"NO","type":"facility","lineage":["https://openalex.org/I2799829267"]}],"countries":["NO"],"is_corresponding":true,"raw_author_name":"Jiahui Wu","raw_affiliation_strings":["Simula Research Laboratory,Oslo,Norway"],"affiliations":[{"raw_affiliation_string":"Simula Research Laboratory,Oslo,Norway","institution_ids":["https://openalex.org/I2799829267"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5018992202","display_name":"Chengjie Lu","orcid":"https://orcid.org/0000-0002-5818-7547"},"institutions":[{"id":"https://openalex.org/I2799829267","display_name":"Simula Research Laboratory","ror":"https://ror.org/00vn06n10","country_code":"NO","type":"facility","lineage":["https://openalex.org/I2799829267"]}],"countries":["NO"],"is_corresponding":false,"raw_author_name":"Chengjie Lu","raw_affiliation_strings":["Simula Research Laboratory,Oslo,Norway"],"affiliations":[{"raw_affiliation_string":"Simula Research Laboratory,Oslo,Norway","institution_ids":["https://openalex.org/I2799829267"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5079122801","display_name":"Aitor Arrieta","orcid":"https://orcid.org/0000-0001-7507-5080"},"institutions":[{"id":"https://openalex.org/I162361429","display_name":"Mondragon Unibertsitatea","ror":"https://ror.org/00wvqgd19","country_code":"ES","type":"education","lineage":["https://openalex.org/I162361429"]}],"countries":["ES"],"is_corresponding":false,"raw_author_name":"Aitor Arrieta","raw_affiliation_strings":["Mondragon University,Mondragon,Spain"],"affiliations":[{"raw_affiliation_string":"Mondragon University,Mondragon,Spain","institution_ids":["https://openalex.org/I162361429"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5123379452","display_name":"Shaukat Ali","orcid":null},"institutions":[{"id":"https://openalex.org/I2799829267","display_name":"Simula Research Laboratory","ror":"https://ror.org/00vn06n10","country_code":"NO","type":"facility","lineage":["https://openalex.org/I2799829267"]}],"countries":["NO"],"is_corresponding":false,"raw_author_name":"Shaukat Ali","raw_affiliation_strings":["Simula Research Laboratory,Oslo,Norway"],"affiliations":[{"raw_affiliation_string":"Simula Research Laboratory,Oslo,Norway","institution_ids":["https://openalex.org/I2799829267"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":4,"corresponding_author_ids":["https://openalex.org/A5011550616"],"corresponding_institution_ids":["https://openalex.org/I2799829267"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.57501216,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"263","last_page":"267"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11099","display_name":"Autonomous Vehicle Technology and Safety","score":0.42250001430511475,"subfield":{"id":"https://openalex.org/subfields/2203","display_name":"Automotive Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11099","display_name":"Autonomous Vehicle Technology and Safety","score":0.42250001430511475,"subfield":{"id":"https://openalex.org/subfields/2203","display_name":"Automotive Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.1598999947309494,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.056699998676776886,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/robustness","display_name":"Robustness (evolution)","score":0.7893000245094299},{"id":"https://openalex.org/keywords/realism","display_name":"Realism","score":0.7222999930381775},{"id":"https://openalex.org/keywords/benchmarking","display_name":"Benchmarking","score":0.6983000040054321},{"id":"https://openalex.org/keywords/benchmark","display_name":"Benchmark (surveying)","score":0.3296000063419342},{"id":"https://openalex.org/keywords/scenario-testing","display_name":"Scenario testing","score":0.314300000667572}],"concepts":[{"id":"https://openalex.org/C63479239","wikidata":"https://www.wikidata.org/wiki/Q7353546","display_name":"Robustness (evolution)","level":3,"score":0.7893000245094299},{"id":"https://openalex.org/C543847140","wikidata":"https://www.wikidata.org/wiki/Q2642826","display_name":"Realism","level":2,"score":0.7222999930381775},{"id":"https://openalex.org/C86251818","wikidata":"https://www.wikidata.org/wiki/Q816754","display_name":"Benchmarking","level":2,"score":0.6983000040054321},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6456000208854675},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.36059999465942383},{"id":"https://openalex.org/C112930515","wikidata":"https://www.wikidata.org/wiki/Q4389547","display_name":"Risk analysis (engineering)","level":1,"score":0.334199994802475},{"id":"https://openalex.org/C185798385","wikidata":"https://www.wikidata.org/wiki/Q1161707","display_name":"Benchmark (surveying)","level":2,"score":0.3296000063419342},{"id":"https://openalex.org/C80519477","wikidata":"https://www.wikidata.org/wiki/Q3532236","display_name":"Scenario testing","level":3,"score":0.314300000667572},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.29660001397132874},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.2533000111579895},{"id":"https://openalex.org/C2777152325","wikidata":"https://www.wikidata.org/wiki/Q108163","display_name":"Proposition","level":2,"score":0.2502000033855438}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/aiware69974.2025.00037","is_oa":false,"landing_page_url":"https://doi.org/10.1109/aiware69974.2025.00037","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 2nd IEEE/ACM International Conference on AI-powered Software (AIware)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[{"id":"https://openalex.org/G1963336961","display_name":null,"funder_award_id":"286898/F20","funder_id":"https://openalex.org/F4320323299","funder_display_name":"Norges Forskningsr\u00e5d"}],"funders":[{"id":"https://openalex.org/F4320323299","display_name":"Norges Forskningsr\u00e5d","ror":"https://ror.org/00epmv149"}],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":12,"referenced_works":["https://openalex.org/W3047641937","https://openalex.org/W3145505790","https://openalex.org/W4225349279","https://openalex.org/W4225627334","https://openalex.org/W4319964781","https://openalex.org/W4353056919","https://openalex.org/W4364379138","https://openalex.org/W4384009634","https://openalex.org/W4389262616","https://openalex.org/W4399577583","https://openalex.org/W4401809716","https://openalex.org/W4412999551"],"related_works":[],"abstract_inverted_index":{"In":[0],"recent":[1],"years,":[2],"autonomous":[3],"driving":[4,103,129],"systems":[5],"have":[6,30],"made":[7],"significant":[8],"progress,":[9],"yet":[10],"ensuring":[11],"their":[12,73],"safety":[13],"remains":[14,50],"a":[15,24,89,118,181],"key":[16],"challenge.":[17],"To":[18],"this":[19],"end,":[20],"scenario-based":[21],"testing":[22,198],"offers":[23],"practical":[25,167,182],"solution,":[26],"and":[27,38,69,122,146,166],"simulation-based":[28,196],"methods":[29],"gained":[31],"traction":[32],"due":[33],"to":[34,92,116,191],"the":[35,45,94,100,126,135,158],"high":[36],"cost":[37],"risk":[39],"of":[40,47,96,102,128,160],"real-world":[41],"testing.":[42],"However,":[43],"evaluating":[44,99],"realism":[46,78,101,127,171],"simulated":[48],"scenarios":[49],"difficult,":[51],"creating":[52],"demand":[53],"for":[54],"effective":[55],"assessment":[56],"methods.":[57],"Recent":[58],"advances":[59],"show":[60,151],"that":[61,152],"Large":[62],"Language":[63],"Models":[64],"(LLMs)":[65],"possess":[66],"strong":[67],"reasoning":[68],"generalization":[70],"capabilities,":[71],"suggesting":[72],"potential":[74],"in":[75,98,124,157,169,184],"assessing":[76],"scenario":[77,108,170,193],"through":[79],"scenario-related":[80],"textual":[81],"prompts.":[82],"Motivated":[83],"by":[84],"this,":[85],"we":[86],"propose":[87],"DriveRLR,":[88],"benchmark":[90],"tool":[91],"assess":[93,117],"robustness":[95,123,159,175],"LLMs":[97],"scenarios.":[104,130],"DriveRLR":[105,133,153,177],"generates":[106],"mutated":[107],"variants,":[109],"constructs":[110],"prompts,":[111],"which":[112],"are":[113],"then":[114],"used":[115],"given":[119],"LLM's":[120],"ability":[121],"determining":[125],"We":[131],"validate":[132],"on":[134],"DeepScenario":[136],"dataset":[137],"using":[138],"three":[139],"state-of-the-art":[140],"LLMs:":[141],"GPT-5,":[142],"Llama":[143],"4":[144],"Maverick,":[145],"Mistral":[147],"Small":[148],"3.2.":[149],"Results":[150],"effectively":[154],"reveals":[155],"differences":[156],"various":[161],"LLMs,":[162],"demonstrating":[163],"its":[164],"effectiveness":[165],"value":[168],"assessment.":[172],"Beyond":[173],"LLM":[174],"evaluation,":[176],"can":[178],"serve":[179],"as":[180,187],"component":[183],"applications":[185],"such":[186],"an":[188],"objective":[189],"function":[190],"guide":[192],"generation,":[194],"supporting":[195],"ADS":[197],"workflows.":[199]},"counts_by_year":[],"updated_date":"2026-04-09T08:11:56.329763","created_date":"2026-01-21T00:00:00"}