{"id":"https://openalex.org/W7137951192","doi":"https://doi.org/10.48550/arxiv.2603.14987","title":"Beyond Benchmark Islands: Toward Representative Trustworthiness Evaluation for Agentic AI","display_name":"Beyond Benchmark Islands: Toward Representative Trustworthiness Evaluation for Agentic AI","publication_year":2026,"publication_date":"2026-03-16","ids":{"openalex":"https://openalex.org/W7137951192","doi":"https://doi.org/10.48550/arxiv.2603.14987"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.14987","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.14987","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.14987","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5095747638","display_name":"Jinhu Qi","orcid":"https://orcid.org/0009-0006-5544-4786"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Qi, Jinhu","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5129676975","display_name":"Yifan Li","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Li, Yifan","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5129647575","display_name":"Minghao Zhao","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhao, Minghao","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5129650520","display_name":"Wentao Zhang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhang, Wentao","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5129751628","display_name":"Zijian Zhang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhang, Zijian","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5002011323","display_name":"Yaoman Li","orcid":"https://orcid.org/0000-0003-1191-2227"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Li, Yaoman","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5129724654","display_name":"Irwin King","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"King, Irwin","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":7,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10883","display_name":"Ethics and Social Impacts of AI","score":0.17520000040531158,"subfield":{"id":"https://openalex.org/subfields/3311","display_name":"Safety Research"},"field":{"id":"https://openalex.org/fields/33","display_name":"Social Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},"topics":[{"id":"https://openalex.org/T10883","display_name":"Ethics and Social Impacts of AI","score":0.17520000040531158,"subfield":{"id":"https://openalex.org/subfields/3311","display_name":"Safety Research"},"field":{"id":"https://openalex.org/fields/33","display_name":"Social Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.16169999539852142,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11636","display_name":"Artificial Intelligence in Healthcare and Education","score":0.0746999979019165,"subfield":{"id":"https://openalex.org/subfields/2718","display_name":"Health Informatics"},"field":{"id":"https://openalex.org/fields/27","display_name":"Medicine"},"domain":{"id":"https://openalex.org/domains/4","display_name":"Health Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/benchmark","display_name":"Benchmark (surveying)","score":0.7565000057220459},{"id":"https://openalex.org/keywords/sandbox","display_name":"Sandbox (software development)","score":0.618399977684021},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.5813999772071838},{"id":"https://openalex.org/keywords/software-deployment","display_name":"Software deployment","score":0.46219998598098755},{"id":"https://openalex.org/keywords/baseline","display_name":"Baseline (sea)","score":0.44449999928474426},{"id":"https://openalex.org/keywords/trustworthiness","display_name":"Trustworthiness","score":0.4214000105857849},{"id":"https://openalex.org/keywords/component","display_name":"Component (thermodynamics)","score":0.3564999997615814},{"id":"https://openalex.org/keywords/code","display_name":"Code (set theory)","score":0.3492000102996826}],"concepts":[{"id":"https://openalex.org/C185798385","wikidata":"https://www.wikidata.org/wiki/Q1161707","display_name":"Benchmark (surveying)","level":2,"score":0.7565000057220459},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7142000198364258},{"id":"https://openalex.org/C167981075","wikidata":"https://www.wikidata.org/wiki/Q2667186","display_name":"Sandbox (software development)","level":2,"score":0.618399977684021},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.5813999772071838},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.48969998955726624},{"id":"https://openalex.org/C105339364","wikidata":"https://www.wikidata.org/wiki/Q2297740","display_name":"Software deployment","level":2,"score":0.46219998598098755},{"id":"https://openalex.org/C12725497","wikidata":"https://www.wikidata.org/wiki/Q810247","display_name":"Baseline (sea)","level":2,"score":0.44449999928474426},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.43549999594688416},{"id":"https://openalex.org/C153701036","wikidata":"https://www.wikidata.org/wiki/Q659974","display_name":"Trustworthiness","level":2,"score":0.4214000105857849},{"id":"https://openalex.org/C168167062","wikidata":"https://www.wikidata.org/wiki/Q1117970","display_name":"Component (thermodynamics)","level":2,"score":0.3564999997615814},{"id":"https://openalex.org/C2776760102","wikidata":"https://www.wikidata.org/wiki/Q5139990","display_name":"Code (set theory)","level":3,"score":0.3492000102996826},{"id":"https://openalex.org/C112930515","wikidata":"https://www.wikidata.org/wiki/Q4389547","display_name":"Risk analysis (engineering)","level":1,"score":0.33000001311302185},{"id":"https://openalex.org/C22171661","wikidata":"https://www.wikidata.org/wiki/Q1074380","display_name":"Stochastic game","level":2,"score":0.3075000047683716},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.30559998750686646},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.2793000042438507},{"id":"https://openalex.org/C123197309","wikidata":"https://www.wikidata.org/wiki/Q2882343","display_name":"Multi-armed bandit","level":3,"score":0.26759999990463257},{"id":"https://openalex.org/C148220186","wikidata":"https://www.wikidata.org/wiki/Q7111912","display_name":"Outcome (game theory)","level":2,"score":0.26409998536109924},{"id":"https://openalex.org/C36503486","wikidata":"https://www.wikidata.org/wiki/Q11235244","display_name":"Domain (mathematical analysis)","level":2,"score":0.26330000162124634},{"id":"https://openalex.org/C38652104","wikidata":"https://www.wikidata.org/wiki/Q3510521","display_name":"Computer security","level":1,"score":0.26179999113082886},{"id":"https://openalex.org/C12174686","wikidata":"https://www.wikidata.org/wiki/Q1058438","display_name":"Risk assessment","level":2,"score":0.2574000060558319},{"id":"https://openalex.org/C43126263","wikidata":"https://www.wikidata.org/wiki/Q128751","display_name":"Source code","level":2,"score":0.2549000084400177},{"id":"https://openalex.org/C133462117","wikidata":"https://www.wikidata.org/wiki/Q4929239","display_name":"Data collection","level":2,"score":0.25429999828338623},{"id":"https://openalex.org/C177142836","wikidata":"https://www.wikidata.org/wiki/Q44455","display_name":"Game theory","level":2,"score":0.2515000104904175}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.14987","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.14987","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.14987","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.14987","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Agentic":[0],"AI":[1,100],"systems":[2,195,214],"increasingly":[3],"act":[4],"through":[5,120,133],"tool-augmented,":[6],"multi-step":[7],"workflows":[8],"whose":[9],"failures":[10],"(unsafe":[11],"tool":[12],"use,":[13],"unauthorised":[14],"actions,":[15],"social":[16],"harm)":[17],"carry":[18],"deployment-level":[19],"consequences.":[20],"Evaluation":[21],"practice":[22],"remains":[23],"fragmented":[24],"across":[25],"isolated":[26],"benchmark":[27,77],"slices,":[28],"and":[29,57,103,129,170,216],"\"trustworthiness\"":[30],"is":[31,43],"frequently":[32],"invoked":[33],"but":[34],"rarely":[35],"defined":[36],"operationally.":[37],"We":[38,79],"argue":[39],"the":[40,46,59,106],"central":[41],"limitation":[42],"twofold:":[44],"(i)":[45,81],"absence":[47],"of":[48,52,61,65,154],"a":[49,62,70,87,117,158,172,181,208,219,227],"measurable":[50],"specification":[51],"what":[53],"agent":[54],"trustworthiness":[55,85],"means,":[56],"(ii)":[58,104],"lack":[60],"principled":[63],"notion":[64],"representativeness":[66],"allowing":[67],"assessment":[68],"over":[69,116],"socio-technical":[71],"scenario":[72,118],"distribution":[73],"rather":[74],"than":[75],"disconnected":[76],"instances.":[78],"address":[80],"by":[82],"defining":[83],"agentic":[84,155],"as":[86,226],"five-property":[88,152],"profile":[89,115],"(Reliability,":[90],"Robustness,":[91],"Safety,":[92],"Social-Ethical":[93],"Alignment,":[94],"Operational":[95],"Integrity)":[96],"grounded":[97],"in":[98,176],"current":[99],"risk":[101],"frameworks,":[102],"with":[105],"Holographic":[107],"Agent":[108],"Assessment":[109],"Framework":[110],"(HAAF),":[111],"which":[112,177],"measures":[113],"this":[114],"manifold":[119],"static":[121],"policy":[122],"analysis,":[123],"sandbox":[124],"simulation,":[125],"social-ethical":[126],"alignment":[127],"assessment,":[128],"distribution-aware":[130,159],"sampling,":[131],"connected":[132],"an":[134,150],"iterative":[135],"Trustworthy":[136],"Optimization":[137],"Factory":[138,225],"that":[139,162],"converts":[140],"red-team":[141],"diagnoses":[142],"into":[143],"blue-team":[144],"interventions.":[145],"Our":[146],"contributions":[147],"are:":[148],"(1)":[149],"operational":[151],"definition":[153],"trustworthiness;":[156],"(2)":[157],"scenario-sampling":[160],"framework":[161],"surfaces":[163],"property-level":[164],"trade-offs":[165],"invisible":[166],"to":[167,193],"scalar":[168],"leaderboards;":[169],"(3)":[171],"cross-family":[173],"transfer":[174],"experiment":[175],"interventions":[178],"designed":[179],"from":[180,196],"single":[182],"focal":[183],"model":[184,198],"generalise":[185],"--":[186,192],"without":[187],"per-model":[188],"or":[189],"per-scenario":[190],"tuning":[191],"13":[194,213],"seven":[197],"families":[199],"(Llama,":[200],"Mistral,":[201],"Kimi,":[202],"GLM,":[203],"Qwen,":[204],"GPT,":[205],"DeepSeek)":[206],"on":[207],"100-scenario":[209],"suite,":[210],"where":[211],"all":[212],"improve":[215],"two":[217],"reach":[218],"perfect":[220],"risk-weighted":[221],"profile,":[222],"establishing":[223],"HAAF's":[224],"model-agnostic":[228],"deployment-readiness":[229],"pipeline.":[230],"Code:":[231],"https://github.com/TonyQJH/haaf-pilot":[232]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-03-18T00:00:00"}