{"id":"https://openalex.org/W4415428698","doi":"https://doi.org/10.3233/faia251007","title":"Investigating the Robustness of Deductive Reasoning with Large Language Models","display_name":"Investigating the Robustness of Deductive Reasoning with Large Language Models","publication_year":2025,"publication_date":"2025-10-21","ids":{"openalex":"https://openalex.org/W4415428698","doi":"https://doi.org/10.3233/faia251007"},"language":"en","primary_location":{"id":"doi:10.3233/faia251007","is_oa":true,"landing_page_url":"https://doi.org/10.3233/faia251007","pdf_url":null,"source":{"id":"https://openalex.org/S4210201731","display_name":"Frontiers in artificial intelligence and applications","issn_l":"0922-6389","issn":["0922-6389","1879-8314"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"journal"},"license":"cc-by-nc","license_id":"https://openalex.org/licenses/cc-by-nc","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Frontiers in Artificial Intelligence and Applications","raw_type":"book-chapter"},"type":"book-chapter","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"hybrid","oa_url":"https://doi.org/10.3233/faia251007","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5038600821","display_name":"Fabian Hoppe","orcid":"https://orcid.org/0000-0002-7047-2770"},"institutions":[{"id":"https://openalex.org/I865915315","display_name":"Vrije Universiteit Amsterdam","ror":"https://ror.org/008xxew50","country_code":"NL","type":"education","lineage":["https://openalex.org/I865915315"]}],"countries":["NL"],"is_corresponding":true,"raw_author_name":"Fabian Hoppe","raw_affiliation_strings":["Vrije Universiteit Amsterdam"],"affiliations":[{"raw_affiliation_string":"Vrije Universiteit Amsterdam","institution_ids":["https://openalex.org/I865915315"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5008608420","display_name":"Filip Ilievski","orcid":"https://orcid.org/0000-0002-1735-0686"},"institutions":[{"id":"https://openalex.org/I865915315","display_name":"Vrije Universiteit Amsterdam","ror":"https://ror.org/008xxew50","country_code":"NL","type":"education","lineage":["https://openalex.org/I865915315"]}],"countries":["NL"],"is_corresponding":false,"raw_author_name":"Filip Ilievski","raw_affiliation_strings":["Vrije Universiteit Amsterdam"],"affiliations":[{"raw_affiliation_string":"Vrije Universiteit Amsterdam","institution_ids":["https://openalex.org/I865915315"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5082776564","display_name":"Jan-Christoph Kalo","orcid":"https://orcid.org/0000-0002-5492-2292"},"institutions":[{"id":"https://openalex.org/I865915315","display_name":"Vrije Universiteit Amsterdam","ror":"https://ror.org/008xxew50","country_code":"NL","type":"education","lineage":["https://openalex.org/I865915315"]},{"id":"https://openalex.org/I887064364","display_name":"University of Amsterdam","ror":"https://ror.org/04dkp9463","country_code":"NL","type":"education","lineage":["https://openalex.org/I887064364"]}],"countries":["NL"],"is_corresponding":false,"raw_author_name":"Jan-Christoph Kalo","raw_affiliation_strings":["Universiteit van Amsterdam"],"affiliations":[{"raw_affiliation_string":"Universiteit van Amsterdam","institution_ids":["https://openalex.org/I865915315","https://openalex.org/I887064364"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5038600821"],"corresponding_institution_ids":["https://openalex.org/I865915315"],"apc_list":null,"apc_paid":null,"fwci":4.3688,"has_fulltext":true,"cited_by_count":1,"citation_normalized_percentile":{"value":0.95393255,"is_in_top_1_percent":false,"is_in_top_10_percent":true},"cited_by_percentile_year":{"min":96,"max":98},"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.9139999747276306,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.9139999747276306,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/counterfactual-thinking","display_name":"Counterfactual thinking","score":0.8331999778747559},{"id":"https://openalex.org/keywords/adversarial-system","display_name":"Adversarial system","score":0.6995000243186951},{"id":"https://openalex.org/keywords/deductive-reasoning","display_name":"Deductive reasoning","score":0.6966999769210815},{"id":"https://openalex.org/keywords/robustness","display_name":"Robustness (evolution)","score":0.6711999773979187},{"id":"https://openalex.org/keywords/inference","display_name":"Inference","score":0.5264000296592712},{"id":"https://openalex.org/keywords/syntax","display_name":"Syntax","score":0.4977000057697296},{"id":"https://openalex.org/keywords/natural-language","display_name":"Natural language","score":0.4471000134944916},{"id":"https://openalex.org/keywords/defeasible-reasoning","display_name":"Defeasible reasoning","score":0.438400000333786},{"id":"https://openalex.org/keywords/automated-reasoning","display_name":"Automated reasoning","score":0.4207000136375427},{"id":"https://openalex.org/keywords/natural-language-understanding","display_name":"Natural language understanding","score":0.38190001249313354}],"concepts":[{"id":"https://openalex.org/C108650721","wikidata":"https://www.wikidata.org/wiki/Q1783253","display_name":"Counterfactual thinking","level":2,"score":0.8331999778747559},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7366999983787537},{"id":"https://openalex.org/C37736160","wikidata":"https://www.wikidata.org/wiki/Q1801315","display_name":"Adversarial system","level":2,"score":0.6995000243186951},{"id":"https://openalex.org/C97364631","wikidata":"https://www.wikidata.org/wiki/Q484284","display_name":"Deductive reasoning","level":2,"score":0.6966999769210815},{"id":"https://openalex.org/C63479239","wikidata":"https://www.wikidata.org/wiki/Q7353546","display_name":"Robustness (evolution)","level":3,"score":0.6711999773979187},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5297999978065491},{"id":"https://openalex.org/C2776214188","wikidata":"https://www.wikidata.org/wiki/Q408386","display_name":"Inference","level":2,"score":0.5264000296592712},{"id":"https://openalex.org/C60048249","wikidata":"https://www.wikidata.org/wiki/Q37437","display_name":"Syntax","level":2,"score":0.4977000057697296},{"id":"https://openalex.org/C195324797","wikidata":"https://www.wikidata.org/wiki/Q33742","display_name":"Natural language","level":2,"score":0.4471000134944916},{"id":"https://openalex.org/C140843580","wikidata":"https://www.wikidata.org/wiki/Q840067","display_name":"Defeasible reasoning","level":2,"score":0.438400000333786},{"id":"https://openalex.org/C195344581","wikidata":"https://www.wikidata.org/wiki/Q2555318","display_name":"Automated reasoning","level":2,"score":0.4207000136375427},{"id":"https://openalex.org/C204321447","wikidata":"https://www.wikidata.org/wiki/Q30642","display_name":"Natural language processing","level":1,"score":0.3871000111103058},{"id":"https://openalex.org/C2779439875","wikidata":"https://www.wikidata.org/wiki/Q1078276","display_name":"Natural language understanding","level":3,"score":0.38190001249313354},{"id":"https://openalex.org/C137293760","wikidata":"https://www.wikidata.org/wiki/Q3621696","display_name":"Language model","level":2,"score":0.3458999991416931},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3384000062942505},{"id":"https://openalex.org/C89288958","wikidata":"https://www.wikidata.org/wiki/Q7301504","display_name":"Reasoning system","level":2,"score":0.33500000834465027},{"id":"https://openalex.org/C159032336","wikidata":"https://www.wikidata.org/wiki/Q2488768","display_name":"Non-monotonic logic","level":2,"score":0.32899999618530273},{"id":"https://openalex.org/C43971567","wikidata":"https://www.wikidata.org/wiki/Q3142865","display_name":"Logical reasoning","level":2,"score":0.32499998807907104},{"id":"https://openalex.org/C20162079","wikidata":"https://www.wikidata.org/wiki/Q1151406","display_name":"Case-based reasoning","level":2,"score":0.30809998512268066},{"id":"https://openalex.org/C71889745","wikidata":"https://www.wikidata.org/wiki/Q1783264","display_name":"Counterfactual conditional","level":3,"score":0.3061000108718872},{"id":"https://openalex.org/C184337299","wikidata":"https://www.wikidata.org/wiki/Q1437428","display_name":"Semantics (computer science)","level":2,"score":0.30399999022483826},{"id":"https://openalex.org/C128913409","wikidata":"https://www.wikidata.org/wiki/Q3566063","display_name":"Belief revision","level":2,"score":0.29829999804496765},{"id":"https://openalex.org/C11693617","wikidata":"https://www.wikidata.org/wiki/Q181839","display_name":"Pragmatics","level":2,"score":0.2944999933242798},{"id":"https://openalex.org/C134752490","wikidata":"https://www.wikidata.org/wiki/Q374182","display_name":"Logical consequence","level":2,"score":0.2896000146865845},{"id":"https://openalex.org/C193221554","wikidata":"https://www.wikidata.org/wiki/Q5153664","display_name":"Commonsense reasoning","level":2,"score":0.2793999910354614},{"id":"https://openalex.org/C80444323","wikidata":"https://www.wikidata.org/wiki/Q2878974","display_name":"Theoretical computer science","level":1,"score":0.27480000257492065},{"id":"https://openalex.org/C2781170535","wikidata":"https://www.wikidata.org/wiki/Q30587856","display_name":"Noisy data","level":2,"score":0.274399995803833},{"id":"https://openalex.org/C155092808","wikidata":"https://www.wikidata.org/wiki/Q182557","display_name":"Computational linguistics","level":2,"score":0.2711000144481659},{"id":"https://openalex.org/C86827895","wikidata":"https://www.wikidata.org/wiki/Q7098582","display_name":"Opportunistic reasoning","level":4,"score":0.26809999346733093},{"id":"https://openalex.org/C99498987","wikidata":"https://www.wikidata.org/wiki/Q2210247","display_name":"Noise (video)","level":3,"score":0.26109999418258667},{"id":"https://openalex.org/C194989596","wikidata":"https://www.wikidata.org/wiki/Q211790","display_name":"Logical connective","level":2,"score":0.2554999887943268},{"id":"https://openalex.org/C183521366","wikidata":"https://www.wikidata.org/wiki/Q7256422","display_name":"Psychology of reasoning","level":4,"score":0.2529999911785126}],"mesh":[],"locations_count":5,"locations":[{"id":"doi:10.3233/faia251007","is_oa":true,"landing_page_url":"https://doi.org/10.3233/faia251007","pdf_url":null,"source":{"id":"https://openalex.org/S4210201731","display_name":"Frontiers in artificial intelligence and applications","issn_l":"0922-6389","issn":["0922-6389","1879-8314"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"journal"},"license":"cc-by-nc","license_id":"https://openalex.org/licenses/cc-by-nc","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Frontiers in Artificial Intelligence and Applications","raw_type":"book-chapter"},{"id":"pmh:oai:dare.uva.nl:publications/04860642-431e-4655-92a6-f97c2689d50c","is_oa":false,"landing_page_url":"https://handle.uba.uva.nl/personal/pure/en/publications/investigating-the-robustness-of-deductive-reasoning-with-large-language-models(04860642-431e-4655-92a6-f97c2689d50c).html","pdf_url":null,"source":{"id":"https://openalex.org/S4306400088","display_name":"UvA-DARE (University of Amsterdam)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I887064364","host_organization_name":"University of Amsterdam","host_organization_lineage":["https://openalex.org/I887064364"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Hoppe, F, Ilievski, F & Kalo, J-C 2025, Investigating the Robustness of Deductive Reasoning with Large Language Models. in I Lynce, N Murano, M Vallati, S Villata, F Chesani, M Milano, A Omicini & M Dastani (eds), ECAI 2025 : 28th European Conference on Artificial Intelligence, 25-30 October2025, Bologna, Italy : including 14th Conference on Prestigious Applications of Intelligent Systems (PAIS 2025) : proceedings. Frontiers in Artificial Intelligence and Applications, vol. 413, Amsterdam, pp. 1776-1783, 28th European Conference on Artificial Intelligence, ECAI 2025, including 14th Conference on Prestigious Applications of Intelligent Systems, PAIS 2025, Bologna, Italy, 25/10/25. https://doi.org/10.3233/FAIA251007","raw_type":"info:eu-repo/semantics/publishedVersion"},{"id":"pmh:oai:research.vu.nl:publications/7c3f7167-2a91-4216-8c55-0e6237005e6e","is_oa":false,"landing_page_url":"https://research.vu.nl/en/publications/7c3f7167-2a91-4216-8c55-0e6237005e6e","pdf_url":null,"source":{"id":"https://openalex.org/S4306401107","display_name":"VU Research Portal","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I865915315","host_organization_name":"Vrije Universiteit Amsterdam","host_organization_lineage":["https://openalex.org/I865915315"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Hoppe, F, Ilievski, F & Kalo, J C 2025, Investigating the Robustness of Deductive Reasoning with Large Language Models. in I Lynce, N Murano, M Vallati, S Villata, F Chesani, M Milano, A Omicini & M Dastani (eds), 28th European Conference on Artificial Intelligence, 25-30 October 2025, Bologna, Italy \u2013 Including 14th Conference on Prestigious Applications of Intelligent Systems (PAIS 2025) : [Proceedings]. Frontiers in Artificial Intelligence and Applications, vol. 413, IOS Press BV, pp. 1776-1783, 28th European Conference on Artificial Intelligence, ECAI 2025, including 14th Conference on Prestigious Applications of Intelligent Systems, PAIS 2025, Bologna, Italy, 25/10/25. https://doi.org/10.3233/FAIA251007","raw_type":"info:eu-repo/semantics/publishedVersion"},{"id":"pmh:oai:dare.uva.nl:openaire_cris_publications/04860642-431e-4655-92a6-f97c2689d50c","is_oa":false,"landing_page_url":"https://hdl.handle.net/11245.1/04860642-431e-4655-92a6-f97c2689d50c","pdf_url":null,"source":{"id":"https://openalex.org/S4306400088","display_name":"UvA-DARE (University of Amsterdam)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I887064364","host_organization_name":"University of Amsterdam","host_organization_lineage":["https://openalex.org/I887064364"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"Hoppe, F, Ilievski, F & Kalo, J-C 2025, Investigating the Robustness of Deductive Reasoning with Large Language Models. in I Lynce, N Murano, M Vallati, S Villata, F Chesani, M Milano, A Omicini & M Dastani (eds), ECAI 2025 : 28th European Conference on Artificial Intelligence, 25-30 October2025, Bologna, Italy : including 14th Conference on Prestigious Applications of Intelligent Systems (PAIS 2025) : proceedings. Frontiers in Artificial Intelligence and Applications, vol. 413, Amsterdam, pp. 1776-1783, 28th European Conference on Artificial Intelligence, ECAI 2025, including 14th Conference on Prestigious Applications of Intelligent Systems, PAIS 2025, Bologna, Italy, 25/10/25. https://doi.org/10.3233/FAIA251007","raw_type":"info:eu-repo/semantics/publishedVersion"},{"id":"pmh:oai:research.vu.nl:openaire/7c3f7167-2a91-4216-8c55-0e6237005e6e","is_oa":true,"landing_page_url":"https://hdl.handle.net/1871.1/7c3f7167-2a91-4216-8c55-0e6237005e6e","pdf_url":null,"source":{"id":"https://openalex.org/S4306401107","display_name":"VU Research Portal","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I865915315","host_organization_name":"Vrije Universiteit Amsterdam","host_organization_lineage":["https://openalex.org/I865915315"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by-nc","license_id":"https://openalex.org/licenses/cc-by-nc","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"Hoppe, F, Ilievski, F & Kalo, J C 2025, Investigating the Robustness of Deductive Reasoning with Large Language Models. in I Lynce, N Murano, M Vallati, S Villata, F Chesani, M Milano, A Omicini & M Dastani (eds), 28th European Conference on Artificial Intelligence, 25-30 October 2025, Bologna, Italy \u2013 Including 14th Conference on Prestigious Applications of Intelligent Systems (PAIS 2025) : [Proceedings]. Frontiers in Artificial Intelligence and Applications, vol. 413, IOS Press BV, pp. 1776-1783, 28th European Conference on Artificial Intelligence, ECAI 2025, including 14th Conference on Prestigious Applications of Intelligent Systems, PAIS 2025, Bologna, Italy, 25/10/25. https://doi.org/10.3233/FAIA251007","raw_type":"info:eu-repo/semantics/publishedVersion"}],"best_oa_location":{"id":"doi:10.3233/faia251007","is_oa":true,"landing_page_url":"https://doi.org/10.3233/faia251007","pdf_url":null,"source":{"id":"https://openalex.org/S4210201731","display_name":"Frontiers in artificial intelligence and applications","issn_l":"0922-6389","issn":["0922-6389","1879-8314"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"journal"},"license":"cc-by-nc","license_id":"https://openalex.org/licenses/cc-by-nc","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Frontiers in Artificial Intelligence and Applications","raw_type":"book-chapter"},"sustainable_development_goals":[],"awards":[{"id":"https://openalex.org/G1974542962","display_name":null,"funder_award_id":"Sk\u0142odowska","funder_id":"https://openalex.org/F4320320300","funder_display_name":"European Commission"},{"id":"https://openalex.org/G2689612763","display_name":null,"funder_award_id":"Marie","funder_id":"https://openalex.org/F4320320300","funder_display_name":"European Commission"},{"id":"https://openalex.org/G6733806268","display_name":"Learning with Multiple Representations","funder_award_id":"101073307","funder_id":"https://openalex.org/F4320320300","funder_display_name":"European Commission"},{"id":"https://openalex.org/G8318064016","display_name":null,"funder_award_id":"Horizon","funder_id":"https://openalex.org/F4320320300","funder_display_name":"European Commission"}],"funders":[{"id":"https://openalex.org/F4320320300","display_name":"European Commission","ror":"https://ror.org/00k4n6c32"},{"id":"https://openalex.org/F4320334322","display_name":"HORIZON EUROPE Framework Programme","ror":null}],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Large":[0],"Language":[1,15],"Models":[2],"(LLMs)":[3],"have":[4,52],"been":[5,53],"shown":[6],"to":[7,30,116,153,159],"achieve":[8],"impressive":[9],"results":[10,128],"for":[11,124],"many":[12,48],"reasoning-based":[13],"Natural":[14],"Processing":[16],"(NLP)":[17],"tasks,":[18],"suggesting":[19],"a":[20,55,90],"degree":[21],"of":[22,62,77,80,95,112,156],"deductive":[23,85],"reasoning":[24,86,118],"capability.":[25],"However,":[26],"it":[27],"remains":[28],"unclear":[29],"which":[31,102],"extent":[32],"LLMs,":[33],"in":[34],"both":[35],"informal":[36,83],"and":[37,82,99,122],"autoformalisation":[38],"methods,":[39],"are":[40],"robust":[41],"on":[42],"logical":[43],"deduction":[44,50],"tasks.":[45],"Moreover,":[46],"while":[47,135],"LLM-based":[49,84,157],"methods":[51,158],"proposed,":[54],"systematic":[56],"study":[57,76],"that":[58,130],"analyses":[59],"the":[60,74,78,110,154],"impact":[61],"their":[63,117],"design":[64],"components":[65],"is":[66],"lacking.":[67],"Addressing":[68],"these":[69],"two":[70,93],"challenges,":[71],"we":[72],"propose":[73],"first":[75],"robustness":[79],"formal":[81],"methods.":[87],"We":[88,108],"devise":[89],"framework":[91],"with":[92],"families":[94],"perturbations:":[96],"adversarial":[97,131],"noise":[98,132],"counterfactual":[100,136],"statements,":[101],"jointly":[103],"generate":[104],"seven":[105],"perturbed":[106],"datasets.":[107],"organize":[109],"landscape":[111],"LLM":[113],"reasoners":[114],"according":[115],"format,":[119],"formalisation":[120],"syntax,":[121],"feedback":[123,142],"error":[125],"recovery.":[126],"The":[127],"show":[129],"affects":[133],"autoformalisation,":[134],"statements":[137],"influence":[138],"all":[139],"approaches.":[140],"Detailed":[141],"does":[143],"not":[144],"improve":[145],"overall":[146],"accuracy":[147],"despite":[148],"reducing":[149],"syntax":[150],"errors,":[151],"pointing":[152],"challenge":[155],"self-correct":[160],"effectively.":[161]},"counts_by_year":[{"year":2026,"cited_by_count":1}],"updated_date":"2026-04-10T15:06:20.359241","created_date":"2025-10-24T00:00:00"}