{"id":"https://openalex.org/W4416036124","doi":"https://doi.org/10.18653/v1/2025.emnlp-main.1010","title":"SAFENUDGE: Safeguarding Large Language Models in Real-time with Tunable Safety-Performance Trade-offs","display_name":"SAFENUDGE: Safeguarding Large Language Models in Real-time with Tunable Safety-Performance Trade-offs","publication_year":2025,"publication_date":"2025-01-01","ids":{"openalex":"https://openalex.org/W4416036124","doi":"https://doi.org/10.18653/v1/2025.emnlp-main.1010"},"language":null,"primary_location":{"id":"doi:10.18653/v1/2025.emnlp-main.1010","is_oa":true,"landing_page_url":"https://doi.org/10.18653/v1/2025.emnlp-main.1010","pdf_url":"https://aclanthology.org/2025.emnlp-main.1010.pdf","source":null,"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"gold","oa_url":"https://aclanthology.org/2025.emnlp-main.1010.pdf","any_repository_has_fulltext":null},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5085754936","display_name":"Jo\u00e3o Fonseca","orcid":"https://orcid.org/0000-0001-5889-3575"},"institutions":[{"id":"https://openalex.org/I57206974","display_name":"New York University","ror":"https://ror.org/0190ak572","country_code":"US","type":"education","lineage":["https://openalex.org/I57206974"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"Joao Fonseca","raw_affiliation_strings":["New York University New York University New York University"],"affiliations":[{"raw_affiliation_string":"New York University New York University New York University","institution_ids":["https://openalex.org/I57206974"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5101752875","display_name":"Andrew Bell","orcid":"https://orcid.org/0000-0001-6010-9030"},"institutions":[{"id":"https://openalex.org/I57206974","display_name":"New York University","ror":"https://ror.org/0190ak572","country_code":"US","type":"education","lineage":["https://openalex.org/I57206974"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Andrew Bell","raw_affiliation_strings":["New York University New York University New York University"],"affiliations":[{"raw_affiliation_string":"New York University New York University New York University","institution_ids":["https://openalex.org/I57206974"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5082830839","display_name":"Julia Stoyanovich","orcid":"https://orcid.org/0000-0002-1587-0450"},"institutions":[{"id":"https://openalex.org/I57206974","display_name":"New York University","ror":"https://ror.org/0190ak572","country_code":"US","type":"education","lineage":["https://openalex.org/I57206974"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Julia Stoyanovich","raw_affiliation_strings":["New York University New York University New York University"],"affiliations":[{"raw_affiliation_string":"New York University New York University New York University","institution_ids":["https://openalex.org/I57206974"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5085754936"],"corresponding_institution_ids":["https://openalex.org/I57206974"],"apc_list":null,"apc_paid":null,"fwci":2.3431,"has_fulltext":true,"cited_by_count":1,"citation_normalized_percentile":{"value":0.91720095,"is_in_top_1_percent":false,"is_in_top_10_percent":true},"cited_by_percentile_year":{"min":91,"max":95},"biblio":{"volume":null,"issue":null,"first_page":"19966","last_page":"19980"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.6147000193595886,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.6147000193595886,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T13295","display_name":"Safety Systems Engineering in Autonomy","score":0.0478999987244606,"subfield":{"id":"https://openalex.org/subfields/2213","display_name":"Safety, Risk, Reliability and Quality"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11424","display_name":"Security and Verification in Computing","score":0.023900000378489494,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/safeguarding","display_name":"Safeguarding","score":0.43050000071525574},{"id":"https://openalex.org/keywords/modeling-language","display_name":"Modeling language","score":0.319599986076355},{"id":"https://openalex.org/keywords/key","display_name":"Key (lock)","score":0.30979999899864197},{"id":"https://openalex.org/keywords/work","display_name":"Work (physics)","score":0.2953999936580658},{"id":"https://openalex.org/keywords/language-model","display_name":"Language model","score":0.2948000133037567}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.605400025844574},{"id":"https://openalex.org/C2776743756","wikidata":"https://www.wikidata.org/wiki/Q5097921","display_name":"Safeguarding","level":2,"score":0.43050000071525574},{"id":"https://openalex.org/C38652104","wikidata":"https://www.wikidata.org/wiki/Q3510521","display_name":"Computer security","level":1,"score":0.3571000099182129},{"id":"https://openalex.org/C179603123","wikidata":"https://www.wikidata.org/wiki/Q1941921","display_name":"Modeling language","level":3,"score":0.319599986076355},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.30979999899864197},{"id":"https://openalex.org/C18762648","wikidata":"https://www.wikidata.org/wiki/Q42213","display_name":"Work (physics)","level":2,"score":0.2953999936580658},{"id":"https://openalex.org/C137293760","wikidata":"https://www.wikidata.org/wiki/Q3621696","display_name":"Language model","level":2,"score":0.2948000133037567},{"id":"https://openalex.org/C67186912","wikidata":"https://www.wikidata.org/wiki/Q367664","display_name":"Data modeling","level":2,"score":0.2687000036239624},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.26600000262260437},{"id":"https://openalex.org/C136764020","wikidata":"https://www.wikidata.org/wiki/Q466","display_name":"World Wide Web","level":1,"score":0.26010000705718994},{"id":"https://openalex.org/C195324797","wikidata":"https://www.wikidata.org/wiki/Q33742","display_name":"Natural language","level":2,"score":0.2578999996185303},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.2533999979496002}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.18653/v1/2025.emnlp-main.1010","is_oa":true,"landing_page_url":"https://doi.org/10.18653/v1/2025.emnlp-main.1010","pdf_url":"https://aclanthology.org/2025.emnlp-main.1010.pdf","source":null,"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing","raw_type":"proceedings-article"}],"best_oa_location":{"id":"doi:10.18653/v1/2025.emnlp-main.1010","is_oa":true,"landing_page_url":"https://doi.org/10.18653/v1/2025.emnlp-main.1010","pdf_url":"https://aclanthology.org/2025.emnlp-main.1010.pdf","source":null,"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing","raw_type":"proceedings-article"},"sustainable_development_goals":[],"awards":[{"id":"https://openalex.org/G1825975403","display_name":null,"funder_award_id":"2312930","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"},{"id":"https://openalex.org/G2258174790","display_name":"Transforming Artificial Intelligence and Robotics Research through Engineering Education","funder_award_id":"2520637","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"},{"id":"https://openalex.org/G2478672949","display_name":null,"funder_award_id":"2326193","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"},{"id":"https://openalex.org/G3837629044","display_name":null,"funder_award_id":"1839302","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"},{"id":"https://openalex.org/G6773667266","display_name":null,"funder_award_id":"DGE-1839302","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"},{"id":"https://openalex.org/G6894402473","display_name":null,"funder_award_id":"Fellowship","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"},{"id":"https://openalex.org/G848032724","display_name":null,"funder_award_id":"Science","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"}],"funders":[{"id":"https://openalex.org/F4320306076","display_name":"National Science Foundation","ror":"https://ror.org/021nxhr62"}],"has_content":{"pdf":true,"grobid_xml":true},"content_urls":{"pdf":"https://content.openalex.org/works/W4416036124.pdf","grobid_xml":"https://content.openalex.org/works/W4416036124.grobid-xml"},"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Large":[0],"Language":[1],"Models":[2],"(LLMs)":[3],"have":[4],"been":[5],"shown":[6],"to":[7,10,17,29,126,156],"be":[8],"susceptible":[9],"jailbreak":[11,99,108],"attacks,":[12],"or":[13,38],"adversarial":[14],"attacks":[15],"used":[16],"illicit":[18],"high":[19],"risk":[20],"behavior":[21],"from":[22],"a":[23,48,51,84,98,120,130],"model,":[24,49],"highlighting":[25],"the":[26,44,55,117,134,162,176],"critical":[27],"need":[28],"safeguard":[30,86],"widely-deployed":[31],"models.Safeguarding":[32],"approaches,":[33],"which":[34],"include":[35],"finetuning":[36],"models":[37],"having":[39],"LLMs":[40],"\"self-reflect,\"":[41],"may":[42],"lengthen":[43],"inference":[45,127],"time":[46],"of":[47,58,137],"incur":[50],"computational":[52],"penalty,":[53],"reduce":[54,106],"semantic":[56,135],"fluency":[57,136],"an":[59,71],"output,":[60],"and":[61,92,104,113,128,154,173],"restrict":[62],"\"normal\"":[63],"model":[64,158],"behavior.Importantly,":[65],"these":[66],"Safety-Performance":[67],"Trade-offs":[68],"(SPTs)":[69],"remain":[70],"understudied":[72],"area.In":[73],"this":[74],"work,":[75],"we":[76,160],"make":[77],"three":[78],"contributions:":[79],"(1)":[80],"We":[81],"introduce":[82],"SAFENUDGE,":[83],"novel":[85],"that":[87],"combines":[88],"Controlled":[89],"Text":[90],"Generation":[91],"\"nudging.\"SAFENUDGE":[93],"triggers":[94],"during":[95],"text-generation":[96],"while":[97],"attack":[100],"is":[101,170],"being":[102],"executed,":[103],"can":[105,145],"successful":[107],"attempts":[109],"by":[110,115],"between":[111],"28.1%":[112],"37.3%":[114],"guiding":[116],"LLM":[118],"towards":[119],"safe":[121],"response.It":[122],"adds":[123],"minimal":[124],"latency":[125],"has":[129],"negligible":[131],"impact":[132],"on":[133],"outputs.Second,":[138],"it":[139],"supports":[140],"tunable":[141],"SPTs,":[142],"meaning":[143],"practitioners":[144],"set":[146],"their":[147],"own":[148],"tolerance":[149],"for":[150,165],"tradeoffs":[151],"balancing":[152],"safety":[153],"restrictions":[155],"normal":[157],"behavior.Third,":[159],"release":[161],"source":[163,172],"code":[164],"SAFENUDGE":[166],"at":[167],"https://":[168],"github.com/joaopfonseca/SafeNudge.It":[169],"open":[171],"compatible":[174],"with":[175],"Hugging":[177],"Face":[178],"transformers":[179],"library.":[180]},"counts_by_year":[{"year":2025,"cited_by_count":1}],"updated_date":"2026-04-10T15:06:20.359241","created_date":"2025-11-08T00:00:00"}