{"id":"https://openalex.org/W4411945999","doi":"https://doi.org/10.1145/3736252.3742537","title":"An Empirical Risk Minimization Approach for Offline Inverse Reinforcement Learning and Dynamic Discrete Choice Models","display_name":"An Empirical Risk Minimization Approach for Offline Inverse Reinforcement Learning and Dynamic Discrete Choice Models","publication_year":2025,"publication_date":"2025-07-02","ids":{"openalex":"https://openalex.org/W4411945999","doi":"https://doi.org/10.1145/3736252.3742537"},"language":"en","primary_location":{"id":"doi:10.1145/3736252.3742537","is_oa":true,"landing_page_url":"https://doi.org/10.1145/3736252.3742537","pdf_url":"https://dl.acm.org/doi/pdf/10.1145/3736252.3742537","source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 26th ACM Conference on Economics and Computation","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"gold","oa_url":"https://dl.acm.org/doi/pdf/10.1145/3736252.3742537","any_repository_has_fulltext":null},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5113046589","display_name":"Enoch Hyunwook Kang","orcid":null},"institutions":[{"id":"https://openalex.org/I201448701","display_name":"University of Washington","ror":"https://ror.org/00cvxb145","country_code":"US","type":"education","lineage":["https://openalex.org/I201448701"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"Enoch Hyunwook Kang","raw_affiliation_strings":["Foster school of Business, University of Washington, Seattle, Washington, USA"],"affiliations":[{"raw_affiliation_string":"Foster school of Business, University of Washington, Seattle, Washington, USA","institution_ids":["https://openalex.org/I201448701"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5076336545","display_name":"Hema Yoganarasimhan","orcid":"https://orcid.org/0000-0003-0703-5196"},"institutions":[{"id":"https://openalex.org/I201448701","display_name":"University of Washington","ror":"https://ror.org/00cvxb145","country_code":"US","type":"education","lineage":["https://openalex.org/I201448701"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Hema Yoganarasimhan","raw_affiliation_strings":["Foster school of Business, University of Washington, Seattle, Washington, USA"],"affiliations":[{"raw_affiliation_string":"Foster school of Business, University of Washington, Seattle, Washington, USA","institution_ids":["https://openalex.org/I201448701"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5083730924","display_name":"Lalit Jain","orcid":"https://orcid.org/0000-0002-1087-724X"},"institutions":[{"id":"https://openalex.org/I201448701","display_name":"University of Washington","ror":"https://ror.org/00cvxb145","country_code":"US","type":"education","lineage":["https://openalex.org/I201448701"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Lalit Jain","raw_affiliation_strings":["Foster school of Business, University of Washington, Seattle, WA, USA"],"affiliations":[{"raw_affiliation_string":"Foster school of Business, University of Washington, Seattle, WA, USA","institution_ids":["https://openalex.org/I201448701"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5113046589"],"corresponding_institution_ids":["https://openalex.org/I201448701"],"apc_list":null,"apc_paid":null,"fwci":2.0769,"has_fulltext":false,"cited_by_count":1,"citation_normalized_percentile":{"value":0.88446602,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":91,"max":95},"biblio":{"volume":null,"issue":null,"first_page":"341","last_page":"341"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11161","display_name":"Consumer Market Behavior and Pricing","score":0.7372000217437744,"subfield":{"id":"https://openalex.org/subfields/1406","display_name":"Marketing"},"field":{"id":"https://openalex.org/fields/14","display_name":"Business, Management and Accounting"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},"topics":[{"id":"https://openalex.org/T11161","display_name":"Consumer Market Behavior and Pricing","score":0.7372000217437744,"subfield":{"id":"https://openalex.org/subfields/1406","display_name":"Marketing"},"field":{"id":"https://openalex.org/fields/14","display_name":"Business, Management and Accounting"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T11437","display_name":"Digital Platforms and Economics","score":0.7027000188827515,"subfield":{"id":"https://openalex.org/subfields/1408","display_name":"Strategy and Management"},"field":{"id":"https://openalex.org/fields/14","display_name":"Business, Management and Accounting"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T11043","display_name":"Merger and Competition Analysis","score":0.6571000218391418,"subfield":{"id":"https://openalex.org/subfields/2002","display_name":"Economics and Econometrics"},"field":{"id":"https://openalex.org/fields/20","display_name":"Economics, Econometrics and Finance"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7494319677352905},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7314143180847168},{"id":"https://openalex.org/keywords/minification","display_name":"Minification","score":0.579525887966156},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.5307044386863708},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.5122441649436951},{"id":"https://openalex.org/keywords/empirical-risk-minimization","display_name":"Empirical risk minimization","score":0.4562872052192688},{"id":"https://openalex.org/keywords/inverse","display_name":"Inverse","score":0.4546930193901062},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.44626516103744507},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.1601940393447876}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7494319677352905},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7314143180847168},{"id":"https://openalex.org/C147764199","wikidata":"https://www.wikidata.org/wiki/Q6865248","display_name":"Minification","level":2,"score":0.579525887966156},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.5307044386863708},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5122441649436951},{"id":"https://openalex.org/C107321475","wikidata":"https://www.wikidata.org/wiki/Q5374254","display_name":"Empirical risk minimization","level":2,"score":0.4562872052192688},{"id":"https://openalex.org/C207467116","wikidata":"https://www.wikidata.org/wiki/Q4385666","display_name":"Inverse","level":2,"score":0.4546930193901062},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.44626516103744507},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.1601940393447876},{"id":"https://openalex.org/C2524010","wikidata":"https://www.wikidata.org/wiki/Q8087","display_name":"Geometry","level":1,"score":0.0},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1145/3736252.3742537","is_oa":true,"landing_page_url":"https://doi.org/10.1145/3736252.3742537","pdf_url":"https://dl.acm.org/doi/pdf/10.1145/3736252.3742537","source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 26th ACM Conference on Economics and Computation","raw_type":"proceedings-article"}],"best_oa_location":{"id":"doi:10.1145/3736252.3742537","is_oa":true,"landing_page_url":"https://doi.org/10.1145/3736252.3742537","pdf_url":"https://dl.acm.org/doi/pdf/10.1145/3736252.3742537","source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 26th ACM Conference on Economics and Computation","raw_type":"proceedings-article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":true,"pdf":true},"content_urls":{"pdf":"https://content.openalex.org/works/W4411945999.pdf","grobid_xml":"https://content.openalex.org/works/W4411945999.grobid-xml"},"referenced_works_count":0,"referenced_works":[],"related_works":["https://openalex.org/W4306904969","https://openalex.org/W2138720691","https://openalex.org/W4362501864","https://openalex.org/W4380318855","https://openalex.org/W2155195660","https://openalex.org/W2060518740","https://openalex.org/W4367626110","https://openalex.org/W2052343155","https://openalex.org/W2262246290","https://openalex.org/W2103875979"],"abstract_inverted_index":{"We":[0],"study":[1],"the":[2,57,72,82,91,108,112,131,135],"problem":[3],"of":[4,60,66,157],"estimating":[5],"Dynamic":[6],"Discrete":[7],"Choice":[8],"(DDC)":[9],"models,":[10],"also":[11],"known":[12],"as":[13,104],"offline":[14,39],"Maximum":[15],"Entropy-Regularized":[16],"Inverse":[17],"Reinforcement":[18],"Learning":[19],"(offline":[20],"MaxEnt-IRL)":[21],"in":[22,70,90],"machine":[23],"learning.":[24],"The":[25,64],"objective":[26],"is":[27,97,129,146],"to":[28,114,117,148],"recover":[29],"reward":[30],"or":[31],"Q":[32],"functions":[33],"that":[34,130,162],"govern":[35],"agent":[36],"behavior":[37,40],"from":[38],"data.":[41],"In":[42],"this":[43],"paper,":[44],"we":[45,160],"propose":[46],"a":[47,155],"globally":[48],"convergent":[49],"gradient-based":[50],"method":[51,96,110],"for":[52,84],"solving":[53],"these":[54],"problems":[55],"without":[56],"restrictive":[58],"assumption":[59],"linearly":[61],"parameterized":[62],"rewards.":[63],"novelty":[65],"our":[67,95,127,163],"approach":[68,128,164],"lies":[69],"introducing":[71],"Empirical":[73],"Risk":[74],"Minimization":[75],"(ERM)":[76],"based":[77],"IRL/DDC":[78],"framework,":[79],"which":[80],"circumvents":[81],"need":[83],"explicit":[85],"state":[86,120],"transition":[87],"probability":[88],"estimation":[89,101],"Bellman":[92,132],"equation.":[93],"Furthermore,":[94],"compatible":[98],"with":[99],"non-parametric":[100],"techniques":[102],"such":[103],"neural":[105],"networks.":[106],"Therefore,":[107],"proposed":[109],"has":[111],"potential":[113],"be":[115],"scaled":[116],"high-dimensional,":[118],"infinite":[119],"spaces.":[121],"A":[122],"key":[123],"theoretical":[124],"insight":[125],"underlying":[126],"residual":[133],"satisfies":[134],"Polyak-\u0141ojasiewicz":[136],"(PL)":[137],"condition-a":[138],"property":[139],"that,":[140],"while":[141],"weaker":[142],"than":[143],"strong":[144],"convexity,":[145],"sufficient":[147],"ensure":[149],"fast":[150],"global":[151],"convergence":[152],"guarantees.":[153],"Through":[154],"series":[156],"synthetic":[158],"experiments,":[159],"demonstrate":[161],"consistently":[165],"outperforms":[166],"benchmark":[167],"methods":[168],"and":[169],"state-of-the-art":[170],"alternatives.":[171]},"counts_by_year":[{"year":2025,"cited_by_count":1}],"updated_date":"2026-03-27T05:58:40.876381","created_date":"2025-10-10T00:00:00"}