{"id":"https://openalex.org/W7119067716","doi":"https://doi.org/10.1109/indin64977.2025.11278962","title":"IDM-TD3: An Improved Reinforcement Learning Algorithm Based on Inverse Dynamic Model","display_name":"IDM-TD3: An Improved Reinforcement Learning Algorithm Based on Inverse Dynamic Model","publication_year":2025,"publication_date":"2025-07-12","ids":{"openalex":"https://openalex.org/W7119067716","doi":"https://doi.org/10.1109/indin64977.2025.11278962"},"language":null,"primary_location":{"id":"doi:10.1109/indin64977.2025.11278962","is_oa":false,"landing_page_url":"https://doi.org/10.1109/indin64977.2025.11278962","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE 23rd International Conference on Industrial Informatics (INDIN)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5122169098","display_name":"Yichen Luo","orcid":null},"institutions":[{"id":"https://openalex.org/I86987016","display_name":"KTH Royal Institute of Technology","ror":"https://ror.org/026vcq606","country_code":"SE","type":"education","lineage":["https://openalex.org/I86987016"]}],"countries":["SE"],"is_corresponding":true,"raw_author_name":"Yichen Luo","raw_affiliation_strings":["KTH Royal Institute of Technology,Department of Intelligent Systems,Stockholm,Sweden"],"affiliations":[{"raw_affiliation_string":"KTH Royal Institute of Technology,Department of Intelligent Systems,Stockholm,Sweden","institution_ids":["https://openalex.org/I86987016"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5102828049","display_name":"Dayang Li","orcid":"https://orcid.org/0000-0002-6931-7677"},"institutions":[{"id":"https://openalex.org/I196699116","display_name":"Wuhan University of Technology","ror":"https://ror.org/03fe7t173","country_code":"CN","type":"education","lineage":["https://openalex.org/I196699116"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Dayang Li","raw_affiliation_strings":["Wuhan University of Technology,School of Transportation and Logistics Engineering,Wuhan,China"],"affiliations":[{"raw_affiliation_string":"Wuhan University of Technology,School of Transportation and Logistics Engineering,Wuhan,China","institution_ids":["https://openalex.org/I196699116"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5122117655","display_name":"Yanghang Zeng","orcid":null},"institutions":[{"id":"https://openalex.org/I86987016","display_name":"KTH Royal Institute of Technology","ror":"https://ror.org/026vcq606","country_code":"SE","type":"education","lineage":["https://openalex.org/I86987016"]}],"countries":["SE"],"is_corresponding":false,"raw_author_name":"Yanghang Zeng","raw_affiliation_strings":["KTH Royal Institute of Technology,Department of Intelligent Systems,Stockholm,Sweden"],"affiliations":[{"raw_affiliation_string":"KTH Royal Institute of Technology,Department of Intelligent Systems,Stockholm,Sweden","institution_ids":["https://openalex.org/I86987016"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5121987813","display_name":"Xiaohui Zhu","orcid":null},"institutions":[{"id":"https://openalex.org/I69356397","display_name":"Xi\u2019an Jiaotong-Liverpool University","ror":"https://ror.org/03zmrmn05","country_code":"CN","type":"education","lineage":["https://openalex.org/I69356397"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Xiaohui Zhu","raw_affiliation_strings":["Xi&#x2019;an Jiaotong-Liverpool University,School of Advanced Technology,Suzhou,China"],"affiliations":[{"raw_affiliation_string":"Xi&#x2019;an Jiaotong-Liverpool University,School of Advanced Technology,Suzhou,China","institution_ids":["https://openalex.org/I69356397"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5121989609","display_name":"Zhibo Pang","orcid":null},"institutions":[{"id":"https://openalex.org/I86987016","display_name":"KTH Royal Institute of Technology","ror":"https://ror.org/026vcq606","country_code":"SE","type":"education","lineage":["https://openalex.org/I86987016"]}],"countries":["SE"],"is_corresponding":false,"raw_author_name":"Zhibo Pang","raw_affiliation_strings":["KTH Royal Institute of Technology,Department of Intelligent Systems,Stockholm,Sweden"],"affiliations":[{"raw_affiliation_string":"KTH Royal Institute of Technology,Department of Intelligent Systems,Stockholm,Sweden","institution_ids":["https://openalex.org/I86987016"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":5,"corresponding_author_ids":["https://openalex.org/A5122169098"],"corresponding_institution_ids":["https://openalex.org/I86987016"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.82448574,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"6"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8644999861717224,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8644999861717224,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.034699998795986176,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.011699999682605267,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/kinematics","display_name":"Kinematics","score":0.6554999947547913},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.6431000232696533},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6011000275611877},{"id":"https://openalex.org/keywords/generalization","display_name":"Generalization","score":0.5630000233650208},{"id":"https://openalex.org/keywords/inverse-kinematics","display_name":"Inverse kinematics","score":0.54830002784729},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.5482000112533569},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.4875999987125397},{"id":"https://openalex.org/keywords/inverse-dynamics","display_name":"Inverse dynamics","score":0.44839999079704285},{"id":"https://openalex.org/keywords/control","display_name":"Control (management)","score":0.43869999051094055}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6790000200271606},{"id":"https://openalex.org/C39920418","wikidata":"https://www.wikidata.org/wiki/Q11476","display_name":"Kinematics","level":2,"score":0.6554999947547913},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.6431000232696533},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6011000275611877},{"id":"https://openalex.org/C177148314","wikidata":"https://www.wikidata.org/wiki/Q170084","display_name":"Generalization","level":2,"score":0.5630000233650208},{"id":"https://openalex.org/C17816587","wikidata":"https://www.wikidata.org/wiki/Q1501872","display_name":"Inverse kinematics","level":3,"score":0.54830002784729},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.5482000112533569},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.4875999987125397},{"id":"https://openalex.org/C187523126","wikidata":"https://www.wikidata.org/wiki/Q17098330","display_name":"Inverse dynamics","level":3,"score":0.44839999079704285},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4388999938964844},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.43869999051094055},{"id":"https://openalex.org/C47446073","wikidata":"https://www.wikidata.org/wiki/Q5165890","display_name":"Control theory (sociology)","level":3,"score":0.4242999851703644},{"id":"https://openalex.org/C207467116","wikidata":"https://www.wikidata.org/wiki/Q4385666","display_name":"Inverse","level":2,"score":0.41929998993873596},{"id":"https://openalex.org/C91575142","wikidata":"https://www.wikidata.org/wiki/Q1971426","display_name":"Optimal control","level":2,"score":0.3531999886035919},{"id":"https://openalex.org/C31531917","wikidata":"https://www.wikidata.org/wiki/Q915157","display_name":"Robust control","level":3,"score":0.3244999945163727},{"id":"https://openalex.org/C133731056","wikidata":"https://www.wikidata.org/wiki/Q4917288","display_name":"Control engineering","level":1,"score":0.319599986076355},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3041999936103821},{"id":"https://openalex.org/C155032097","wikidata":"https://www.wikidata.org/wiki/Q798503","display_name":"Backpropagation","level":3,"score":0.30399999022483826},{"id":"https://openalex.org/C74222875","wikidata":"https://www.wikidata.org/wiki/Q16000312","display_name":"Robot kinematics","level":4,"score":0.2948000133037567},{"id":"https://openalex.org/C77405623","wikidata":"https://www.wikidata.org/wiki/Q598451","display_name":"System dynamics","level":2,"score":0.2924000024795532},{"id":"https://openalex.org/C17500928","wikidata":"https://www.wikidata.org/wiki/Q959968","display_name":"Control system","level":2,"score":0.28700000047683716},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.27300000190734863},{"id":"https://openalex.org/C34413123","wikidata":"https://www.wikidata.org/wiki/Q170978","display_name":"Robotics","level":3,"score":0.2680000066757202},{"id":"https://openalex.org/C65401140","wikidata":"https://www.wikidata.org/wiki/Q7353385","display_name":"Robot control","level":4,"score":0.2599000036716461},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.2542000114917755},{"id":"https://openalex.org/C115051666","wikidata":"https://www.wikidata.org/wiki/Q6522493","display_name":"Ranging","level":2,"score":0.25189998745918274},{"id":"https://openalex.org/C151201525","wikidata":"https://www.wikidata.org/wiki/Q177239","display_name":"Limit (mathematics)","level":2,"score":0.2513999938964844}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/indin64977.2025.11278962","is_oa":false,"landing_page_url":"https://doi.org/10.1109/indin64977.2025.11278962","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE 23rd International Conference on Industrial Informatics (INDIN)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[{"id":"https://openalex.org/F4320322725","display_name":"China Scholarship Council","ror":"https://ror.org/04atp4p48"}],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":13,"referenced_works":["https://openalex.org/W1498436455","https://openalex.org/W1998179438","https://openalex.org/W2158782408","https://openalex.org/W2767050701","https://openalex.org/W2962787969","https://openalex.org/W2963099939","https://openalex.org/W2964262254","https://openalex.org/W3088310808","https://openalex.org/W3206620955","https://openalex.org/W4205430897","https://openalex.org/W4293363567","https://openalex.org/W4315487473","https://openalex.org/W4383112908"],"related_works":[],"abstract_inverted_index":{"Deep":[0],"Reinforcement":[1],"Learning":[2],"(DRL)":[3],"has":[4],"achieved":[5],"remarkable":[6],"success":[7],"in":[8,170,184,188],"various":[9],"fields":[10],"by":[11,160],"leveraging":[12],"neural":[13],"networks.":[14],"However,":[15],"applying":[16],"DRL":[17,45],"to":[18,28,33,63,123],"control":[19,32,71,91,168],"complex":[20],"robot":[21,86],"systems":[22],"faces":[23],"challenges,":[24],"such":[25],"as":[26,55],"hard":[27],"converge":[29],"and":[30,67,153],"robust":[31,167],"accommodate":[34],"different":[35,143],"environments.":[36],"In":[37],"this":[38],"paper,":[39],"we":[40,146],"propose":[41],"IDM-TD3,":[42],"a":[43,89],"new":[44],"framework":[46],"which":[47],"introduces":[48],"an":[49],"Inverse":[50],"Dynamic":[51],"Model":[52],"into":[53],"TD3":[54,152],"the":[56,60,65,70,82,96,114,118,131,162,178,190,198],"output":[57],"map":[58],"of":[59,69,81,99,117,125,181,200],"actor":[61],"network":[62,133],"decouple":[64],"kinematics":[66],"dynamics":[68],"system.":[72],"This":[73,176],"decoupled":[74],"configuration":[75],"not":[76],"only":[77],"permits":[78],"online":[79],"fine-tuning":[80,161],"IDM":[83],"within":[84],"target":[85],"environment":[87],"for":[88,197],"better":[90,149],"performence,":[92],"but":[93],"also":[94],"facilitates":[95],"seamless":[97],"transference":[98],"experiential":[100],"knowledge":[101],"across":[102],"agents":[103],"with":[104,142,156,172],"akin":[105],"kinematic":[106,132],"features.":[107],"Experimental":[108],"results":[109],"show":[110],"that":[111,124],"without":[112],"pretraining,":[113],"convergence":[115,150],"performance":[116],"proposed":[119],"method":[120,165],"is":[121,134],"comparable":[122],"our":[126,164,182],"baseline":[127],"algorithm":[128],"TD3.":[129],"If":[130],"pretrained":[135],"using":[136],"expert":[137],"policies":[138],"(even":[139],"from":[140],"environments":[141,171],"dynamic":[144,174],"parameters),":[145],"achieve":[147],"much":[148],"than":[151],"its":[154],"combination":[155],"behavioral":[157],"cloning.":[158],"Moreover,":[159],"IDM,":[163],"exhibits":[166],"even":[169],"distinct":[173],"differences.":[175],"shows":[177],"promising":[179],"application":[180],"IDM-TD3":[183],"many":[185],"fields,":[186],"particularly":[187],"addressing":[189],"generalization":[191],"problem":[192],"or":[193],"harnessing":[194],"pre-existing":[195],"experiences":[196],"training":[199],"nascent":[201],"agents.":[202]},"counts_by_year":[],"updated_date":"2026-04-09T08:11:56.329763","created_date":"2026-01-08T00:00:00"}