{"id":"https://openalex.org/W3033850452","doi":"https://doi.org/10.1145/3397271.3401200","title":"Balancing Reinforcement Learning Training Experiences in Interactive Information Retrieval","display_name":"Balancing Reinforcement Learning Training Experiences in Interactive Information Retrieval","publication_year":2020,"publication_date":"2020-07-25","ids":{"openalex":"https://openalex.org/W3033850452","doi":"https://doi.org/10.1145/3397271.3401200","mag":"3033850452"},"language":"en","primary_location":{"id":"doi:10.1145/3397271.3401200","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3397271.3401200","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval","raw_type":"proceedings-article"},"type":"article","indexed_in":["arxiv","crossref"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://arxiv.org/pdf/2006.03185","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":null,"display_name":"Limin Chen","orcid":null},"institutions":[{"id":"https://openalex.org/I184565670","display_name":"Georgetown University","ror":"https://ror.org/05vzafd60","country_code":"US","type":"education","lineage":["https://openalex.org/I184565670"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Limin Chen","raw_affiliation_strings":["Georgetown University, Washington, DC, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Georgetown University, Washington, DC, USA","institution_ids":["https://openalex.org/I184565670"]}]},{"author_position":"middle","author":{"id":null,"display_name":"Zhiwen Tang","orcid":null},"institutions":[{"id":"https://openalex.org/I184565670","display_name":"Georgetown University","ror":"https://ror.org/05vzafd60","country_code":"US","type":"education","lineage":["https://openalex.org/I184565670"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Zhiwen Tang","raw_affiliation_strings":["Georgetown University, Washington, DC, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Georgetown University, Washington, DC, USA","institution_ids":["https://openalex.org/I184565670"]}]},{"author_position":"last","author":{"id":null,"display_name":"Grace Hui Yang","orcid":null},"institutions":[{"id":"https://openalex.org/I184565670","display_name":"Georgetown University","ror":"https://ror.org/05vzafd60","country_code":"US","type":"education","lineage":["https://openalex.org/I184565670"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Grace Hui Yang","raw_affiliation_strings":["Georgetown University, Washington, DC, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Georgetown University, Washington, DC, USA","institution_ids":["https://openalex.org/I184565670"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I184565670"],"apc_list":null,"apc_paid":null,"fwci":0.7806,"has_fulltext":false,"cited_by_count":11,"citation_normalized_percentile":{"value":0.78079011,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":97},"biblio":{"volume":null,"issue":null,"first_page":"1525","last_page":"1528"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.9993000030517578,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.9993000030517578,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.9988999962806702,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9965999722480774,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8100000023841858},{"id":"https://openalex.org/keywords/relevance","display_name":"Relevance (law)","score":0.6740000247955322},{"id":"https://openalex.org/keywords/domain","display_name":"Domain (mathematical analysis)","score":0.5493999719619751},{"id":"https://openalex.org/keywords/training","display_name":"Training (meteorology)","score":0.39719998836517334},{"id":"https://openalex.org/keywords/relevance-feedback","display_name":"Relevance feedback","score":0.3540000021457672},{"id":"https://openalex.org/keywords/training-set","display_name":"Training set","score":0.34630000591278076},{"id":"https://openalex.org/keywords/document-retrieval","display_name":"Document retrieval","score":0.3456000089645386}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8100000023841858},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7876999974250793},{"id":"https://openalex.org/C158154518","wikidata":"https://www.wikidata.org/wiki/Q7310970","display_name":"Relevance (law)","level":2,"score":0.6740000247955322},{"id":"https://openalex.org/C36503486","wikidata":"https://www.wikidata.org/wiki/Q11235244","display_name":"Domain (mathematical analysis)","level":2,"score":0.5493999719619751},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5450000166893005},{"id":"https://openalex.org/C2777211547","wikidata":"https://www.wikidata.org/wiki/Q17141490","display_name":"Training (meteorology)","level":2,"score":0.39719998836517334},{"id":"https://openalex.org/C23123220","wikidata":"https://www.wikidata.org/wiki/Q816826","display_name":"Information retrieval","level":1,"score":0.3799999952316284},{"id":"https://openalex.org/C2779532271","wikidata":"https://www.wikidata.org/wiki/Q445558","display_name":"Relevance feedback","level":4,"score":0.3540000021457672},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.34630000591278076},{"id":"https://openalex.org/C161156560","wikidata":"https://www.wikidata.org/wiki/Q1638872","display_name":"Document retrieval","level":2,"score":0.3456000089645386},{"id":"https://openalex.org/C77967617","wikidata":"https://www.wikidata.org/wiki/Q4677561","display_name":"Active learning (machine learning)","level":2,"score":0.3357999920845032},{"id":"https://openalex.org/C89992363","wikidata":"https://www.wikidata.org/wiki/Q5961558","display_name":"Track (disk drive)","level":2,"score":0.3262999951839447},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3230000138282776},{"id":"https://openalex.org/C198531522","wikidata":"https://www.wikidata.org/wiki/Q485146","display_name":"Sample (material)","level":2,"score":0.2822999954223633},{"id":"https://openalex.org/C44291984","wikidata":"https://www.wikidata.org/wiki/Q1074173","display_name":"Question answering","level":2,"score":0.28040000796318054},{"id":"https://openalex.org/C207685749","wikidata":"https://www.wikidata.org/wiki/Q2088941","display_name":"Domain knowledge","level":2,"score":0.27720001339912415},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.27300000190734863},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.2554999887943268},{"id":"https://openalex.org/C2778445095","wikidata":"https://www.wikidata.org/wiki/Q18354077","display_name":"Sample complexity","level":2,"score":0.2535000145435333}],"mesh":[],"locations_count":2,"locations":[{"id":"doi:10.1145/3397271.3401200","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3397271.3401200","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval","raw_type":"proceedings-article"},{"id":"pmh:oai:arXiv.org:2006.03185","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2006.03185","pdf_url":"https://arxiv.org/pdf/2006.03185","source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"}],"best_oa_location":{"id":"pmh:oai:arXiv.org:2006.03185","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2006.03185","pdf_url":"https://arxiv.org/pdf/2006.03185","source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":9,"referenced_works":["https://openalex.org/W2560647685","https://openalex.org/W2605102758","https://openalex.org/W2740839465","https://openalex.org/W2767050701","https://openalex.org/W2962957005","https://openalex.org/W2968116426","https://openalex.org/W2971296908","https://openalex.org/W3003416843","https://openalex.org/W6795224213"],"related_works":[],"abstract_inverted_index":{"Interactive":[0],"Information":[1],"Retrieval":[2],"(IIR)":[3],"and":[4,20,23,28,89],"Reinforcement":[5],"Learning":[6],"(RL)":[7],"share":[8],"many":[9],"commonalities,":[10],"including":[11],"an":[12,24,139],"agent":[13,88],"who":[14],"learns":[15],"while":[16],"interacts,":[17],"a":[18,59,64],"long-term":[19],"complex":[21],"goal,":[22],"algorithm":[25],"that":[26,77,96,131],"explores":[27],"adapts.":[29],"To":[30],"successfully":[31],"apply":[32],"RL":[33,48,140],"methods":[34],"to":[35,40,45,108,137],"IIR,":[36],"one":[37],"challenge":[38],"is":[39,68,97,135],"obtain":[41],"sufficient":[42],"relevance":[43],"labels":[44],"train":[46],"the":[47,70,74,87,114,120,132],"agents,":[49],"which":[50],"are":[51],"infamously":[52],"known":[53],"as":[54],"sample":[55],"inefficient.":[56],"However,":[57],"in":[58,146],"text":[60],"corpus":[61],"annotated":[62],"for":[63,86,113],"given":[65],"query,":[66],"it":[67,91],"not":[69],"relevant":[71,111],"documents":[72,76,112],"but":[73],"irrelevant":[75],"predominate.":[78],"This":[79],"would":[80],"cause":[81],"very":[82],"unbalanced":[83],"training":[84],"experiences":[85],"prevent":[90],"from":[92],"learning":[93,142],"any":[94],"policy":[95],"effective.":[98],"Our":[99,116],"paper":[100],"addresses":[101],"this":[102],"issue":[103],"by":[104,144],"using":[105],"domain":[106],"randomization":[107],"synthesize":[109],"more":[110],"training.":[115],"experimental":[117],"results":[118],"on":[119],"Text":[121],"REtrieval":[122],"Conference":[123],"(TREC)":[124],"Dynamic":[125],"Domain":[126],"(DD)":[127],"2017":[128],"Track":[129],"show":[130],"proposed":[133],"method":[134],"able":[136],"boost":[138],"agent's":[141],"effectiveness":[143],"22%":[145],"dealing":[147],"with":[148],"unseen":[149],"situations.":[150]},"counts_by_year":[{"year":2025,"cited_by_count":3},{"year":2024,"cited_by_count":2},{"year":2023,"cited_by_count":2},{"year":2022,"cited_by_count":1},{"year":2021,"cited_by_count":3}],"updated_date":"2026-07-03T08:13:44.112507","created_date":"2020-06-12T00:00:00"}