Your browser doesn't support javascript.
loading
BATCH POLICY LEARNING IN AVERAGE REWARD MARKOV DECISION PROCESSES.
Liao, Peng; Qi, Zhengling; Wan, Runzhe; Klasnja, Predrag; Murphy, Susan A.
Afiliación
  • Liao P; Harvard University.
  • Qi Z; George Washington University.
  • Wan R; Amazon.
  • Klasnja P; University of Michigan.
  • Murphy SA; Harvard University.
Ann Stat ; 50(6): 3364-3387, 2022 Dec.
Article en En | MEDLINE | ID: mdl-37022318

Texto completo: 1 Colección: 01-internacional Banco de datos: MEDLINE Tipo de estudio: Health_economic_evaluation Idioma: En Revista: Ann Stat Año: 2022 Tipo del documento: Article

Texto completo: 1 Colección: 01-internacional Banco de datos: MEDLINE Tipo de estudio: Health_economic_evaluation Idioma: En Revista: Ann Stat Año: 2022 Tipo del documento: Article