BATCH POLICY LEARNING IN AVERAGE REWARD MARKOV DECISION PROCESSES. | Ann Stat;50(6): 3364-3387, 2022 Dec. | MEDLINE

Contenido principal 1 Búsqueda 2 Pie de página 3

+A A -A Alto contraste

Portal de Búsqueda de la BVS

Información y Conocimiento para la Salud

Localizar descriptor de asunto Búsqueda Avanzada

BATCH POLICY LEARNING IN AVERAGE REWARD MARKOV DECISION PROCESSES.

Liao, Peng; Qi, Zhengling; Wan, Runzhe; Klasnja, Predrag; Murphy, Susan A.

Afiliación

Liao P; Harvard University.
Qi Z; George Washington University.
Wan R; Amazon.
Klasnja P; University of Michigan.
Murphy SA; Harvard University.

Ann Stat ; 50(6): 3364-3387, 2022 Dec.

Article en En | MEDLINE | ID: mdl-37022318

Palabras clave

Average Reward; Doubly Robust Estimator; Markov Decision Process; Policy Optimization

Buscar en Google

Texto completo: 1 Colección: 01-internacional Banco de datos: MEDLINE Tipo de estudio: Health_economic_evaluation Idioma: En Revista: Ann Stat Año: 2022 Tipo del documento: Article

Buscar en Google

Texto completo: 1 Colección: 01-internacional Banco de datos: MEDLINE Tipo de estudio: Health_economic_evaluation Idioma: En Revista: Ann Stat Año: 2022 Tipo del documento: Article