Name: DQPOPE: Distributional Off-Policy Evaluation with Deep Quantile Process Regression
Creator: Qi Kuang
Published: 2026-05-18T14:09:47
License: CC-BY-4.0
Keywords: Off Policy Evaluation, ZIP, Sample Complexity, Benchmark, Tabular, Deep Neural Networks, Quantile Regression, Distributional Reinforcement Learning

Description

A research paper and associated materials introducing a novel algorithm for distributional off-policy evaluation in reinforcement learning. The work by Qi Kuang presents Deep Quantile Process regression-based Off-Policy Evaluation (DQPOPE), which estimates the full return distribution rather than just its expectation. The package includes a PDF, markdown files, and a ZIP archive, totaling 12.5 MB and last updated on May 18, 2026.

Use Cases

Evaluating reinforcement learning policies based on estimated return distributions.
Comparing the precision and robustness of policy value estimates against standard OPE methods.
Studying theoretical sample complexity for distributional OPE with deep neural networks.
Implementing continuous quantile function estimation for reinforcement learning returns.

Strengths

Includes a rigorous sample complexity analysis for distributional OPE with deep neural networks.
Empirical studies show the method provides more precise and robust policy value estimates than standard methods.
The algorithm can estimate the full return distribution using the sample size required for a single policy value estimate by conventional methods.

Limitations

The dataset's row count and specific column structure are unknown, limiting suitability assessment.
Column-level documentation is absent; field semantics must be inferred after download.
The description is a paper abstract; actual data quality and format require manual inspection.

Provenance

Source: Qi Kuang via figshare
Collection Method: Likely contains research outputs, code, and documentation for the DQPOPE algorithm.
Freshness: Last updated 2026-05-18 14:09:47; freshness should be verified.

License is CC-BY-4.0. The 12.5 MB size suggests a small dataset, primarily containing paper and code files rather than large-scale training data.

Tabular ZIP Off Policy Evaluation Sample Complexity Benchmark Deep Neural Networks Quantile Regression Distributional Reinforcement Learning

DQPOPE: Distributional Off-Policy Evaluation with Deep Quantile Process Regression

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info