AI-Toolbox/ESRLPolicy_8hpp_source.html

#ifndef AI_TOOLBOX_BANDIT_ESRL_POLICY_HEADER_FILE

#define AI_TOOLBOX_BANDIT_ESRL_POLICY_HEADER_FILE


#include <AIToolbox/Bandit/Policies/LRPPolicy.hpp>


namespace AIToolbox::Bandit {

    class ESRLPolicy : public PolicyInterface {

        public:

            ESRLPolicy(size_t A, double a, unsigned timesteps, unsigned explorationPhases, unsigned window);


            void stepUpdateP(size_t a, bool result);


            bool isExploiting() const;


            virtual size_t sampleAction() const override;


            virtual double getActionProbability(const size_t & a) const override;


            void setAParam(double a);


            double getAParam() const;


            void setTimesteps(unsigned t);


            unsigned getTimesteps() const;


            void setExplorationPhases(unsigned p);


            unsigned getExplorationPhases() const;


            void setWindowSize(unsigned window);


            unsigned getWindowSize() const;


            virtual Vector getPolicy() const override;


        private:

            // Whether we have learned enough to start exploiting.

            bool exploit_;

            size_t bestAction_;

            // Timesteps in current exploration phase in overall exploration phases.

            size_t timestep_, N_, explorations_, explorationPhases_;

            // Average value obtained in last window in the last exploration phase.

            double average_;

            size_t window_;


            // Values obtained for all actions.

            Vector values_;

            // Allowed actions in the current exploration phase.

            std::vector<size_t> allowedActions_;

            // Exploration learning policy to learn Nash equilibria.

            LRPPolicy lri_;

    };

}


#endif