AI-Toolbox/Bandit_2Policies_2QGreedyPolicy_8hpp_source.html

#ifndef AI_TOOLBOX_BANDIT_Q_GREEDY_POLICY_HEADER_FILE

#define AI_TOOLBOX_BANDIT_Q_GREEDY_POLICY_HEADER_FILE


#include <AIToolbox/Bandit/Types.hpp>

#include <AIToolbox/Bandit/Policies/PolicyInterface.hpp>


namespace AIToolbox::Bandit {

    class QGreedyPolicy : public PolicyInterface {

        public:

            QGreedyPolicy(const QFunction & q);


            virtual size_t sampleAction() const override;


            virtual double getActionProbability(const size_t & a) const override;


            virtual Vector getPolicy() const override;


        private:

            const QFunction & q_;

            // To avoid reallocating a vector every time for sampling.

            mutable std::vector<size_t> bestActions_;

    };

}


#endif