AI-Toolbox/Bandit_2Policies_2ThompsonSamplingPolicy_8hpp_source.html

#ifndef AI_TOOLBOX_BANDIT_THOMPSON_SAMPLING_POLICY_HEADER_FILE

#define AI_TOOLBOX_BANDIT_THOMPSON_SAMPLING_POLICY_HEADER_FILE


#include <random>


#include <AIToolbox/Bandit/Types.hpp>

#include <AIToolbox/Bandit/Experience.hpp>

#include <AIToolbox/Bandit/Policies/PolicyInterface.hpp>


namespace AIToolbox::Bandit {

    class ThompsonSamplingPolicy : public PolicyInterface {

        public:

            ThompsonSamplingPolicy(const Experience & exp);


            virtual size_t sampleAction() const override;


            virtual double getActionProbability(const size_t & a) const override;


            virtual Vector getPolicy() const override;


            const Experience & getExperience() const;


        private:

            const Experience & exp_;

    };

}


#endif