AI-Toolbox/Factored_2Bandit_2Policies_2ThompsonSamplingPolicy_8hpp_source.html

#ifndef AI_TOOLBOX_FACTORED_BANDIT_THOMPSON_SAMPLING_POLICY_HEADER_FILE

#define AI_TOOLBOX_FACTORED_BANDIT_THOMPSON_SAMPLING_POLICY_HEADER_FILE


#include <random>


#include <AIToolbox/Factored/Bandit/Types.hpp>

#include <AIToolbox/Factored/Bandit/Experience.hpp>

#include <AIToolbox/Factored/Bandit/Policies/PolicyInterface.hpp>

#include <AIToolbox/Factored/Bandit/Algorithms/Utils/VariableElimination.hpp>


namespace AIToolbox::Factored::Bandit {

    class ThompsonSamplingPolicy : public PolicyInterface {

        public:

            ThompsonSamplingPolicy(const Experience & exp);


            virtual Action sampleAction() const override;


            virtual double getActionProbability(const Action & a) const override;


            static void setupGraph(const Experience & exp, VariableElimination::GVE::Graph & graph, RandomEngine & rnd);


            const Experience & getExperience() const;


        private:

            const Experience & exp_;

    };

}


#endif