C# (CSharp) Aima.Core.Probability.Decision MDPPolicyの例

プログラミング言語: C# (CSharp)

名前空間/パッケージ名: Aima.Core.Probability.Decision

クラス/型: MDPPolicy

hotexamples.comのコード掲載数: 4

C# (CSharp) Aima.Core.Probability.Decision MDPPolicy - 4件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたC# (CSharp)のAima.Core.Probability.Decision.MDPPolicyの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

GetAction(1)

コード例 #1

ファイルを表示

ファイル: MDP.cs プロジェクト: hackerlank/trunk-chatbot

        public MDPPolicy <TState, TAction> RandomPolicy()
        {
            var policy = new MDPPolicy <TState, TAction>();

            foreach (var s in nonFinalstates)
            {
                policy.SetAction(s, transitionModel.RandomActionFor(s));
            }
            return(policy);
        }

コード例 #2

ファイルを表示

ファイル: MDP.cs プロジェクト: hackerlank/trunk-chatbot

        public MDPUtilityFunction <TState> PolicyEvaluation(
            MDPPolicy <TState, TAction> pi,
            MDPUtilityFunction <TState> u, double gamma, int iterations)
        {
            var uDash = u.Copy();

            for (var i = 0; i < iterations; i++)
            {
                uDash = this.ValueIterateOnceWith(gamma, pi, uDash);
            }
            return(uDash);
        }

コード例 #3

ファイルを表示

        public Pair <TAction, double> GetTransitionWithMaximumExpectedUtilityUsingPolicy(
            MDPPolicy <TState, TAction> policy, TState s,
            MDPUtilityFunction <TState> uf)
        {
            if ((IsTerminal(s)))
            {
                return(new Pair <TAction, Double>(null, 0.0));
            }
            var transitionsWithStartingStateSAndActionFromPolicy = this.GetTransitionsWithStartingStateAndAction(
                s, policy.GetAction(s));
            Dictionary <TAction, Double> actionsToUtilities = GetExpectedUtilityForSelectedTransitions(
                transitionsWithStartingStateSAndActionFromPolicy, uf);

            return(this.GetActionWithMaximumUtility(actionsToUtilities));
        }

コード例 #4

ファイルを表示

ファイル: MDP.cs プロジェクト: hackerlank/trunk-chatbot

        private MDPUtilityFunction <TState> ValueIterateOnceWith(double gamma,
                                                                 MDPPolicy <TState, TAction> pi,
                                                                 MDPUtilityFunction <TState> U)
        {
            MDPUtilityFunction <TState> uDash = U.Copy();

            foreach (var s in this.nonFinalstates)
            {
                var highestPolicyTransition =
                    this.transitionModel.GetTransitionWithMaximumExpectedUtilityUsingPolicy(pi, s, U);
                double utility = rewardFunction.GetRewardFor(s)
                                 + (gamma * highestPolicyTransition.GetSecond());
                uDash.SetUtility(s, utility);
            }
            // TODO: debugging code
            // System.out.println("ValueIterationOnce before " + U);
            // System.out.println("ValueIterationOnce after " + U_dash);
            return(uDash);
        }