C# (CSharp) MDP.statesの例

プログラミング言語: C# (CSharp)

クラス/型: MDP

メソッド/関数: states

hotexamples.comのコード掲載数: 1

C# (CSharp) MDP.states - 1件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたC# (CSharp)のMDP.statesの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

AddState(7)

AddTargetStates(7)

IsTerminalState(3)

GetAllActions(3)

ResetNonTargetState(3)

MinProbability(3)

MaxProbability(3)

getRewardFor(2)

getInitialState(2)

emptyMdp(2)

SetReward(2)

GetInitialState(2)

GetRewardFor(2)

EmptyMdp(2)

DefaultControl(2)

GetTransitionsWith(1)

CheckMatch(1)

updateBeta(1)

states(1)

randomPolicy(1)

predictThisState(1)

policyIteration(1)

policyEvaluation(1)

initialUtilityFunction(1)

init(1)

execute(1)

ComputeGCPP(1)

getAllActions(1)

InvalidateIfEmpty(1)

actions(1)

ValueIteration(1)

ToString(1)

SetTransitionProbability(1)

PostActivityFeed(1)

GetMySpaceInfo(1)

GetTransitionProbability(1)

valueIterationTillMAximumUtilityGrowthFallsBelowErrorMargin(1)

コード例 #1

ファイルを表示

ファイル: PassiveADPAgent.cs プロジェクト: bclgenki/tvn-cosine

        /**
         * Passive reinforcement learning based on adaptive dynamic programming.
         *
         * @param percept
         *            a percept indicating the current state s' and reward signal
         *            r'.
         * @return an action
         */

        public override A execute(IPerceptStateReward <S> percept)
        {
            // if s' is new then U[s'] <- r'; R[s'] <- r'
            S      sDelta = percept.state();
            double rDelta = percept.reward();

            if (!U.ContainsKey(sDelta))
            {
                U.Put(sDelta, rDelta);
                R.Put(sDelta, rDelta);
            }
            // if s is not null then
            if (null != s)
            {
                // increment N<sub>sa</sub>[s,a] and N<sub>s'|sa</sub>[s',s,a]
                Pair <S, A> sa = new Pair <S, A>(s, a);
                Nsa.incrementFor(sa);
                NsDelta_sa.incrementFor(new Pair <S, Pair <S, A> >(sDelta, sa));
                // for each t such that N<sub>s'|sa</sub>[t,s,a] is nonzero do
                foreach (S t in mdp.states())
                {
                    Pair <S, Pair <S, A> > t_sa = new Pair <S, Pair <S, A> >(t, sa);
                    if (0 != NsDelta_sa.getCount(t_sa))
                    {
                        // P(t|s,a) <- N<sub>s'|sa</sub>[t,s,a] /
                        // N<sub>sa</sub>[s,a]
                        P.Put(t_sa, (double)NsDelta_sa.getCount(t_sa)
                              / (double)Nsa.getCount(sa));
                    }
                }
            }
            // U <- POLICY-EVALUATION(&pi;, U, mdp)
            U = policyEvaluation.evaluate(pi, U, mdp);
            // if s'.TERMINAL? then s,a <- null else s,a <- s',&pi;[s']
            if (isTerminal(sDelta))
            {
                s = default(S);
                a = default(A);
            }
            else
            {
                s = sDelta;
                a = pi.Get(sDelta);
            }
            // return a
            return(a);
        }