Ejemplos de MDP.SetReward en C# (CSharp)

Lenguaje de programación: C# (CSharp)

Clase / Tipo: MDP

Método / Función: SetReward

Ejemplos en hotexamples.com: 2

C# (CSharp) MDP.SetReward - 2 ejemplos encontrados. Estos son los ejemplos en C# (CSharp) del mundo real mejor valorados de MDP.SetReward extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

AddState(7)

AddTargetStates(7)

IsTerminalState(3)

GetAllActions(3)

ResetNonTargetState(3)

MinProbability(3)

MaxProbability(3)

getRewardFor(2)

getInitialState(2)

emptyMdp(2)

SetReward(2)

GetInitialState(2)

GetRewardFor(2)

EmptyMdp(2)

DefaultControl(2)

GetTransitionsWith(1)

CheckMatch(1)

updateBeta(1)

states(1)

randomPolicy(1)

predictThisState(1)

policyIteration(1)

policyEvaluation(1)

initialUtilityFunction(1)

init(1)

execute(1)

ComputeGCPP(1)

getAllActions(1)

InvalidateIfEmpty(1)

actions(1)

ValueIteration(1)

ToString(1)

SetTransitionProbability(1)

PostActivityFeed(1)

GetMySpaceInfo(1)

GetTransitionProbability(1)

valueIterationTillMAximumUtilityGrowthFallsBelowErrorMargin(1)

Ejemplo n.º 1

Mostrar archivo

Archivo: PassiveTDAgent.cs Proyecto: hackerlank/trunk-chatbot

        public override TAction DecideAction(MDPPerception <TState> perception)
        {
            if (!(utilityFunction.HasUtilityFor(perception.GetState())))
            { // if
                // perceptionState
                // is
                // new
                utilityFunction.SetUtility(perception.GetState(), perception.GetReward());
                MDP.SetReward(perception.GetState(), perception.GetReward());
            }
            if (!(PreviousState == null))
            {
                stateCount.IncrementFor(PreviousState);
                utilityFunction = this.UpdateUtilityFunction(1.0);
            }

            if (MDP.IsTerminalState(CurrentState))
            {
                PreviousState  = null;
                PreviousAction = null;
                //TODO: make sure that 0 is appropriate value for what used to be null in java
                previousReward = 0;
            }
            else
            {
                PreviousState  = CurrentState;
                PreviousAction = policy.GetAction(CurrentState);
                previousReward = CurrentReward;
            }
            return(PreviousAction);
        }

Ejemplo n.º 2

Mostrar archivo

        public override TAction DecideAction(MDPPerception <TState> perception)
        {
            if (!(utilityFunction.HasUtilityFor(perception.GetState())))
            { // if
                // perceptionState
                // is
                // new
                utilityFunction.SetUtility(perception.GetState(), perception
                                           .GetReward());
                MDP.SetReward(perception.GetState(), perception.GetReward());
            }
            if (!(PreviousState == null))
            {
                if (nsa.ContainsKey(new Pair <TState, TAction>(
                                        PreviousState, PreviousAction)))
                {
                    nsa[new Pair <TState, TAction>(PreviousState, PreviousAction)] += 1;
                }
                else
                {
                    nsa[new Pair <TState, TAction>(PreviousState, PreviousAction)] = 1.0;
                }
                if (nsasdash.ContainsKey(new MDPTransition <TState, TAction>(PreviousState, PreviousAction, CurrentState)))
                {
                    nsasdash[new MDPTransition <TState, TAction>(PreviousState, PreviousAction, CurrentState)] += 1;
                }
                else
                {
                    nsasdash[new MDPTransition <TState, TAction>(PreviousState, PreviousAction, CurrentState)] = 1.0;
                }

                foreach (MDPTransition <TState, TAction> transition in nsasdash.Keys)
                {
                    if (nsasdash[transition] != 0.0)
                    {
                        double newValue = nsasdash[transition]
                                          / nsa[new Pair <TState, TAction>(
                                                    transition.GetInitialState(), transition.GetAction())];
                        MDP.SetTransitionProbability(transition, newValue);
                    }
                }
                IList <MDPTransition <TState, TAction> > validTransitions = MDP
                                                                            .GetTransitionsWith(PreviousState, policy.GetAction(PreviousState));
                utilityFunction = this.ValueDetermination(validTransitions, 1);
            }

            if (MDP.IsTerminalState(CurrentState))
            {
                PreviousState  = null;
                PreviousAction = null;
            }
            else
            {
                PreviousState  = CurrentState;
                PreviousAction = policy.GetAction(CurrentState);
            }
            return(PreviousAction);
        }