C# (CSharp) QTable.AddOrUpdate 예제들

프로그래밍 언어: C# (CSharp)

클래스/타입: QTable

메소드/함수: AddOrUpdate

hotexamples.com에서의 예제들: 3

C# (CSharp) QTable.AddOrUpdate - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 C# (CSharp)의 QTable.AddOrUpdate에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

AddKey(2)

AddOrUpdate(2)

ContainsKey(2)

First(2)

FirstAsync(2)

FirstOrDefault(2)

FirstOrDefaultAsync(2)

GetColumnIndex(2)

AddScaledValues(1)

예제 #1

파일 보기

        /// <summary>
        /// Generates a <see cref="QLearnerModel"/> based on states/actions with transitions and rewards.
        /// </summary>
        /// <param name="X1">Initial State matrix.</param>
        /// <param name="y">Action label vector.</param>
        /// <param name="X2">Transition State matrix.</param>
        /// <param name="r">Reward values.</param>
        /// <returns>QLearnerModel.</returns>
        public override IReinforcementModel Generate(Matrix X1, Vector y, Matrix X2, Vector r)
        {
            this.Preprocess(X1, y, X2, r);

            var examples = MDPConverter.GetStates(X1, y, X2, this.FeatureProperties, this.FeatureDiscretizer);

            var states = examples.Item1; var actions = examples.Item2; var statesP = examples.Item3;

            QTable Q = new QTable();

            // construct Q table
            for (int i = 0; i < states.Count(); i++)
            {
                var state  = states.ElementAt(i);
                var action = actions.ElementAt(i);
                var stateP = statesP.ElementAt(i);

                Q.AddOrUpdate(state, action, r[i]);

                if (!Q.ContainsKey(stateP))
                {
                    Q.AddKey(stateP);
                }
            }

            double count = states.Select(s => s.Id).Distinct().Count();

            double change = 0;

            for (int pass = 0; pass < this.MaxIterations; pass++)
            {
                change = 0;

                for (int i = 0; i < states.Count(); i++)
                {
                    IState  state  = states.ElementAt(i);
                    IAction action = actions.ElementAt(i);
                    IState  stateP = statesP.ElementAt(i);
                    double  reward = r[i];

                    double q = (1.0 - this.LearningRate) * Q[state, action]
                               + this.LearningRate * (reward + this.Lambda * Q[stateP, Q.GetMaxAction(stateP)]);

                    change += (1.0 / count) * System.Math.Abs((Q[state, action] - q));

                    Q[state, action] = q;
                }

                if (change <= this.Epsilon)
                {
                    break;
                }
            }

            return(new QLearnerModel()
            {
                Descriptor = this.Descriptor,
                TransitionDescriptor = this.TransitionDescriptor,
                NormalizeFeatures = this.NormalizeFeatures,
                FeatureNormalizer = this.FeatureNormalizer,
                FeatureProperties = this.FeatureProperties,
                FeatureDiscretizer = this.FeatureDiscretizer,
                LearningRate = this.LearningRate,
                Lambda = this.Lambda,
                Q = Q
            });
        }

예제 #2

파일 보기

파일: QLearnerGenerator.cs 프로젝트: sethjuarez/numl

        /// <summary>
        /// Generates a <see cref="QLearnerModel"/> based on states/actions with transitions and rewards.
        /// </summary>
        /// <param name="X1">Initial State matrix.</param>
        /// <param name="y">Action label vector.</param>
        /// <param name="X2">Transition State matrix.</param>
        /// <param name="r">Reward values.</param>
        /// <returns>QLearnerModel.</returns>
        public override IReinforcementModel Generate(Matrix X1, Vector y, Matrix X2, Vector r)
        {
            this.Preprocess(X1, y, X2, r);

            var examples = MDPConverter.GetStates(X1, y, X2, this.FeatureProperties, this.FeatureDiscretizer);

            var states = examples.Item1; var actions = examples.Item2; var statesP = examples.Item3;

            QTable Q = new QTable();

            // construct Q table
            for (int i = 0; i < states.Count(); i++)
            {
                var state = states.ElementAt(i);
                var action = actions.ElementAt(i);
                var stateP = statesP.ElementAt(i);

                Q.AddOrUpdate(state, action, r[i]);

                if (!Q.ContainsKey(stateP))
                    Q.AddKey(stateP);
            }

            double count = states.Select(s => s.Id).Distinct().Count();

            double change = 0;
            for (int pass = 0; pass < this.MaxIterations; pass++)
            {
                change = 0;

                for (int i = 0; i < states.Count(); i++)
                {
                    IState state = states.ElementAt(i);
                    IAction action = actions.ElementAt(i);
                    IState stateP = statesP.ElementAt(i);
                    double reward = r[i];

                    double q = (1.0 - this.LearningRate) * Q[state, action]
                                        + this.LearningRate * (reward + this.Lambda * Q[stateP, Q.GetMaxAction(stateP)]);

                    change += (1.0 / count) * System.Math.Abs((Q[state, action] - q));

                    Q[state, action] = q;
                }

                if (change <= this.Epsilon)
                    break;
            }

            return new QLearnerModel()
            {
                Descriptor = this.Descriptor,
                TransitionDescriptor = this.TransitionDescriptor,
                NormalizeFeatures = this.NormalizeFeatures,
                FeatureNormalizer = this.FeatureNormalizer,
                FeatureProperties = this.FeatureProperties,
                FeatureDiscretizer = this.FeatureDiscretizer,
                LearningRate = this.LearningRate,
                Lambda = this.Lambda,
                Q = Q
            };
        }

예제 #3

파일 보기

        /// <summary>
        ///   Generates a <see cref="QLearnerModel" /> based on states/actions with transitions and rewards.
        /// </summary>
        /// <param name="X1">Initial State matrix.</param>
        /// <param name="y">Action label vector.</param>
        /// <param name="X2">Transition State matrix.</param>
        /// <param name="r">Reward values.</param>
        /// <returns>QLearnerModel.</returns>
        public override IReinforcementModel Generate(Matrix X1, Vector y, Matrix X2, Vector r)
        {
            Preprocess(X1, y, X2, r);

            var examples = MDPConverter.GetStates(X1, y, X2, FeatureProperties, FeatureDiscretizer);

            var states  = examples.Item1;
            var actions = examples.Item2;
            var statesP = examples.Item3;

            var Q = new QTable();

            // construct Q table
            for (var i = 0; i < states.Count(); i++)
            {
                var state  = states.ElementAt(i);
                var action = actions.ElementAt(i);
                var stateP = statesP.ElementAt(i);

                Q.AddOrUpdate(state, action, r[i]);

                if (!Q.ContainsKey(stateP))
                {
                    Q.AddKey(stateP);
                }
            }

            double count = states.Select(s => s.Id).Distinct().Count();

            for (var pass = 0; pass < MaxIterations; pass++)
            {
                double change = 0;

                for (var i = 0; i < states.Count(); i++)
                {
                    var state  = states.ElementAt(i);
                    var action = actions.ElementAt(i);
                    var stateP = statesP.ElementAt(i);
                    var reward = r[i];

                    var q = (1.0 - LearningRate) * Q[state, action]
                            + LearningRate * (reward + Lambda * Q[stateP, Q.GetMaxAction(stateP)]);

                    change += 1.0 / count * System.Math.Abs(Q[state, action] - q);

                    Q[state, action] = q;
                }

                if (change <= Epsilon)
                {
                    break;
                }
            }

            return(new QLearnerModel
            {
                Descriptor = Descriptor,
                TransitionDescriptor = TransitionDescriptor,
                NormalizeFeatures = NormalizeFeatures,
                FeatureNormalizer = FeatureNormalizer,
                FeatureProperties = FeatureProperties,
                FeatureDiscretizer = FeatureDiscretizer,
                LearningRate = LearningRate,
                Lambda = Lambda,
                Q = Q
            });
        }