C# (CSharp) IRLEnvironment.Step示例

编程语言: C# (CSharp)

类/类型: IRLEnvironment

方法/功能: Step

hotexamples.com的示例: 2

C# (CSharp) IRLEnvironment.Step - 已找到2个示例。这些是从开源项目中提取的最受好评的IRLEnvironment.Step现实C# (CSharp)示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

CurrentState(3)

CurrentStep(2)

IsEnd(2)

IsResolved(2)

LastReward(2)

Step(2)

示例#1

显示文件

        /// <summary>
        /// Step the enviormenet for training.
        /// </summary>
        /// <param name="environment"></param>
        public void Step(IRLEnvironment environment)
        {
            float[][] actions = new float[NumberOfActor][];


            float[] statesAll = new float[NumberOfActor * Model.StateSize];
            for (int i = 0; i < NumberOfActor; ++i)
            {
                var states = environment.CurrentState(i).CopyToArray();
                LastState[i] = states;
                Array.Copy(states, 0, statesAll, i * Model.StateSize, Model.StateSize);
            }

            if (Model.IsActionContinuous)
            {
                float[] actionProbs = null;
                float[] tempAction  = Model.EvaluateActionContinuous(statesAll, out actionProbs);
                for (int i = 0; i < NumberOfActor; ++i)
                {
                    actions[i] = new float[Model.ActionSize];
                    Array.Copy(tempAction, i * Model.ActionSize, actions[i], 0, Model.ActionSize);
                    LastAction[i]      = actions[i];
                    LastActionProbs[i] = new float[Model.ActionSize];
                    Array.Copy(actionProbs, i * Model.ActionSize, LastActionProbs[i], 0, Model.ActionSize);
                }
            }
            else
            {
                float[] actionProbs = null;
                int[]   tempAction  = Model.EvaluateActionDiscrete(statesAll, out actionProbs, true);
                for (int i = 0; i < NumberOfActor; ++i)
                {
                    actions[i]         = new float[] { tempAction[i] };
                    LastAction[i]      = actions[i];
                    LastActionProbs[i] = new float[] { actionProbs[i] };
                }
            }
            for (int i = 0; i < NumberOfActor; ++i)
            {
                LastValue[i] = Model.EvaluateValue(statesAll)[i];
            }

            environment.Step(actions);
            Steps++;
        }

示例#2

显示文件

文件： Trainers.DQL.cs 项目： floAr/CNTKUnityTools

        /// <summary>
        /// Step the enviormenet for training.
        /// </summary>
        /// <param name="environment"></param>
        public void Step(IRLEnvironment environment)
        {
            float[][] actions = new float[NumberOfActor][];

            float[] statesAll = new float[NumberOfActor * Model.StateSize];
            for (int i = 0; i < NumberOfActor; ++i)
            {
                var states = environment.CurrentState(i).CopyToArray();
                LastState[i] = states;
                Array.Copy(states, 0, statesAll, i * Model.StateSize, Model.StateSize);
            }

            bool random = UnityEngine.Random.Range(0, 1.0f) < CurrentRandomChance;

            if (random)
            {
                for (int i = 0; i < NumberOfActor; ++i)
                {
                    actions[i]    = new float[] { UnityEngine.Random.Range(0, Model.ActionSize) };
                    LastAction[i] = Mathf.RoundToInt(actions[i][0]);
                }
            }
            else
            {
                float[] maxQs;
                int[]   tempAction = Model.EvaluateAction(statesAll, out maxQs);

                for (int i = 0; i < NumberOfActor; ++i)
                {
                    actions[i]    = new float[] { tempAction[i] };
                    LastAction[i] = tempAction[i];
                }
            }

            environment.Step(actions);
            Steps++;
        }