C# (CSharp) ReinforcementLearningState.GetActionsの例

プログラミング言語: C# (CSharp)

メソッド/関数: GetActions

hotexamples.comのコード掲載数: 2

C# (CSharp) ReinforcementLearningState.GetActions - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたC# (CSharp)のReinforcementLearningState.GetActionsの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

GetActions(2)

よく使われるメソッド

GetActions (2)

コード例 #1

ファイルを表示

ファイル: ReinforcementLearningController.cs プロジェクト: hunsteve/RLResearch

        public override void ActionProbabilities(ReinforcementLearningState state, ReinforcementLearningQStore qFunction, out ReinforcementLearningAction[] actions, out float[] probabilities)
        {
            ReinforcementLearningAction action;
            float utility;

            actions = state.GetActions();
            probabilities = new float[actions.Length];

            qFunction.GetBestActionAndUtilityForState(state, out action, out utility);

            for (int i = 0; i < actions.Length; ++i)
            {
                if (actions[i].Equals(action))
                {
                    probabilities[i] = Epsilon;
                }
                else probabilities[i] = (1 - Epsilon) / (actions.Length - 1);
            }            
        }

コード例 #2

ファイルを表示

ファイル: ReinforcementLearningController.cs プロジェクト: hunsteve/RLResearch

        public override void ActionProbabilities(ReinforcementLearningState state, ReinforcementLearningQStore qFunction, out ReinforcementLearningAction[] actions, out float[] probabilities)
        {
            actions = state.GetActions();
            probabilities = new float[actions.Length];
            float maxq = float.MinValue;
            for(int i=0; i<actions.Length; ++i)
            {
                float q = qFunction.Evaluate(state, actions[i]);
                probabilities[i] = q;
                if (q > maxq) maxq = q;
            }

            float sum = 0;

            for (int i = 0; i < actions.Length; ++i)
            {
                probabilities[i] = (float)Math.Exp((probabilities[i] - maxq) / Temperature);
                sum += probabilities[i];                
            }

            for (int i = 0; i < actions.Length; ++i)
            {
                probabilities[i] /= sum;                
            }
        }