C# (CSharp) PPOModel 예제들

프로그래밍 언어: C# (CSharp)

클래스/타입: PPOModel

hotexamples.com에서의 예제들: 3

C# (CSharp) PPOModel - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 C# (CSharp)의 PPOModel에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Restore(1)

Save(1)

예제 #1

파일 보기

파일: test_ppo.cs 프로젝트: kristinacovington/unity-ml-agents.net

        public void test_ppo_model_dc_vector()
        {
            tf.reset_default_graph();

            tf_with(tf.variable_scope("FakeGraphScope"), delegate
            {
                model = new PPOModel(make_brain_parameters(discrete_action: true, visual_inputs: 0));
                init  = tf.global_variables_initializer();
            });

            using (var sess = tf.Session())
            {
                sess.run(init);
                var results = sess.run
                              (
                    // run list
                    (model.output,
                     model.all_log_probs,
                     model.value,
                     model.entropy,
                     model.learning_rate),
                    // feed dict
                    (model.batch_size, 2),
                    (model.sequence_length, 1),
                    (model.vector_in, np.array(new int[, ] {
                    { 1, 2, 3, 1, 2, 3 }, { 3, 4, 5, 3, 4, 5 }
                })),
                    (model.action_masks, np.ones((2, 2)))
                              );

                print(results);
            }
        }

예제 #2

파일 보기

파일: Ball3DRunner.cs 프로젝트: tcmxx/CNTKUnityTools

    // Use this for initialization
    void Start()
    {
        PPONetworkContinuousSimple network;

        if (environment.is3D)
        {
            network             = new PPONetworkContinuousSimple(8, 2, 2, 32, DeviceDescriptor.CPUDevice, 0.01f);
            model               = new PPOModel(network);
            trainer             = new TrainerPPOSimple(model, LearnerDefs.AdamLearner(learningRate), 1, 10000, 200);
            trainer.ClipEpsilon = 0.1f;
        }
        else
        {
            network = new PPONetworkContinuousSimple(5, 2, 2, 32, DeviceDescriptor.CPUDevice, 0.01f);
            model   = new PPOModel(network);
            trainer = new TrainerPPOSimple(model, LearnerDefs.AdamLearner(learningRate), 1, 10000, 200);
        }



        //test
        //trainer.RewardDiscountFactor = 0.5f;

        loss            = new AutoAverage(iterationForEachTrain);
        episodePointAve = new AutoAverage(episodeToRunForEachTrain);
    }

예제 #3

파일 보기

파일: PongPPORunner.cs 프로젝트: tcmxx/CNTKUnityTools

    // Use this for initialization
    void Start()
    {
        var network = new PPONetworkDiscreteSimple(6, 3, 4, 64, DeviceDescriptor.CPUDevice, 0.01f);

        model   = new PPOModel(network);
        trainer = new TrainerPPOSimple(model, LearnerDefs.AdamLearner(learningRate), 1, 50000, 2000);

        //test
        //trainer.RewardDiscountFactor = 0.5f;

        loss            = new AutoAverage(iterationForEachTrain);
        episodePointAve = new AutoAverage(episodeToRunForEachTrain);
    }