C# (CSharp) TokenSampleStream 예제들

프로그래밍 언어: C# (CSharp)

클래스/타입: TokenSampleStream

hotexamples.com에서의 예제들: 5

C# (CSharp) TokenSampleStream - 5개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 C# (CSharp)의 TokenSampleStream에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: TokenizerTestUtil.cs 프로젝트: lovethisgame/SharpNL

 public static TokenizerModel CreateMaxentTokenModel() {
     using (var data = Tests.OpenFile("/opennlp/tools/tokenize/token.train")) {
         var samples = new TokenSampleStream(new PlainTextByLineStream(data));
         var mlParams = new TrainingParameters();
         mlParams.Set(Parameters.Iterations, "100");
         mlParams.Set(Parameters.Cutoff, "0");
         return TokenizerME.Train(samples, new TokenizerFactory("en", null, true), mlParams);
     }
 }

예제 #2

파일 보기

파일: TokenizerTestUtil.cs 프로젝트: qooba/SharpNL

 public static TokenizerModel CreateMaxentTokenModel()
 {
     using (var data = Tests.OpenFile("/opennlp/tools/tokenize/token.train")) {
         var samples  = new TokenSampleStream(new PlainTextByLineStream(data));
         var mlParams = new TrainingParameters();
         mlParams.Set(Parameters.Iterations, "100");
         mlParams.Set(Parameters.Cutoff, "0");
         return(TokenizerME.Train(samples, new TokenizerFactory("en", null, true), mlParams));
     }
 }

예제 #3

파일 보기

        public static TokenizerModel TrainModel(string path)
        {
            FileStream        fs     = new FileStream(path, FileMode.Open, FileAccess.Read);
            TokenSampleStream stream = new TokenSampleStream(new PlainTextByLineStream(fs));

            TrainingParameters trainParams = new TrainingParameters();

            trainParams.Set(Parameters.Iterations, "100");
            trainParams.Set(Parameters.Cutoff, "0");

            return(TokenizerME.Train(stream, new TokenizerFactory(TRAINING_LANGUAGE, null, true), trainParams));
        }

예제 #4

파일 보기

        public void TestCrossCompatibility()
        {
            using (var data = Tests.OpenFile("/opennlp/tools/tokenize/token.train")) {
                var samples  = new TokenSampleStream(new PlainTextByLineStream(data));
                var mlParams = new TrainingParameters();
                mlParams.Set(Parameters.Iterations, "100");
                mlParams.Set(Parameters.Cutoff, "0");
                var model = TokenizerME.Train(samples, new TokenizerFactory("en", null, true), mlParams);

                var sMe = new TokenizerME(model);

                TokenizerMETest.TestTokenizer(sMe);

                var sProbs = sMe.TokenProbabilities;

                // --- java \/

                var sFile = Path.GetTempFileName();

                model.Serialize(new FileStream(sFile, FileMode.Create));

                var jModel = new opennlp.tools.tokenize.TokenizerModel(
                    OpenNLP.CreateInputStream(sFile)
                    );

                var jMe = new opennlp.tools.tokenize.TokenizerME(jModel);

                TestJavaTokenizer(jMe);

                var jProbs = jMe.getTokenProbabilities();

                Assert.AreEqual(jProbs.Length, sProbs.Length);

                for (int i = 0; i < jProbs.Length; i++)
                {
                    // one difference :(
                    // -0.00000000000000011102230246251565
                    //
                    // but still "insignificant" :)
                    Assert.AreEqual(jProbs[i], sProbs[i], 0.0000000001d);
                }
            }
        }

예제 #5

파일 보기

파일: TokenizerTest.cs 프로젝트: lovethisgame/SharpNL

        public void TestCrossCompatibility() {
            using (var data = Tests.OpenFile("/opennlp/tools/tokenize/token.train")) {
                var samples = new TokenSampleStream(new PlainTextByLineStream(data));
                var mlParams = new TrainingParameters();
                mlParams.Set(Parameters.Iterations, "100");
                mlParams.Set(Parameters.Cutoff, "0");
                var model = TokenizerME.Train(samples, new TokenizerFactory("en", null, true), mlParams);

                var sMe = new TokenizerME(model);

                TokenizerMETest.TestTokenizer(sMe);

                var sProbs = sMe.TokenProbabilities;

                // --- java \/

                var sFile = Path.GetTempFileName();

                model.Serialize(new FileStream(sFile, FileMode.Create));

                var jModel = new opennlp.tools.tokenize.TokenizerModel(
                    OpenNLP.CreateInputStream(sFile) 
                );

                var jMe = new opennlp.tools.tokenize.TokenizerME(jModel);

                TestJavaTokenizer(jMe);

                var jProbs = jMe.getTokenProbabilities();

                Assert.AreEqual(jProbs.Length, sProbs.Length);

                for (int i = 0; i < jProbs.Length; i++) {

                    // one difference :(
                    // -0.00000000000000011102230246251565
                    //
                    // but still "insignificant" :)
                    Assert.AreEqual(jProbs[i], sProbs[i], 0.0000000001d);
                }
            }
        }