LowerCaseTokenizer C# (CSharp) Code Examples

Example #1

0

Show file

File: PayloadHelper.cs Project: vivekshimpi01/lucene.net

            public override TokenStream TokenStream(System.String fieldName, System.IO.TextReader reader)
            {
                TokenStream result = new LowerCaseTokenizer(reader);

                result = new PayloadFilter(enclosingInstance, result, fieldName);
                return(result);
            }

Example #2

0

Show file

File: TestAnalyzers.cs Project: zfxsss/lucenenet

        public virtual void testLowerCaseTokenizerBWCompat()
        {
            StringReader       reader    = new StringReader("Tokenizer \ud801\udc1ctest");
            LowerCaseTokenizer tokenizer = new LowerCaseTokenizer(Version.LUCENE_30, reader);

            assertTokenStreamContents(tokenizer, new string[] { "tokenizer", "test" });
        }

Example #3

0

Show file

File: TestAnalyzers.cs Project: zfxsss/lucenenet

//JAVA TO C# CONVERTER WARNING: Method 'throws' clauses are not available in .NET:
//ORIGINAL LINE: public void testLowerCaseTokenizer() throws java.io.IOException
        public virtual void testLowerCaseTokenizer()
        {
            StringReader       reader    = new StringReader("Tokenizer \ud801\udc1ctest");
            LowerCaseTokenizer tokenizer = new LowerCaseTokenizer(TEST_VERSION_CURRENT, reader);

            assertTokenStreamContents(tokenizer, new string[] { "tokenizer", "\ud801\udc44test" });
        }

Example #4

0

Show file

File: StemmedEnglishAnalyzer.cs Project: yohsii/puck-core

        protected override TokenStreamComponents CreateComponents(string fieldName, TextReader reader)
        {
            Tokenizer lowerCaseTokenizer = new LowerCaseTokenizer(LuceneVersion.LUCENE_48, reader);

            PorterStemFilter porterStemFilter = new PorterStemFilter(lowerCaseTokenizer);

            StopFilter stopFilter = new StopFilter(LuceneVersion.LUCENE_48, porterStemFilter, EnglishAnalyzer.DefaultStopSet);

            return(new TokenStreamComponents(lowerCaseTokenizer, stopFilter));
        }

Example #5

0

Show file

        /*
         * tests the max word length of 255 - tokenizer will split at the 255 char no matter what happens
         */
//JAVA TO C# CONVERTER WARNING: Method 'throws' clauses are not available in .NET:
//ORIGINAL LINE: public void testMaxWordLength() throws java.io.IOException
        public virtual void testMaxWordLength()
        {
            StringBuilder builder = new StringBuilder();

            for (int i = 0; i < 255; i++)
            {
                builder.Append("A");
            }
            Tokenizer tokenizer = new LowerCaseTokenizer(TEST_VERSION_CURRENT, new StringReader(builder.ToString() + builder.ToString()));

            assertTokenStreamContents(tokenizer, new string[] { builder.ToString().ToLower(Locale.ROOT), builder.ToString().ToLower(Locale.ROOT) });
        }

Example #6

0

Show file

File: TestCharTokenizers.cs Project: zalintyre/lucenenet

        public virtual void TestMaxWordLength()
        {
            var builder = new StringBuilder();

            for (var i = 0; i < 255; i++)
            {
                builder.Append("A");
            }
            var tokenizer = new LowerCaseTokenizer(TEST_VERSION_CURRENT, new StringReader(builder.ToString() + builder.ToString()));

            AssertTokenStreamContents(tokenizer, new[] { builder.ToString().ToLowerInvariant(), builder.ToString().ToLowerInvariant() });
        }

Example #7

0

Show file

File: SimpleAnalyzer.cs Project: modulexcite/Xamarin-Lucene.Net

		public override TokenStream ReusableTokenStream(System.String fieldName, System.IO.TextReader reader)
		{
			var tokenizer = (Tokenizer) PreviousTokenStream;
			if (tokenizer == null)
			{
				tokenizer = new LowerCaseTokenizer(reader);
				PreviousTokenStream = tokenizer;
			}
			else
				tokenizer.Reset(reader);
			return tokenizer;
		}

Example #8

0

Show file

        /*
         * test to extend the buffer TermAttribute buffer internally. If the internal
         * alg that extends the size of the char array only extends by 1 char and the
         * next char to be filled in is a supplementary codepoint (using 2 chars) an
         * index out of bound exception is triggered.
         */
//JAVA TO C# CONVERTER WARNING: Method 'throws' clauses are not available in .NET:
//ORIGINAL LINE: public void testExtendCharBuffer() throws java.io.IOException
        public virtual void testExtendCharBuffer()
        {
            for (int i = 0; i < 40; i++)
            {
                StringBuilder builder = new StringBuilder();
                for (int j = 0; j < 1 + i; j++)
                {
                    builder.Append("a");
                }
                builder.Append("\ud801\udc1cabc");
                Tokenizer tokenizer = new LowerCaseTokenizer(TEST_VERSION_CURRENT, new StringReader(builder.ToString()));
                assertTokenStreamContents(tokenizer, new string[] { builder.ToString().ToLower(Locale.ROOT) });
            }
        }

Example #9

0

Show file

File: TestCharTokenizers.cs Project: ChristopherHaws/lucenenet

 public virtual void TestExtendCharBuffer()
 {
     for (var i = 0; i < 40; i++)
     {
         var builder = new StringBuilder();
         for (int j = 0; j < 1 + i; j++)
         {
             builder.Append("a");
         }
         builder.Append("\ud801\udc1cabc");
         var tokenizer = new LowerCaseTokenizer(TEST_VERSION_CURRENT, new StringReader(builder.ToString()));
         AssertTokenStreamContents(tokenizer, new[] { builder.ToString().ToLowerInvariant() });
     }
 }

Example #10

0

Show file

File: TestCharTokenizers.cs Project: scottwum/lucenenet

	  /*
	   * test to extend the buffer TermAttribute buffer internally. If the internal
	   * alg that extends the size of the char array only extends by 1 char and the
	   * next char to be filled in is a supplementary codepoint (using 2 chars) an
	   * index out of bound exception is triggered.
	   */
//JAVA TO C# CONVERTER WARNING: Method 'throws' clauses are not available in .NET:
//ORIGINAL LINE: public void testExtendCharBuffer() throws java.io.IOException
	  public virtual void testExtendCharBuffer()
	  {
		for (int i = 0; i < 40; i++)
		{
		  StringBuilder builder = new StringBuilder();
		  for (int j = 0; j < 1 + i; j++)
		  {
			builder.Append("a");
		  }
		  builder.Append("\ud801\udc1cabc");
		  Tokenizer tokenizer = new LowerCaseTokenizer(TEST_VERSION_CURRENT, new StringReader(builder.ToString()));
		  assertTokenStreamContents(tokenizer, new string[] {builder.ToString().ToLower(Locale.ROOT)});
		}
	  }

Example #11

0

Show file

File: TestCharTokenizers.cs Project: zalintyre/lucenenet

 public virtual void TestExtendCharBuffer()
 {
     for (var i = 0; i < 40; i++)
     {
         var builder = new StringBuilder();
         for (int j = 0; j < 1 + i; j++)
         {
             builder.Append("a");
         }
         builder.Append("\ud801\udc1cabc");
         var tokenizer = new LowerCaseTokenizer(TEST_VERSION_CURRENT, new StringReader(builder.ToString()));
         AssertTokenStreamContents(tokenizer, new[] { builder.ToString().ToLowerInvariant() });
     }
 }

Example #12

0

Show file

File: SimpleAnalyzer.cs Project: thinhtp/liteweb.info

        public override TokenStream ReusableTokenStream(System.String fieldName, System.IO.TextReader reader)
        {
            Tokenizer tokenizer = (Tokenizer)GetPreviousTokenStream();

            if (tokenizer == null)
            {
                tokenizer = new LowerCaseTokenizer(reader);
                SetPreviousTokenStream(tokenizer);
            }
            else
            {
                tokenizer.Reset(reader);
            }
            return(tokenizer);
        }

Example #13

0

Show file

File: SimpleAnalyzer.cs Project: rmcrackan/LuceneNet303r2

        public override TokenStream ReusableTokenStream(string fieldName, System.IO.TextReader reader)
        {
            var tokenizer = (Tokenizer)PreviousTokenStream;

            if (tokenizer == null)
            {
                tokenizer           = new LowerCaseTokenizer(reader);
                PreviousTokenStream = tokenizer;
            }
            else
            {
                tokenizer.Reset(reader);
            }
            return(tokenizer);
        }

Example #14

0

Show file

File: TestCharTokenizers.cs Project: ChristopherHaws/lucenenet

 public virtual void TestReadSupplementaryChars()
 {
     var builder = new StringBuilder();
     // create random input
     var num = 1024 + Random().Next(1024);
     num *= RANDOM_MULTIPLIER;
     for (var i = 1; i < num; i++)
     {
         builder.Append("\ud801\udc1cabc");
         if ((i % 10) == 0)
         {
             builder.Append(" ");
         }
     }
     // internal buffer size is 1024 make sure we have a surrogate pair right at the border
     builder.Insert(1023, "\ud801\udc1c");
     var tokenizer = new LowerCaseTokenizer(TEST_VERSION_CURRENT, new StringReader(builder.ToString()));
     AssertTokenStreamContents(tokenizer, builder.ToString().ToLowerInvariant().Split(new char[] { ' ' }, StringSplitOptions.RemoveEmptyEntries));
 }

Example #15

0

Show file

File: TestCharTokenizers.cs Project: scottwum/lucenenet

	  /*
	   * test to read surrogate pairs without loosing the pairing 
	   * if the surrogate pair is at the border of the internal IO buffer
	   */
//JAVA TO C# CONVERTER WARNING: Method 'throws' clauses are not available in .NET:
//ORIGINAL LINE: public void testReadSupplementaryChars() throws java.io.IOException
	  public virtual void testReadSupplementaryChars()
	  {
		StringBuilder builder = new StringBuilder();
		// create random input
		int num = 1024 + random().Next(1024);
		num *= RANDOM_MULTIPLIER;
		for (int i = 1; i < num; i++)
		{
		  builder.Append("\ud801\udc1cabc");
		  if ((i % 10) == 0)
		  {
			builder.Append(" ");
		  }
		}
		// internal buffer size is 1024 make sure we have a surrogate pair right at the border
		builder.Insert(1023, "\ud801\udc1c");
		Tokenizer tokenizer = new LowerCaseTokenizer(TEST_VERSION_CURRENT, new StringReader(builder.ToString()));
		assertTokenStreamContents(tokenizer, builder.ToString().ToLower(Locale.ROOT).split(" "));
	  }

Example #16

0

Show file

File: TestCharTokenizers.cs Project: zalintyre/lucenenet

        public virtual void TestReadSupplementaryChars()
        {
            var builder = new StringBuilder();
            // create random input
            var num = 1024 + Random.Next(1024);

            num *= RandomMultiplier;
            for (var i = 1; i < num; i++)
            {
                builder.Append("\ud801\udc1cabc");
                if ((i % 10) == 0)
                {
                    builder.Append(" ");
                }
            }
            // internal buffer size is 1024 make sure we have a surrogate pair right at the border
            builder.Insert(1023, "\ud801\udc1c");
            var tokenizer = new LowerCaseTokenizer(TEST_VERSION_CURRENT, new StringReader(builder.ToString()));

            AssertTokenStreamContents(tokenizer, builder.ToString().ToLowerInvariant().Split(' ').TrimEnd());
        }

Example #17

0

Show file

        /*
         * test to read surrogate pairs without loosing the pairing
         * if the surrogate pair is at the border of the internal IO buffer
         */
//JAVA TO C# CONVERTER WARNING: Method 'throws' clauses are not available in .NET:
//ORIGINAL LINE: public void testReadSupplementaryChars() throws java.io.IOException
        public virtual void testReadSupplementaryChars()
        {
            StringBuilder builder = new StringBuilder();
            // create random input
            int num = 1024 + random().Next(1024);

            num *= RANDOM_MULTIPLIER;
            for (int i = 1; i < num; i++)
            {
                builder.Append("\ud801\udc1cabc");
                if ((i % 10) == 0)
                {
                    builder.Append(" ");
                }
            }
            // internal buffer size is 1024 make sure we have a surrogate pair right at the border
            builder.Insert(1023, "\ud801\udc1c");
            Tokenizer tokenizer = new LowerCaseTokenizer(TEST_VERSION_CURRENT, new StringReader(builder.ToString()));

            assertTokenStreamContents(tokenizer, builder.ToString().ToLower(Locale.ROOT).split(" "));
        }

Example #18

0

Show file

File: TestAnalyzers.cs Project: Cefa68000/lucenenet

 //JAVA TO C# CONVERTER WARNING: Method 'throws' clauses are not available in .NET:
 //ORIGINAL LINE: public void testLowerCaseTokenizer() throws java.io.IOException
 public virtual void testLowerCaseTokenizer()
 {
     StringReader reader = new StringReader("Tokenizer \ud801\udc1ctest");
     LowerCaseTokenizer tokenizer = new LowerCaseTokenizer(TEST_VERSION_CURRENT, reader);
     assertTokenStreamContents(tokenizer, new string[] {"tokenizer", "\ud801\udc44test"});
 }

Example #19

0

Show file

File: TestAnalyzers.cs Project: Cefa68000/lucenenet

 public virtual void testLowerCaseTokenizerBWCompat()
 {
     StringReader reader = new StringReader("Tokenizer \ud801\udc1ctest");
     LowerCaseTokenizer tokenizer = new LowerCaseTokenizer(Version.LUCENE_30, reader);
     assertTokenStreamContents(tokenizer, new string[] {"tokenizer", "test"});
 }

Example #20

0

Show file

File: TestCharTokenizers.cs Project: scottwum/lucenenet

	  /*
	   * tests the max word length of 255 - tokenizer will split at the 255 char no matter what happens
	   */
//JAVA TO C# CONVERTER WARNING: Method 'throws' clauses are not available in .NET:
//ORIGINAL LINE: public void testMaxWordLength() throws java.io.IOException
	  public virtual void testMaxWordLength()
	  {
		StringBuilder builder = new StringBuilder();

		for (int i = 0; i < 255; i++)
		{
		  builder.Append("A");
		}
		Tokenizer tokenizer = new LowerCaseTokenizer(TEST_VERSION_CURRENT, new StringReader(builder.ToString() + builder.ToString()));
		assertTokenStreamContents(tokenizer, new string[] {builder.ToString().ToLower(Locale.ROOT), builder.ToString().ToLower(Locale.ROOT)});
	  }

Example #21

0

Show file

File: TestCharTokenizers.cs Project: Cefa68000/lucenenet

        public virtual void TestMaxWordLengthWithSupplementary()
        {
            var builder = new StringBuilder();

            for (var i = 0; i < 254; i++)
            {
                builder.Append("A");
            }
            builder.Append("\ud801\udc1c");
            var tokenizer = new LowerCaseTokenizer(TEST_VERSION_CURRENT, new StringReader(builder.ToString() + builder.ToString()));
            AssertTokenStreamContents(tokenizer, new[] { builder.ToString().ToLowerInvariant(), builder.ToString().ToLowerInvariant() });
        }

C# (CSharp) LowerCaseTokenizer Examples