org.apache.lucene.analysis.core.KeywordTokenizer C# (CSharp)のコード例

コード例 #1

0

ファイルを表示

ファイル: TestStemmerOverrideFilter.cs プロジェクト: WakeflyCBass/lucenenet

 //JAVA TO C# CONVERTER WARNING: Method 'throws' clauses are not available in .NET:
 //ORIGINAL LINE: public void testNoOverrides() throws java.io.IOException
 public virtual void testNoOverrides()
 {
     StemmerOverrideFilter.Builder builder = new StemmerOverrideFilter.Builder(true);
     Tokenizer tokenizer = new KeywordTokenizer(new StringReader("book"));
     TokenStream stream = new PorterStemFilter(new StemmerOverrideFilter(tokenizer, builder.build()));
     assertTokenStreamContents(stream, new string[] {"book"});
 }

コード例 #2

0

ファイルを表示

ファイル: TestCompoundWordTokenFilter.cs プロジェクト: zfxsss/lucenenet

            protected internal override TokenStreamComponents createComponents(string fieldName, Reader reader)
            {
                Tokenizer   tokenizer = new KeywordTokenizer(reader);
                TokenFilter filter    = new HyphenationCompoundWordTokenFilter(TEST_VERSION_CURRENT, tokenizer, hyphenator);

                return(new TokenStreamComponents(tokenizer, filter));
            }

コード例 #3

0

ファイルを表示

ファイル: TestStemmerOverrideFilter.cs プロジェクト: WakeflyCBass/lucenenet

 //JAVA TO C# CONVERTER WARNING: Method 'throws' clauses are not available in .NET:
 //ORIGINAL LINE: public void testOverride() throws java.io.IOException
 public virtual void testOverride()
 {
     // lets make booked stem to books
     // the override filter will convert "booked" to "books",
     // but also mark it with KeywordAttribute so Porter will not change it.
     StemmerOverrideFilter.Builder builder = new StemmerOverrideFilter.Builder();
     builder.add("booked", "books");
     Tokenizer tokenizer = new KeywordTokenizer(new StringReader("booked"));
     TokenStream stream = new PorterStemFilter(new StemmerOverrideFilter(tokenizer, builder.build()));
     assertTokenStreamContents(stream, new string[] {"books"});
 }

コード例 #4

0

ファイルを表示

ファイル: TestCodepointCountFilter.cs プロジェクト: zfxsss/lucenenet

//JAVA TO C# CONVERTER WARNING: Method 'throws' clauses are not available in .NET:
//ORIGINAL LINE: public void testRandomStrings() throws java.io.IOException
	  public virtual void testRandomStrings()
	  {
		for (int i = 0; i < 10000; i++)
		{
		  string text = TestUtil.randomUnicodeString(random(), 100);
		  int min = TestUtil.Next(random(), 0, 100);
		  int max = TestUtil.Next(random(), 0, 100);
		  int count = text.codePointCount(0, text.Length);
		  if (min > max)
		  {
			int temp = min;
			min = max;
			max = temp;
		  }
		  bool expected = count >= min && count <= max;
		  TokenStream stream = new KeywordTokenizer(new StringReader(text));
		  stream = new CodepointCountFilter(TEST_VERSION_CURRENT, stream, min, max);
		  stream.reset();
		  assertEquals(expected, stream.incrementToken());
		  stream.end();
		  stream.close();
		}
	  }

コード例 #5

0

ファイルを表示

ファイル: TestCodepointCountFilter.cs プロジェクト: Cefa68000/lucenenet

 //JAVA TO C# CONVERTER WARNING: Method 'throws' clauses are not available in .NET:
 //ORIGINAL LINE: public void testRandomStrings() throws java.io.IOException
 public virtual void testRandomStrings()
 {
     for (int i = 0; i < 10000; i++)
     {
       string text = TestUtil.randomUnicodeString(random(), 100);
       int min = TestUtil.Next(random(), 0, 100);
       int max = TestUtil.Next(random(), 0, 100);
       int count = text.codePointCount(0, text.Length);
       if (min > max)
       {
     int temp = min;
     min = max;
     max = temp;
       }
       bool expected = count >= min && count <= max;
       TokenStream stream = new KeywordTokenizer(new StringReader(text));
       stream = new CodepointCountFilter(TEST_VERSION_CURRENT, stream, min, max);
       stream.reset();
       assertEquals(expected, stream.incrementToken());
       stream.end();
       stream.close();
     }
 }

コード例 #6

0

ファイルを表示

ファイル: TestGermanStemFilter.cs プロジェクト: zfxsss/lucenenet

            protected internal override TokenStreamComponents createComponents(string fieldName, Reader reader)
            {
                Tokenizer t = new KeywordTokenizer(reader);

                return(new TokenStreamComponents(t, new GermanStemFilter(new LowerCaseFilter(TEST_VERSION_CURRENT, t))));
            }

コード例 #7

0

ファイルを表示

        protected internal override TokenStreamComponents CreateComponents(string fieldName)
        {
            KeywordTokenizer source = new KeywordTokenizer();

            return(new TokenStreamComponents(source, new LowerCaseFilter(source)));
        }

コード例 #8

0

ファイルを表示

            protected internal override TokenStreamComponents createComponents(string fieldName, Reader reader)
            {
                Tokenizer tokenizer = new KeywordTokenizer(reader);

                return(new TokenStreamComponents(tokenizer, new SwedishLightStemFilter(tokenizer)));
            }

コード例 #9

0

ファイルを表示

ファイル: TestCodepointCountFilter.cs プロジェクト: Cefa68000/lucenenet

 protected internal override TokenStreamComponents createComponents(string fieldName, Reader reader)
 {
     Tokenizer tokenizer = new KeywordTokenizer(reader);
     return new TokenStreamComponents(tokenizer, new CodepointCountFilter(TEST_VERSION_CURRENT, tokenizer, 0, 5));
 }

コード例 #10

0

ファイルを表示

ファイル: TestIndonesianStemmer.cs プロジェクト: zfxsss/lucenenet

            public override TokenStreamComponents createComponents(string fieldName, Reader reader)
            {
                Tokenizer tokenizer = new KeywordTokenizer(reader);

                return(new TokenStreamComponents(tokenizer, new IndonesianStemFilter(tokenizer)));
            }

コード例 #11

0

ファイルを表示

ファイル: TestStemmerOverrideFilter.cs プロジェクト: WakeflyCBass/lucenenet

 //JAVA TO C# CONVERTER WARNING: Method 'throws' clauses are not available in .NET:
 //ORIGINAL LINE: public void testRandomRealisticKeyword() throws java.io.IOException
 public virtual void testRandomRealisticKeyword()
 {
     IDictionary<string, string> map = new Dictionary<string, string>();
     int numTerms = atLeast(50);
     for (int i = 0; i < numTerms; i++)
     {
       string randomRealisticUnicodeString = TestUtil.randomRealisticUnicodeString(random());
       if (randomRealisticUnicodeString.Length > 0)
       {
     string value = TestUtil.randomSimpleString(random());
     map[randomRealisticUnicodeString] = value.Length == 0 ? "a" : value;
       }
     }
     if (map.Count == 0)
     {
       map["booked"] = "books";
     }
     StemmerOverrideFilter.Builder builder = new StemmerOverrideFilter.Builder(random().nextBoolean());
     ISet<KeyValuePair<string, string>> entrySet = map.SetOfKeyValuePairs();
     foreach (KeyValuePair<string, string> entry in entrySet)
     {
       builder.add(entry.Key, entry.Value);
     }
     StemmerOverrideMap build = builder.build();
     foreach (KeyValuePair<string, string> entry in entrySet)
     {
       if (random().nextBoolean())
       {
     Tokenizer tokenizer = new KeywordTokenizer(new StringReader(entry.Key));
     TokenStream stream = new PorterStemFilter(new StemmerOverrideFilter(tokenizer, build));
     assertTokenStreamContents(stream, new string[] {entry.Value});
       }
     }
 }

コード例 #12

0

ファイルを表示

ファイル: TestScandinavianNormalizationFilter.cs プロジェクト: Cefa68000/lucenenet

 protected internal override TokenStreamComponents createComponents(string fieldName, Reader reader)
 {
     Tokenizer tokenizer = new KeywordTokenizer(reader);
     return new TokenStreamComponents(tokenizer, new ScandinavianNormalizationFilter(tokenizer));
 }

コード例 #13

0

ファイルを表示

ファイル: TestSnowballVocab.cs プロジェクト: WakeflyCBass/lucenenet

 protected internal override TokenStreamComponents createComponents(string fieldName, Reader reader)
 {
     Tokenizer t = new KeywordTokenizer(reader);
     return new TokenStreamComponents(t, new SnowballFilter(t, snowballLanguage));
 }

コード例 #14

0

ファイルを表示

ファイル: EdgeNGramTokenFilterTest.cs プロジェクト: Cefa68000/lucenenet

 protected internal override TokenStreamComponents createComponents(string fieldName, Reader reader)
 {
     Tokenizer tokenizer = new KeywordTokenizer(reader);
     return new TokenStreamComponents(tokenizer, new EdgeNGramTokenFilter(Version.LUCENE_43, tokenizer, EdgeNGramTokenFilter.Side.BACK, 2, 15));
 }

コード例 #15

0

ファイルを表示

ファイル: TestSnowball.cs プロジェクト: Cefa68000/lucenenet

 protected internal override Analyzer.TokenStreamComponents createComponents(string fieldName, Reader reader)
 {
     Tokenizer tokenizer = new KeywordTokenizer(reader);
     return new Analyzer.TokenStreamComponents(tokenizer, new SnowballFilter(tokenizer, lang));
 }

コード例 #16

0

ファイルを表示

ファイル: EdgeNGramTokenFilterTest.cs プロジェクト: Cefa68000/lucenenet

 protected internal override TokenStreamComponents createComponents(string fieldName, Reader reader)
 {
     Tokenizer tokenizer = new KeywordTokenizer(reader);
     return new TokenStreamComponents(tokenizer, new EdgeNGramTokenFilter(TEST_VERSION_CURRENT, tokenizer, EdgeNGramTokenFilter.Side.FRONT, 2, 15));
 }

コード例 #17

0

ファイルを表示

ファイル: TestIndonesianStemmer.cs プロジェクト: Cefa68000/lucenenet

 public override TokenStreamComponents createComponents(string fieldName, Reader reader)
 {
     Tokenizer tokenizer = new KeywordTokenizer(reader);
     return new TokenStreamComponents(tokenizer, new IndonesianStemFilter(tokenizer, false));
 }

コード例 #18

0

ファイルを表示

ファイル: TestElision.cs プロジェクト: Cefa68000/lucenenet

 protected internal override TokenStreamComponents createComponents(string fieldName, Reader reader)
 {
     Tokenizer tokenizer = new KeywordTokenizer(reader);
     return new TokenStreamComponents(tokenizer, new ElisionFilter(tokenizer, FrenchAnalyzer.DEFAULT_ARTICLES));
 }

コード例 #19

0

ファイルを表示

ファイル: TestSynonymMapFilter.cs プロジェクト: Cefa68000/lucenenet

 protected internal override TokenStreamComponents createComponents(string fieldName, Reader reader)
 {
     Tokenizer tokenizer = new KeywordTokenizer(reader);
     return new TokenStreamComponents(tokenizer, new SynonymFilter(tokenizer, map, ignoreCase));
 }

コード例 #20

0

ファイルを表示

ファイル: TestCollationKeyFilter.cs プロジェクト: Cefa68000/lucenenet

 public override TokenStreamComponents createComponents(string fieldName, Reader reader)
 {
     Tokenizer result = new KeywordTokenizer(reader);
       return new TokenStreamComponents(result, new CollationKeyFilter(result, _collator));
 }

コード例 #21

0

ファイルを表示

ファイル: TestPortugueseLightStemFilter.cs プロジェクト: zfxsss/lucenenet

            protected internal override Analyzer.TokenStreamComponents createComponents(string fieldName, Reader reader)
            {
                Tokenizer tokenizer = new KeywordTokenizer(reader);

                return(new Analyzer.TokenStreamComponents(tokenizer, new PortugueseLightStemFilter(tokenizer)));
            }

コード例 #22

0

ファイルを表示

ファイル: TestHunspellStemFilter.cs プロジェクト: zfxsss/lucenenet

            protected internal override TokenStreamComponents createComponents(string fieldName, Reader reader)
            {
                Tokenizer tokenizer = new KeywordTokenizer(reader);

                return(new TokenStreamComponents(tokenizer, new HunspellStemFilter(tokenizer, dictionary)));
            }

コード例 #23

0

ファイルを表示

ファイル: TestPatternReplaceFilter.cs プロジェクト: WakeflyCBass/lucenenet

 protected internal override TokenStreamComponents createComponents(string fieldName, Reader reader)
 {
     Tokenizer tokenizer = new KeywordTokenizer(reader);
     return new TokenStreamComponents(tokenizer, new PatternReplaceFilter(tokenizer, Pattern.compile("a"), "b", true));
 }

コード例 #24

0

ファイルを表示

ファイル: TestCompoundWordTokenFilter.cs プロジェクト: WakeflyCBass/lucenenet

 protected internal override TokenStreamComponents createComponents(string fieldName, Reader reader)
 {
     Tokenizer tokenizer = new KeywordTokenizer(reader);
     return new TokenStreamComponents(tokenizer, new DictionaryCompoundWordTokenFilter(TEST_VERSION_CURRENT, tokenizer, dict));
 }

コード例 #25

0

ファイルを表示

ファイル: TestScandinavianFoldingFilter.cs プロジェクト: zfxsss/lucenenet

            protected internal override TokenStreamComponents createComponents(string fieldName, Reader reader)
            {
                Tokenizer tokenizer = new KeywordTokenizer(reader);

                return(new TokenStreamComponents(tokenizer, new ScandinavianFoldingFilter(tokenizer)));
            }

コード例 #26

0

ファイルを表示

ファイル: TestCompoundWordTokenFilter.cs プロジェクト: zfxsss/lucenenet

            protected internal override TokenStreamComponents createComponents(string fieldName, Reader reader)
            {
                Tokenizer tokenizer = new KeywordTokenizer(reader);

                return(new TokenStreamComponents(tokenizer, new DictionaryCompoundWordTokenFilter(TEST_VERSION_CURRENT, tokenizer, dict)));
            }

コード例 #27

0

ファイルを表示

ファイル: TestWordDelimiterFilter.cs プロジェクト: Cefa68000/lucenenet

 protected internal override TokenStreamComponents createComponents(string fieldName, Reader reader)
 {
     Tokenizer tokenizer = new KeywordTokenizer(reader);
     return new TokenStreamComponents(tokenizer, new WordDelimiterFilter(TEST_VERSION_CURRENT, tokenizer, flags, protectedWords));
 }

コード例 #28

0

ファイルを表示

ファイル: TestASCIIFoldingFilter.cs プロジェクト: Cefa68000/lucenenet

 protected internal override TokenStreamComponents createComponents(string fieldName, Reader reader)
 {
     Tokenizer tokenizer = new KeywordTokenizer(reader);
     return new TokenStreamComponents(tokenizer, new ASCIIFoldingFilter(tokenizer, random().nextBoolean()));
 }

コード例 #29

0

ファイルを表示

            protected internal override TokenStreamComponents createComponents(string fieldName, Reader reader)
            {
                Tokenizer tokenizer = new KeywordTokenizer(reader);

                return(new TokenStreamComponents(tokenizer, new IndicNormalizationFilter(tokenizer)));
            }

コード例 #30

0

ファイルを表示

ファイル: TestCodepointCountFilter.cs プロジェクト: zfxsss/lucenenet

		  protected internal override TokenStreamComponents createComponents(string fieldName, Reader reader)
		  {
			Tokenizer tokenizer = new KeywordTokenizer(reader);
			return new TokenStreamComponents(tokenizer, new CodepointCountFilter(TEST_VERSION_CURRENT, tokenizer, 0, 5));
		  }

コード例 #31

0

ファイルを表示

ファイル: TestCompoundWordTokenFilter.cs プロジェクト: WakeflyCBass/lucenenet

 protected internal override TokenStreamComponents createComponents(string fieldName, Reader reader)
 {
     Tokenizer tokenizer = new KeywordTokenizer(reader);
     TokenFilter filter = new HyphenationCompoundWordTokenFilter(TEST_VERSION_CURRENT, tokenizer, hyphenator);
     return new TokenStreamComponents(tokenizer, filter);
 }

コード例 #32

0

ファイルを表示

ファイル: TestGermanStemFilter.cs プロジェクト: Cefa68000/lucenenet

 protected internal override TokenStreamComponents createComponents(string fieldName, Reader reader)
 {
     Tokenizer t = new KeywordTokenizer(reader);
     return new TokenStreamComponents(t, new GermanStemFilter(new LowerCaseFilter(TEST_VERSION_CURRENT, t)));
 }

コード例 #33

0

ファイルを表示

ファイル: NGramTokenFilterTest.cs プロジェクト: Cefa68000/lucenenet

 //JAVA TO C# CONVERTER WARNING: Method 'throws' clauses are not available in .NET:
 //ORIGINAL LINE: public void testSupplementaryCharacters() throws java.io.IOException
 public virtual void testSupplementaryCharacters()
 {
     //JAVA TO C# CONVERTER WARNING: The original Java variable was marked 'final':
     //ORIGINAL LINE: final String s = org.apache.lucene.util.TestUtil.randomUnicodeString(random(), 10);
     string s = TestUtil.randomUnicodeString(random(), 10);
     //JAVA TO C# CONVERTER WARNING: The original Java variable was marked 'final':
     //ORIGINAL LINE: final int codePointCount = s.codePointCount(0, s.length());
     int codePointCount = s.codePointCount(0, s.Length);
     //JAVA TO C# CONVERTER WARNING: The original Java variable was marked 'final':
     //ORIGINAL LINE: final int minGram = org.apache.lucene.util.TestUtil.nextInt(random(), 1, 3);
     int minGram = TestUtil.Next(random(), 1, 3);
     //JAVA TO C# CONVERTER WARNING: The original Java variable was marked 'final':
     //ORIGINAL LINE: final int maxGram = org.apache.lucene.util.TestUtil.nextInt(random(), minGram, 10);
     int maxGram = TestUtil.Next(random(), minGram, 10);
     TokenStream tk = new KeywordTokenizer(new StringReader(s));
     tk = new NGramTokenFilter(TEST_VERSION_CURRENT, tk, minGram, maxGram);
     //JAVA TO C# CONVERTER WARNING: The original Java variable was marked 'final':
     //ORIGINAL LINE: final org.apache.lucene.analysis.tokenattributes.CharTermAttribute termAtt = tk.addAttribute(org.apache.lucene.analysis.tokenattributes.CharTermAttribute.class);
     CharTermAttribute termAtt = tk.addAttribute(typeof(CharTermAttribute));
     //JAVA TO C# CONVERTER WARNING: The original Java variable was marked 'final':
     //ORIGINAL LINE: final org.apache.lucene.analysis.tokenattributes.OffsetAttribute offsetAtt = tk.addAttribute(org.apache.lucene.analysis.tokenattributes.OffsetAttribute.class);
     OffsetAttribute offsetAtt = tk.addAttribute(typeof(OffsetAttribute));
     tk.reset();
     for (int start = 0; start < codePointCount; ++start)
     {
       for (int end = start + minGram; end <= Math.Min(codePointCount, start + maxGram); ++end)
       {
     assertTrue(tk.incrementToken());
     assertEquals(0, offsetAtt.startOffset());
     assertEquals(s.Length, offsetAtt.endOffset());
     //JAVA TO C# CONVERTER WARNING: The original Java variable was marked 'final':
     //ORIGINAL LINE: final int startIndex = Character.offsetByCodePoints(s, 0, start);
     int startIndex = char.offsetByCodePoints(s, 0, start);
     //JAVA TO C# CONVERTER WARNING: The original Java variable was marked 'final':
     //ORIGINAL LINE: final int endIndex = Character.offsetByCodePoints(s, 0, end);
     int endIndex = char.offsetByCodePoints(s, 0, end);
     assertEquals(s.Substring(startIndex, endIndex - startIndex), termAtt.ToString());
       }
     }
     assertFalse(tk.incrementToken());
 }

コード例 #34

0

ファイルを表示

ファイル: TestPortugueseMinimalStemFilter.cs プロジェクト: Cefa68000/lucenenet

 protected internal override Analyzer.TokenStreamComponents createComponents(string fieldName, Reader reader)
 {
     Tokenizer tokenizer = new KeywordTokenizer(reader);
     return new Analyzer.TokenStreamComponents(tokenizer, new PortugueseMinimalStemFilter(tokenizer));
 }

コード例 #35

0

ファイルを表示

ファイル: TestHindiStemmer.cs プロジェクト: Cefa68000/lucenenet

 protected internal override TokenStreamComponents createComponents(string fieldName, Reader reader)
 {
     Tokenizer tokenizer = new KeywordTokenizer(reader);
     return new TokenStreamComponents(tokenizer, new HindiStemFilter(tokenizer));
 }

コード例 #36

0

ファイルを表示

ファイル: TestPatternReplaceFilter.cs プロジェクト: vicancy/lucenenet

            protected internal override TokenStreamComponents createComponents(string fieldName, Reader reader)
            {
                Tokenizer tokenizer = new KeywordTokenizer(reader);

                return(new TokenStreamComponents(tokenizer, new PatternReplaceFilter(tokenizer, Pattern.compile("a"), "b", true)));
            }

C# (CSharp) org.apache.lucene.analysis.core.KeywordTokenizerの例