C# (CSharp) Lucene.Net.Analysis.Cjk CJKBigramFilter Exemples

Langage de programmation: C# (CSharp)

Espace de nommage/Pack: Lucene.Net.Analysis.Cjk

Class/Type: CJKBigramFilter

Exemples au hotexamples.com: 6

C# (CSharp) Lucene.Net.Analysis.Cjk CJKBigramFilter - 6 exemples trouvés. Ce sont les exemples réels les mieux notés de Lucene.Net.Analysis.Cjk.CJKBigramFilter extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Associées

NativeRuntime.IFabricTransaction

CapiNative

ViewScreenObject

NotesDetectedEventArgs

BoardState

ExactWay

CreatureBehavior

GC.LevelController

TSysUser

UsuarioAPIDtoCreate

Related in langs

Parser (PHP)

role_context_capabilities (PHP)

ealloc2complex (C++)

MC_Idle (C++)

Adjust (Go)

HTTPErrorf (Go)

ArraysMDE (Java)

ArgumentsBuilder (Java)

get_object_name (Python)

parse_veritrans_amount (Python)

Forms bigrams of CJK terms that are generated from StandardTokenizer or ICUTokenizer.
CJK types are set by these tokenizers, but you can also use #CJKBigramFilter(TokenStream, int) to explicitly control which of the CJK scripts are turned into bigrams.

By default, when a CJK character has no adjacent characters to form a bigram, it is output in unigram form. If you want to always output both unigrams and bigrams, set the outputUnigrams flag in CJKBigramFilter#CJKBigramFilter(TokenStream, int, boolean). This can be used for a combined unigram+bigram approach.

In all cases, all non-CJK input is passed thru unmodified.

Inheritance: TokenFilter

CJKBigramFilter Class Documentation

Exemple #1

0

Afficher le fichier

Fichier : TestCJKAnalyzer.cs Projet : yohikofox/lucenenet

protected override TokenStreamComponents CreateComponents(string fieldName, TextReader reader) { Tokenizer tokenizer = new MockTokenizer(reader, MockTokenizer.WHITESPACE, false); TokenFilter filter = new FakeStandardTokenizer(tokenizer); filter = new StopFilter(TEST_VERSION_CURRENT, filter, CharArraySet.EMPTY_SET); filter = new CJKBigramFilter(filter); return(new TokenStreamComponents(tokenizer, filter)); }

Exemple #2

0

Afficher le fichier

public virtual void TestSingleChar2() { Analyzer analyzer = Analyzer.NewAnonymous(createComponents: (fieldName, reader) => { Tokenizer tokenizer = new MockTokenizer(reader, MockTokenizer.WHITESPACE, false); TokenFilter filter = new FakeStandardTokenizer(tokenizer); filter = new StopFilter(TEST_VERSION_CURRENT, filter, CharArraySet.EMPTY_SET); filter = new CJKBigramFilter(filter); return(new TokenStreamComponents(tokenizer, filter)); }); AssertAnalyzesTo(analyzer, "一", new string[] { "一" }, new int[] { 0 }, new int[] { 1 }, new string[] { "<SINGLE>" }, new int[] { 1 }); }

Exemple #3

0

Afficher le fichier

public override TokenStreamComponents CreateComponents(string fieldName, TextReader reader) { if (matchVersion.OnOrAfter(LuceneVersion.LUCENE_36)) { Tokenizer source = new StandardTokenizer(matchVersion, reader); // run the widthfilter first before bigramming, it sometimes combines characters. TokenStream result = new CJKWidthFilter(source); result = new LowerCaseFilter(matchVersion, result); result = new CJKBigramFilter(result); return(new TokenStreamComponents(source, new StopFilter(matchVersion, result, stopwords))); } else { Tokenizer source = new CJKTokenizer(reader); return(new TokenStreamComponents(source, new StopFilter(matchVersion, source, stopwords))); } }

Exemple #4

0

Afficher le fichier

protected internal override TokenStreamComponents CreateComponents(string fieldName, TextReader reader) { #pragma warning disable 612, 618 if (m_matchVersion.OnOrAfter(LuceneVersion.LUCENE_36)) #pragma warning restore 612, 618 { Tokenizer source = new StandardTokenizer(m_matchVersion, reader); // run the widthfilter first before bigramming, it sometimes combines characters. TokenStream result = new CJKWidthFilter(source); result = new LowerCaseFilter(m_matchVersion, result); result = new CJKBigramFilter(result); return(new TokenStreamComponents(source, new StopFilter(m_matchVersion, result, m_stopwords))); } else { #pragma warning disable 612, 618 Tokenizer source = new CJKTokenizer(reader); #pragma warning restore 612, 618 return(new TokenStreamComponents(source, new StopFilter(m_matchVersion, source, m_stopwords))); } }

Exemple #5

0

Afficher le fichier

Fichier : CJKAnalyzer.cs Projet : ChristopherHaws/lucenenet

public override TokenStreamComponents CreateComponents(string fieldName, TextReader reader) { #pragma warning disable 612, 618 if (matchVersion.OnOrAfter(LuceneVersion.LUCENE_36)) #pragma warning restore 612, 618 { Tokenizer source = new StandardTokenizer(matchVersion, reader); // run the widthfilter first before bigramming, it sometimes combines characters. TokenStream result = new CJKWidthFilter(source); result = new LowerCaseFilter(matchVersion, result); result = new CJKBigramFilter(result); return new TokenStreamComponents(source, new StopFilter(matchVersion, result, stopwords)); } else { #pragma warning disable 612, 618 Tokenizer source = new CJKTokenizer(reader); #pragma warning restore 612, 618 return new TokenStreamComponents(source, new StopFilter(matchVersion, source, stopwords)); } }

Exemple #6

0

Afficher le fichier

Fichier : TestCJKAnalyzer.cs Projet : ChristopherHaws/lucenenet

public override TokenStreamComponents CreateComponents(string fieldName, TextReader reader) { Tokenizer tokenizer = new MockTokenizer(reader, MockTokenizer.WHITESPACE, false); TokenFilter filter = new FakeStandardTokenizer(tokenizer); filter = new StopFilter(TEST_VERSION_CURRENT, filter, CharArraySet.EMPTY_SET); filter = new CJKBigramFilter(filter); return new TokenStreamComponents(tokenizer, filter); }