C# (CSharp) Lucene.Net.Analysis.Core LetterTokenizer Exemples

Langage de programmation: C# (CSharp)

Espace de nommage/Pack: Lucene.Net.Analysis.Core

Class/Type: LetterTokenizer

Exemples au hotexamples.com: 5

C# (CSharp) Lucene.Net.Analysis.Core LetterTokenizer - 5 exemples trouvés. Ce sont les exemples réels les mieux notés de Lucene.Net.Analysis.Core.LetterTokenizer extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Associées

ComponentWorldStateBase

TRegistro_CadEncargosFolha

JuntaVecinosEntities

QuayGiaoDichDAO

BaseCharacter

Road

FetchSummaryCsv

InventoryControlViewModel

SADXOceanData

DataCollectionBar

Related in langs

Tool (PHP)

CRM_Core_DAO_MessageTemplate (PHP)

gfs2_trans_add_meta (C++)

LLBC_Str2Int64 (C++)

Md5 (Go)

DriverTestCreateEmpty (Go)

GlobalConfigurationResource (Java)

WalaClassLoader (Java)

related_exists (Python)

load_rel_dir_info (Python)

A LetterTokenizer is a tokenizer that divides text at non-letters. That's to say, it defines tokens as maximal strings of adjacent letters, as defined by java.lang.Character.isLetter() predicate.
Note: this does a decent job for most European languages, but does a terrible job for some Asian languages, where words are not separated by spaces.

You must specify the required LuceneVersion compatibility when creating LetterTokenizer:

As of 3.1, CharTokenizer uses an int based API to normalize and detect token characters. See CharTokenizer#isTokenChar(int) and CharTokenizer#normalize(int) for details.

Inheritance: Lucene.Net.Analysis.Util.CharTokenizer

LetterTokenizer Class Documentation

Exemple #1

0

Afficher le fichier

Fichier : TestDuelingAnalyzers.cs Projet : murugangs/lucenenet

public virtual void TestLetterAscii() { Random random = Random; Analyzer left = new MockAnalyzer(random, jvmLetter, false); Analyzer right = Analyzer.NewAnonymous(createComponents: (fieldName, reader) => { Tokenizer tokenizer = new LetterTokenizer(TEST_VERSION_CURRENT, reader); return(new TokenStreamComponents(tokenizer, tokenizer)); }); for (int i = 0; i < 1000; i++) { string s = TestUtil.RandomSimpleString(random); assertEquals(s, left.GetTokenStream("foo", newStringReader(s)), right.GetTokenStream("foo", newStringReader(s))); } }

Exemple #2

0

Afficher le fichier

Fichier : TestDuelingAnalyzers.cs Projet : murugangs/lucenenet

public virtual void TestLetterAsciiHuge() { Random random = Random; int maxLength = 8192; // CharTokenizer.IO_BUFFER_SIZE*2 MockAnalyzer left = new MockAnalyzer(random, jvmLetter, false); left.MaxTokenLength = 255; // match CharTokenizer's max token length Analyzer right = Analyzer.NewAnonymous(createComponents: (fieldName, reader) => { Tokenizer tokenizer = new LetterTokenizer(TEST_VERSION_CURRENT, reader); return(new TokenStreamComponents(tokenizer, tokenizer)); }); int numIterations = AtLeast(50); for (int i = 0; i < numIterations; i++) { string s = TestUtil.RandomSimpleString(random, maxLength); assertEquals(s, left.GetTokenStream("foo", newStringReader(s)), right.GetTokenStream("foo", newStringReader(s))); } }

Exemple #3

0

Afficher le fichier

Fichier : TestDuelingAnalyzers.cs Projet : simixsistemas/lucenenet

protected internal override TokenStreamComponents CreateComponents(string fieldName, TextReader reader) { Tokenizer tokenizer = new LetterTokenizer(TEST_VERSION_CURRENT, reader); return(new TokenStreamComponents(tokenizer, tokenizer)); }

Exemple #4

0

Afficher le fichier

Fichier : TestDuelingAnalyzers.cs Projet : ChristopherHaws/lucenenet

public override TokenStreamComponents CreateComponents(string fieldName, TextReader reader) { Tokenizer tokenizer = new LetterTokenizer(TEST_VERSION_CURRENT, reader); return new TokenStreamComponents(tokenizer, tokenizer); }

Exemple #5

0

Afficher le fichier

Fichier : EdgeNGramTokenFilterTest.cs Projet : ChristopherHaws/lucenenet

public virtual void TestGraphs() { TokenStream tk = new LetterTokenizer(TEST_VERSION_CURRENT, new StringReader("abc d efgh ij klmno p q")); tk = new ShingleFilter(tk); tk = new EdgeNGramTokenFilter(TEST_VERSION_CURRENT, tk, 7, 10); AssertTokenStreamContents(tk, new string[] { "efgh ij", "ij klmn", "ij klmno", "klmno p" }, new int[] { 6, 11, 11, 14 }, new int[] { 13, 19, 19, 21 }, new int[] { 3, 1, 0, 1 }, new int[] { 2, 2, 2, 2 }, 23); }