C# (CSharp) LanguageIdentifierSettings 예제들

프로그래밍 언어: C# (CSharp)

hotexamples.com에서의 예제들: 5

C# (CSharp) LanguageIdentifierSettings - 5개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 C# (CSharp)의 LanguageIdentifierSettings에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

        /// <summary>
        /// returns possible languages of text contained in <paramref name="input"/> or empty sequence if too uncertain.
        /// </summary>
        /// <param name="input"></param>
        /// <param name="encoding">encoding of text contained in <paramref name="input"/> or null if encoding is unknown beforehand.
        /// <para> When encoding is not null, for performance and quality reasons
        /// please make sure that <see cref="LanguageIdentifier"/> is created with
        /// languageModelsDirectory parameter of constructor pointing to models
        /// built from UTF8 encoded files (models from folder "Wikipedia-Experimental-UTF8Only")</para></param>
        /// <param name="settings">null for default settings</param>
        /// <returns></returns>
        public IEnumerable <Tuple <LanguageInfo, double> > ClassifyBytes(Stream input, Encoding encoding = null, LanguageIdentifierSettings settings = null)
        {
            if (encoding != null && encoding != Encoding.UTF8)
            {
                // we can afford to not dispose TextReaderStream wrapper as it doesn't contain unmanaged resources
                // we do not own base stream passed so we cannot close it
                input = new TextReaderStream(new StreamReader(input, encoding), Encoding.UTF8); // decodes stream into UTF8 from any other encoding
                // todo: restrict to searching among UTF8 language models only
            }
            if (settings == null)
            {
                settings = new LanguageIdentifierSettings();
            }

            IEnumerable <UInt64> tokens =
                new ByteToUInt64NGramExtractor(settings.MaxNgramLength, settings.OnlyReadFirstNLines)
                .GetFeatures(input);
            var langaugeModel = LanguageModelCreator.CreateLangaugeModel(
                tokens, settings.OccuranceNumberThreshold, _maximumSizeOfDistribution);

            List <Tuple <LanguageInfo, double> > result = _classifier.Classify(langaugeModel).ToList();
            double leastDistance = result.First().Item2;
            List <Tuple <LanguageInfo, double> > acceptableResults =
                result.Where(t => t.Item2 <= leastDistance * settings.WorstAcceptableThreshold).ToList();

            if (acceptableResults.Count == 0 || acceptableResults.Count > settings.TooManyLanguagesThreshold)
            {
                return(Enumerable.Empty <Tuple <LanguageInfo, double> >());
            }
            return(acceptableResults);
        }

예제 #2

파일 보기

        /// <summary>
        /// returns possible languages of text passed or empty sequence if too uncertain
        /// </summary>
        /// <param name="text">text language of which should be identified</param>
        /// <param name="languageModelsDirectory"></param>
        /// <param name="maximumSizeOfDistribution"></param>
        /// <param name="settings">null for default settings</param>
        /// <returns></returns>
        public static IEnumerable <Tuple <LanguageInfo, double> > ClassifyText(
            string text,
            string languageModelsDirectory      = LanguageModelsDirectoryDefault,
            int maximumSizeOfDistribution       = MaximumSizeOfDistributionDefault,
            LanguageIdentifierSettings settings = null
            )
        {
            var languageIdentifier = new LanguageIdentifier(languageModelsDirectory, maximumSizeOfDistribution);

            return(languageIdentifier.ClassifyText(text, settings));
        }

예제 #3

파일 보기

        /// <summary>
        /// returns possible languages of text contained in <paramref name="input"/> or empty sequence if too uncertain.
        /// </summary>
        /// <param name="input"></param>
        /// <param name="encoding">encoding of text contained in stream or null if encoding is unknown beforehand.
        /// <para> When encoding is not null, for performance and quality reasons
        /// make sure that <paramref name="languageModelsDirectory"/> points to models
        /// built from UTF8 encoded files (Wikipedia-Experimental-UTF8Only)</para></param>
        /// <param name="languageModelsDirectory"></param>
        /// <param name="maximumSizeOfDistribution"></param>
        /// <param name="settings">null for default settings</param>
        /// <returns></returns>
        public static IEnumerable <Tuple <LanguageInfo, double> > ClassifyBytes(
            Stream input,
            Encoding encoding = null,
            string languageModelsDirectory      = LanguageModelsDirectoryDefault,
            int maximumSizeOfDistribution       = MaximumSizeOfDistributionDefault,
            LanguageIdentifierSettings settings = null
            )
        {
            var languageIdentifier = new LanguageIdentifier(languageModelsDirectory, maximumSizeOfDistribution);

            return(languageIdentifier.ClassifyBytes(input, encoding, settings));
        }

예제 #4

파일 보기

 /// <summary>
 /// returns possible languages of text passed or empty sequence if too uncertain
 /// Almost all parameters are optional.
 /// </summary>
 /// <param name="text">text language of which should be identified</param>
 /// <param name="settings">null for default settings</param>
 /// <returns></returns>
 public IEnumerable <Tuple <LanguageInfo, double> > ClassifyText(string text, LanguageIdentifierSettings settings = null)
 {
     return(ClassifyBytes(new TextReaderStream(new StringReader(text), Encoding.UTF8), Encoding.UTF8, settings));
 }

예제 #5

파일 보기

 /// <summary>
 /// returns possible languages of text encoded in <paramref name="input"/> or empty sequence if too uncertain
 /// </summary>
 /// <param name="input"></param>
 /// <param name="encoding">encoding of text contained in stream or null if encoding is unknown beforehand.
 /// <para> When encoding is not null, for performance and quality reasons
 /// make sure that <see cref="LanguageIdentifier"/> is created with
 /// languageModelsDirectory parameter of constructor pointing to models
 /// built from UTF8 encoded files (models from folder "Wikipedia-Experimental-UTF8Only")</para></param>
 /// <param name="settings">null for default settings</param>
 /// <returns></returns>
 public IEnumerable <Tuple <LanguageInfo, double> > ClassifyBytes(byte[] input, Encoding encoding = null, LanguageIdentifierSettings settings = null)
 {
     using (var stream = new MemoryStream(input))
     {
         return(ClassifyBytes(stream, encoding, settings));
     }
 }