C# (CSharp) CharUtil.IsEnglishChar 예제들

프로그래밍 언어: C# (CSharp)

클래스/타입: CharUtil

메소드/함수: IsEnglishChar

hotexamples.com에서의 예제들: 2

C# (CSharp) CharUtil.IsEnglishChar - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 C# (CSharp)의 CharUtil.IsEnglishChar 패키지로부터 kudu-client-net에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

IsISOControl(9)

RegionMatchesIgnoreCase(8)

Trim(5)

IndexOf(4)

IsWhitespace(4)

IsTargetWithinRange(4)

CanDraw(4)

RegionMatches(3)

IsChineseLetter(3)

AlphaAdd(3)

EqualsWordGroup(3)

IsPrintable(2)

ParseLong(2)

IsDigit(2)

IsEnglishChar(2)

GetType(2)

ToHalfAngle(2)

IsNullOrEmpty(2)

ToInt(1)

ToHexString(1)

ToCodePoint(1)

Split(1)

ChangeRot13(1)

Contains(1)

IsAlphaNumeric(1)

ContentEquals(1)

ContentEqualsIgnoreCase(1)

IsAscii(1)

IsIdentifierCharOrDigit(1)

IsHalfWidth(1)

HexToInt(1)

IsAsciiAlphabet(1)

IsEnglishLetter(1)

CharUtil 1 문서

예제 #1

파일 보기

        /// <summary>
        /// 原子分词，连续的数字或连续的英文字母整体作为一格词，其他单个字符自成一词
        /// 没有标记词性
        /// </summary>
        /// <param name="sentence"></param>
        /// <returns></returns>
        public static List <string> AtomSeg(char[] sentence)
        {
            var list    = new List <string>(sentence.Length);
            var lastIdx = sentence.Length - 1;                  // 最后一个字符的下标
            var sb      = new StringBuilder();                  // 缓存连续的数字，或连续的英文字母

            char c;

            for (int i = 0; i < sentence.Length; i++)
            {
                c = sentence[i];
                if (c >= '0' && c <= '9')
                {
                    sb.Append(c);
                    if (i == lastIdx)
                    {
                        list.Add(sb.ToString());
                        sb.Clear();
                        break;
                    }
                    c = sentence[++i];
                    while (c == '.' || c == '%' || (c >= '0' && c <= '9'))       // 检查是否有连续的数字
                    {
                        sb.Append(c);
                        if (i == lastIdx)
                        {
                            list.Add(sb.ToString());
                            sb.Clear();
                            goto FINISH;
                        }
                        c = sentence[++i];
                    }
                    list.Add(sb.ToString());
                    sb.Clear();
                    i--;                            // 遇到非数字字符，需要回退一格，准备进入下一个for loop
                }
                else if (CharUtil.IsEnglishChar(c)) // 为啥这里不将空格并入英文字符里面呢？马萨卡... 用空格来分隔英文单词？
                {
                    sb.Append(c);
                    if (i == lastIdx)
                    {
                        list.Add(sb.ToString());
                        sb.Clear();
                        break;
                    }
                    c = sentence[++i];
                    while (CharUtil.IsEnglishChar(c))
                    {
                        sb.Append(c);
                        if (i == lastIdx)
                        {
                            list.Add(sb.ToString());
                            sb.Clear();
                            goto FINISH;
                        }
                        c = sentence[++i];
                    }
                    list.Add(sb.ToString());
                    sb.Clear();
                    i--;                        // 遇到非英文字母，需要回退一格，进入下一个for loop
                }
                else
                {
                    list.Add(c.ToString());
                }
            }
FINISH:
            return(list);
        }

예제 #2

파일 보기

        /// <summary>
        /// 原子分词，连续的数字或者连续的英文空格作为一个整体词，其他单个字符自成一词
        /// 第一列为词性，第二列为原子分词后的词
        /// </summary>
        /// <param name="sentence"></param>
        /// <returns></returns>
        public static string[][] AtomSeg2Table(char[] sentence)
        {
            var table = new string[sentence.Length][];

            // 是否可以table类型从交叉数组改为二维数组
            for (int i = 0; i < sentence.Length; i++)
            {
                table[i] = new string[3];               //! 设置长度为 3，fst 为词性，snd为词本身，thd用于存储使用CRFModel Tag标注后的标签
            }
            int size    = 0;                            // 原子分词后的词数量，由于连续的数字被认为是一个整体，所以 size <= sentence.Length
            int lastIdx = sentence.Length - 1;          // 最后的位置下标
            var sb      = new StringBuilder();          // 缓存连续的（阿拉伯）数字

            for (int i = 0; i < sentence.Length; i++)
            {
                if (sentence[i] >= '0' && sentence[i] <= '9')
                {
                    sb.Append(sentence[i]);
                    if (i == lastIdx)                   // 如果当前已经是最后一个字符
                    {
                        table[size][0] = "M";           //? 词性？
                        table[size][1] = sb.ToString();
                        ++size;
                        sb.Clear();                     // 缓存结束
                        break;                          // 到达最后一个字符后退出for循环
                    }

                    char c = sentence[++i];                                // 到这里，说明当前字符是数字且尚未达到最后一个字符，则需要继续查看下一个字符是否是数字
                    while (c == '.' || c == '%' || (c >= '0' && c <= '9')) // 满足条件，表示连续的数值
                    {
                        sb.Append(c);
                        if (i == lastIdx)                   // 检测是否是最后一个字符
                        {
                            table[size][0] = "M";           //? 词性？
                            table[size][1] = sb.ToString();
                            ++size;
                            sb.Clear();                     // 缓存结束
                            goto FINISH;                    // 到达最后一个字符后退出for循环
                        }

                        c = sentence[++i];                 // 当前不是最后一个字符，则需要继续向后获取字符，以查看是否是数字
                    }

                    // 当前字符 c 已经不是数字字符了，此时需要处理缓存的连续数字字符串
                    table[size][0] = "M";
                    table[size][1] = sb.ToString();
                    ++size;
                    sb.Clear();
                    --i;                                    // 当前字符c 不是数字字符，进入下一个for循环处理，于是，需要将 i 回退一格
                }
                // 当前字符不是数字字符
                else if (CharUtil.IsEnglishChar(sentence[i]) || sentence[i] == ' ')      // 与数字字符处理类似，连续的英文or空格作为一个整体
                {
                    sb.Append(sentence[i]);
                    if (i == lastIdx)
                    {
                        table[size][0] = "W";
                        table[size][1] = sb.ToString();
                        ++size;
                        sb.Clear();
                        break;
                    }
                    char c = sentence[++i];
                    while (CharUtil.IsEnglishChar(c) || c == ' ')
                    {
                        sb.Append(sentence[i]);
                        if (i == lastIdx)
                        {
                            table[size][0] = "W";
                            table[size][1] = sb.ToString();
                            ++size;
                            sb.Clear();
                            goto FINISH;
                        }
                        c = sentence[++i];
                    }
                    table[size][0] = "W";
                    table[size][1] = sb.ToString();
                    ++size;
                    sb.Clear();
                    i--;
                }
                else
                {
                    table[size][0] = table[size][1] = sentence[i].ToString();
                    size++;
                }
            }
FINISH:
            if (size < sentence.Length)
            {
                return(ResizeArray(table, size));
            }
            return(table);
        }