从一行逐字拆分

时间:2012-12-24 10:03:05

标签: c# parsing

以下是示例行

(((EXAMPLE_WORD1 - EXAMPLE_WORD2)/EXAMPLE_WORD2) * 100)

我想分割上面的行,如下所示,

(
(
(
EXAMPLE_WORD1
-
EXAMPLE_WORD2
)
/
EXAMPLE_WORD2
)
*
100
)

如何在C#代码中执行上述任务?

5 个答案:

答案 0 :(得分:3)

您可以这样做:

string str=  "(((EXAMPLE_WORD1 - EXAMPLE_WORD2)/EXAMPLE_WORD2) * 100)";
string[] arr = str.Split(new char[]{'/','*','(',')'},SplitOption.RemoveEmpty);

UPDATE1 :在上一个解决方案中,拆分器字符将从arr中删除。也许更好的解决方案就在这里:

string str=  "(((EXAMPLE_WORD1 - EXAMPLE_WORD2)/EXAMPLE_WORD2) * 100)";
str = str.replace("(","#(#").replace("/","#/#").replace(")","#)#").replace("*","#*#");
string[] arr = str.Split(new char[]{'#'},SplitOption.RemoveEmpty);

这些解决方案是想法,我没有检查这些解决方案。为了获得更好的结果,他们进行了改进。

答案 1 :(得分:1)

这似乎有效:

var regex = new Regex(@"(?=(\b|[^a-zA-Z_0-9])+)");
var split = regex.Split("(((EXAMPLE_WORD1 - EXAMPLE_WORD2)/EXAMPLE_WORD2) * 100)");

编辑:现在工作:)

答案 2 :(得分:1)

如果您想要的是基于多个规则的通用分词器,那么这不是一项简单的任务。首先,您需要为您定义 word 。像:

  • 字是一系列字母(a-zA-Z),带有可接受的分隔符号('_')
  • 字是符号('(',')',' - ','*')
  • 字是带/不带可接受的分隔符号的系列数字(',','。' - 基于文化)

等等

只有在为应该被视为 word 的内容定义严格规则后才开始编码。
如果是这种情况,您可以阅读finite automata或类似的内容,具体取决于您的任务的复杂程度。

编辑:如果提供了所有您需要的模式,那么Bert Evans提供的链接就是您解决方案的答案,即Regex模式:

string youString = @"(((EXAMPLE_WORD1 - EXAMPLE_WORD2)/EXAMPLE_WORD2) * 100)";
string[] parts = Regex.Split(yourString, @"(?<=[()-/*])");

答案 3 :(得分:0)

我扩展了阿里的答案以获得确切的输出

(
(
(
EXAMPLE_WORD1
-
EXAMPLE_WORD2
)
/
EXAMPLE_WORD2
)

*
 100
)



    string str = "(((EXAMPLE_WORD1 - EXAMPLE_WORD2)/EXAMPLE_WORD2) * 100)";
    str = str.Replace("(", "{(}");
    str = str.Replace("*", "{*}");
    str = str.Replace(")", "{)}");
    str = str.Replace("/", "{/}");
    str = str.Replace("-", "{-}");
    string[] arr = str.Split(new char[] { '{', '}' }, StringSplitOptions.RemoveEmptyEntries);
    foreach (string strs in arr)
    {
         Console.WriteLine(strs.Trim());
    }

答案 4 :(得分:0)

虽然正则表达式可以帮助您,但您可能需要考虑为灵活性和/或可伸缩性指定各种标记化器:

这是一个天真的例子:

static IEnumerable<string> Tokenize(string str)
{
    var sb = new StringBuilder();
    foreach (var c in str)
    {
        if(char.IsLetterOrDigit(c) || c == '_')
        {
            sb.Append(c);
        }
        else if (char.IsPunctuation(c))
        {
            if (sb.Length > 0)
            {
                yield return sb.ToString();
                sb.Clear();
            }
            yield return c.ToString(CultureInfo.InvariantCulture);

        }
    }
    if (sb.Length > 0) yield return sb.ToString();
}
static void Main(string[] args)
{
    const string st = "(((EXAMPLE_WORD1 - EXAMPLE_WORD2)/EXAMPLE_WORD2) * 100)";
    Tokenize(st).ToList().ForEach(Console.WriteLine);
}
相关问题