C替换字符串中的html标签

时间:2016-03-09 11:48:34

标签: html c string tags

美好的一天,我目前有一个程序可以搜索包含大量文本的html文件,其中包含超链接。目前,我只能打印出整行文本,其中包括我要避免的原始html标签。有没有办法做到这一点?

这是我想要实现的一个例子:

html文件中的示例文本行:

<a href="/cgi-bin/as-report?as=AS41299&view=2.0">S/N1</a> Blahblahblah

我想要实现的目标:

S/N1 Blahblahblah

到目前为止我的代码:

            while (!feof(fp)) {
                memset(buffer, 0, buflen+1);
                fgets(buffer, buflen, fp);

                    if (strstr(buffer, asnumber)) {
                        printf("\"%s\"\n", buffer);
                    }
            }

非常感谢任何建议,谢谢。

2 个答案:

答案 0 :(得分:2)

您可以建立一个上下文,告诉您是否在标记内,然后根据该上下文过滤您的sring:

    #include <stdlib.h>
    #include <stdio.h>

    void filter(char *str)
    {
        char *p = str;
        int tag = 0;

        while (*str) {
            if (*str == '<') tag = 1;        
            if (!tag) *p++ = *str;        
            if (*str == '>') tag = 0;
            str++;
        }

        *p = '\0';
    }

    int main()
    {
        char line[] = "Read <a href=\"x.html\">more <b>here</b></a>.";
        puts(line);
        filter(line);
        puts(line);

        return 0;
    }

这将适用于格式正确的HTML字符串,可以正确地转义不是标记分隔符的所有尖括号。如果该行以前一行的尾随开放标记开头,则将打印该标记的其余部分。

答案 1 :(得分:1)

您可以尝试strstr,它会返回指向搜索字符串第一个实例的指针。

char line[] = "<a href=\"/cgi-bin/as-report?as=AS41299&view=2.0\">S/N1</a> Blahblahblah";
printf( "line = %s\n", line );
char *line_notag = strstr(line, "</a>") + strlen("</a>"); // <-- Find the first position of the html end tag </a>, then move pass that tag to get the real string.
printf( "line_notag = %s\n", line_notag ); // line_notag =  Blahblahblah