使用re.findall进行孟加拉语言建模

时间:2019-04-21 10:44:41

标签: python-3.x dataframe nsregularexpression

我正在尝试计算字符串的每个元素的频率并将其存储到数据帧中。我正在使用re.findall进行搜索。我举了一些例子。请帮忙。

using bangla language self made dataset. separated with <s>....</s>

    >>>text_list[0:1000]
    ['<s বিচারপতি মো: নিজামুল হক ও বিচারপতি মো: ফরিদ আহমদ শিবলীর সমন্বয়ে ঘটিত হাইকোর্ট বেঞ্চ আজ মঙ্গলবার এ আদেশ দেন। /s> /s> <s আদালতে লতিফ সিদ্দিকীর পক্ষে শুনানি করেন আইনজীবী জ্যোতির্ময় বড়ুয়া। /s> /s> <s রাষ্ট্রপক্ষে ছিলেন ডেপুটি অ্যাটর্নি জেনারেল শেখ এ কে এম মনিরুজ্জামান। /s> /s> <s এর আগে গত ২৬ মে ধর্মীয় অনুভূতিতে আঘাতের অভিযোগে করা আরও সাত মামলায় সাবেক এই মন্ত্রীকে ছয় মাসের অন্তর্বর্তী জামিন দিয়েছেন হাইকোর্ট। /s> /s> <s একই সঙ্গে এসব মামলার কার্যক্রম ছয় মাসের জন্য স্থগিত করেছিলেন আদালত। /s> /s> <s গত বছর সেপ্টেম্বরে যুক্তরাষ্ট্রের নিউইয়র্কে এক অনুষ্ঠানে হজ ও তাবলিগ জামাত নিয়ে বিরূপ মন্তব্য করে সমালোচনার মুখে পড়েন আবদুল লতিফ সিদ্দিকী। /s> /s> <s এ ঘটনার পর আওয়ামী লীগের সভাপতিমণ্ডলীর এই সদস্য দল থেকে বহিষ্কৃত হন। /s> /s> <s একই ঘটনায় ধর্মীয় অনুভূতিতে আঘাত ও কটূক্তির অভিযোগে তাঁর বিরুদ্ধে রাজধানী ঢাকাসহ দেশের বিভিন্ন জেলায় বেশ কয়েকটি মামলা হয়। /s> /s> <s নির্ধারিত সময়ে আদালতে হাজির না হওয়ায় প্রতিটি মামলায় তাঁর বিরুদ্ধে গ্রেপ্তারি পরোয়ানা জারি করেন আদালত। /s> /s> <s গত বছরের ২৫ নভেম্বর ধানমন']
    >>>word_list = pd.DataFrame({'words':text.str.split(' ', expand = True).stack().unique()})
    >>>word_count_table = pd.DataFrame()
    >>>for n,word in enumerate(word_list['words']):
        word_count = len(re.findall(' '+word+' ', text_list))
 word_count_table=word_count_table.append(pd.DataFrame({'count':word_count}, index=[n]))

错误:

missing ), unterminated subpattern at position 1

但这应该是一个包含3列(索引,单词,计数)的数据框

0 个答案:

没有答案