怎么使用Python處理文本數(shù)據(jù)

發(fā)布時間：2022-06-18 15:30:47 來源：億速云閱讀：152 作者：iii 欄目：開發(fā)技術(shù)

本篇內(nèi)容介紹了“怎么使用Python處理文本數(shù)據(jù)”的有關(guān)知識，在實(shí)際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧！希望大家仔細(xì)閱讀，能夠?qū)W有所成！

用python處理文本數(shù)據(jù)

實(shí)驗?zāi)康?/strong>

熟悉python的基本數(shù)據(jù)結(jié)構(gòu)，以及文件的輸入與輸出。

實(shí)驗數(shù)據(jù)

利用xxxx年xx機(jī)器學(xué)習(xí)會議的評測數(shù)據(jù)和評測任務(wù)，數(shù)據(jù)包括訓(xùn)練集和測試集，評測任務(wù)為通過給定的訓(xùn)練數(shù)據(jù)，預(yù)測測試集中的關(guān)系是正例還是負(fù)例，在每個樣本最后給出1或者0。

數(shù)據(jù)描述如下，第一列為關(guān)系類型，第二列和第三列為人名，第四列是標(biāo)題，第五列是關(guān)系為正例還是負(fù)例，1為正例，0為負(fù)例；第六列表示訓(xùn)練集。

事件	人物1	人物2	標(biāo)題	關(guān)系（0 or 1)	訓(xùn)練集

測試集描述如下圖，格式基本與訓(xùn)練集類似，唯一不同的是第五列沒有關(guān)系是正例還是負(fù)例的標(biāo)記。

關(guān)系	人物1	人物2	事件

實(shí)驗內(nèi)容

對訓(xùn)練集數(shù)據(jù)進(jìn)行處理，只留下前面五列，輸出文本命名為exp1_1.txt。

在第一步得到的數(shù)據(jù)的基礎(chǔ)上對19類關(guān)系進(jìn)行分類，生成的文本存放在exp1_train文件夾下，按照關(guān)系類別出現(xiàn)的順序，第一個關(guān)系類別的數(shù)據(jù)存放在1.txt中，第二個關(guān)系類別存放在2.txt中，直到19.txt。

測試集按照訓(xùn)練集的19個類別的順序?qū)⒏鱾€樣本按照關(guān)系類別歸類，即相同關(guān)系類型的數(shù)據(jù)放到一個文本文件中，同樣生成19個類別的測試文件，格式仍舊和測試文件保持一致。存放在exp1_test文件夾下，每個類別的文件仍舊命名為1_test.txt，2_test.txt…同時對每個樣本在原測試集中出現(xiàn)的位置進(jìn)行記錄，和19個測試文件一一對應(yīng)起來。比如第一類“傳聞不和”的每個樣本在原文中處于第幾行，在索引文件中進(jìn)行記錄，保存在文件index1.txt，index2.txt….

解題思路

1.第一題是考察我們文件操作與列表的知識，主要考察的難點(diǎn)是對new文件的讀取，根據(jù)要求處理后在生成一個txt文件，讓我們看一下具體的代碼實(shí)現(xiàn)：

import os
# 創(chuàng)建一個列表用來存儲新的內(nèi)容
list = []                                     
with open("task1.trainSentence.new", "r",encoding='xxx') as file_input: # 打開.new文件,xxx根據(jù)自己的編碼格式填寫
    with open("exp1_1.txt", "w", encoding='xxx') as file_output:        # 打開exp1_1.txt,xxx根據(jù)自己的編碼格式填寫文件如果沒有就創(chuàng)建一個
 
        for Line in file_input:                                         # 遍歷每一行的文件
            arr = Line.split('\t')                                      # 以\t為分隔符讀取
            if arr[0] not in list:                                      # if the word is not in the list
                list.append(arr[0])                                     # add the word to the list
            file_output.write(arr[0]+"\t"+arr[1]+"\t"+arr[2]+"\t"+arr[3]+"\t"+arr[4]+"\n")  # write the line to the file
file_input.close()                                                      #關(guān)閉.new文件
file_output.close()                                                     #關(guān)閉創(chuàng)建的txt文件

2.第二題依舊考察了文件操作，在題目一生成的文件基礎(chǔ)上，按照同一類型的事件對事件進(jìn)行分類，是否能高效的分組需要利用循環(huán)條件來解決，我們來看看具體的

代碼實(shí)現(xiàn)

import os
file_1 = open("exp1_1.txt", encoding='xxx')             # 打開文件,xxx根據(jù)自己的編碼格式填寫
os.mkdir("exp1_train")                                  # 創(chuàng)建目錄
os.chdir("exp1_train")                                  # 修改進(jìn)程的工作目錄（使用該目錄）
a = file.readline()                                     # 按行讀取exp1_1.txt文件
arr = a.split("\t")                                     # 按\t間隔符作為分割
b = 1                                                   #設(shè)置分組文件的序列
file_2 = open("{}.txt".format(b), "w", encoding="xxx")  # 打開文件,xxx根據(jù)自己的編碼格式填寫
for line in file_1:                                     # 按行讀取文件
    arr_1 = line.split("\t")                            # 按\t間隔符作為分割
    if arr[0] != arr_1[0]:                              # 如果讀取文件的第一列內(nèi)容與存入新文件的第一列類型不同
        file_2.close()                                  # 關(guān)掉該文件
        b += 1                                          # 文件序列加一
        f_2 = open("{}.txt".format(b), "w", encoding="xxx") # 創(chuàng)建新文件，以另一種類型分類,xxx根據(jù)自己的編碼格式填寫
    arr = line.split("\t")                              # 按\t間隔符作為分割
    f_2.write(arr[0]+"\t"+arr[1]+"\t"+arr[2]+"\t"+arr[3]+"t"+arr[4]+"\t""\n") # 將相同類型的文件寫入
f_1.close()                                             # 關(guān)閉題目一創(chuàng)建的exp1_1.txt文件
f_2.close()                                             # 關(guān)閉創(chuàng)建的最后一個類型的文件

3.將訓(xùn)練集的19個類別按照人物的關(guān)系進(jìn)行進(jìn)一步的分類，我們可以通過字典對數(shù)據(jù)進(jìn)行遍歷，查找關(guān)系，把關(guān)系相同的內(nèi)容放到一個文件夾中，不同則新建一個。

import os

with open("exp1_1.txt", encoding='xxx') as file_in1: # 打開文件,xxx根據(jù)自己的編碼格式填寫
    i = 1                                            # 類型序列
    arr2 = {}                                        # 創(chuàng)建字典
    for line in file_in1:                            # 按行遍歷
        arr3 = line[0:2]                             # 讀取關(guān)系
        if arr3 not in arr2.keys():
            arr2[arr3] = i                           
            i += 1                                   # 類型+1
    file_in = open("task1.test.new")                 # 打開文件task1.test.new
    os.mkdir("exp1_test")                            # 創(chuàng)建目錄
    os.chdir("exp1_test")                            # 修改進(jìn)程的工作目錄（使用該目錄）
    for line in file_in:
        arr = line[0:2]
        with open("{}_test.txt".format(arr2[arr]), "a", encoding='xxx') as file_out:
            arr = line.split('\t')
            file_out.write(line)
    i = 1
    file_in.seek(0)
    os.mkdir("exp1_index")
    os.chdir("exp1_index")
    for line in file_in:
        arr = line[0:2]
        with open("index{}.txt".format(arr2[arr]), "a", encoding='xxx') as file_out:
            arr = line.split('\t')
            line = line[0:-1]
            file_out.write(line + '\t' + "{}".format(i) + "\n")
        i += 1

用python處理數(shù)值型數(shù)據(jù)

實(shí)驗?zāi)康?/strong>

熟悉python的基本數(shù)據(jù)結(jié)構(gòu)，以及文件的輸入與輸出。

實(shí)驗數(shù)據(jù)

xxxx年xx天池大賽，也是中國高校第x屆大數(shù)據(jù)挑戰(zhàn)賽的數(shù)據(jù)。數(shù)據(jù)包括兩個表，分別是用戶行為表mars_tianchi_user_actions.csv和歌曲藝人表mars_tianchi_songs.csv。大賽開放抽樣的歌曲藝人數(shù)據(jù)，以及和這些藝人相關(guān)的6個月內(nèi)（20150301-20150831）的用戶行為歷史記錄。選手需要預(yù)測藝人隨后2個月，即60天（20150901-20151030）的播放數(shù)據(jù)。

實(shí)驗內(nèi)容

對歌曲藝人數(shù)據(jù)mars_tianchi_songs進(jìn)行處理，統(tǒng)計出藝人的個數(shù)以及每個藝人的歌曲數(shù)量。輸出文件格式為exp2_1.csv，第一列為藝人的ID，第二列為該藝人的歌曲數(shù)目。最后一行輸出藝人的個數(shù)。
將用戶行為表和歌曲藝人表以歌曲song_id作為關(guān)聯(lián)，合并為一個大表。各列名稱為第一到第五列與用戶行為表的列名一致，第六到第十列為歌曲藝人表中的第二列到第六列的列名。輸出文件名為exp2_2.csv。
按照藝人統(tǒng)計每個藝人每天所有歌曲的播放量，輸出文件為exp2_3.csv，各個列名為藝人id,日期Ds,歌曲播放總量。注意：這里只統(tǒng)計歌曲的播放量，不包括下載和收藏的數(shù)量。

解題思路：（利用pandas庫）

（1）利用.drop_duplicates() 刪除重復(fù)值

（2）利用.loc[:,‘artist_id’].value_counts() 求出歌手重復(fù)次數(shù)，即每個歌手的歌曲數(shù)目

（3）利用.loc[:,‘songs_id’].value_counts() 求出歌曲沒有重復(fù)

import pandas as pd
data = pd.read_csv(r"C:\mars_tianchi_songs.csv")       # 讀取數(shù)據(jù)
Newdata = data.drop_duplicates(subset=['artist_id'])   # 刪除重復(fù)值
artist_sum = Newdata['artist_id'].count()              
#artistChongFu_count = data.duplicated(subset=['artist_id']).count() artistChongFu_count = data.loc[:,'artist_id'].value_counts() 重復(fù)次數(shù)，即每個歌手的歌曲數(shù)目
songChongFu_count = data.loc[:,'songs_id'].value_counts()  # 沒有重復(fù)（歌手）
artistChongFu_count.loc['artist_sum'] = artist_sum         # 沒有重復(fù)（歌曲）artistChongFu_count.to_csv('exp2_1.csv')                   # 輸出文件格式為exp2_1.csv

利用merge()合并兩個表

import pandas as pd import os

data = pd.read_csv(r"C:\mars_tianchi_songs.csv")
data_two = pd.read_csv(r"C:\mars_tianchi_user_actions.csv")
num=pd.merge(data_two, data) num.to_csv('exp2_2.csv')

利用groupby()[].sum()進(jìn)行重復(fù)性相加

import pandas as pd
data =pd.read_csv('exp2_2.csv')
DataCHongfu = data.groupby(['artist_id','Ds'])['gmt_create'].sum()#重復(fù)項相加DataCHongfu.to_csv('exp2_3.csv')

“怎么使用Python處理文本數(shù)據(jù)”的內(nèi)容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注億速云網(wǎng)站，小編將為大家輸出更多高質(zhì)量的實(shí)用文章！

向AI問一下細(xì)節(jié)

推薦閱讀：

如何使用printf命令處理文本？

如何使用grep命令處理文本？

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

python

上一篇新聞：
windows10s模式不能退出怎么解決

下一篇新聞：
C#怎么將Word或Excel文檔轉(zhuǎn)換為Html文件

猜你喜歡

css的bordercolor屬性怎么設(shè)置

上海云主機(jī)租用需要注意哪些問題

上海云主機(jī)租用有哪些優(yōu)點(diǎn)

租用云服務(wù)器能建多個網(wǎng)站嗎

租用云服務(wù)器怎么安裝

云服務(wù)器上傳文件的方法是什么

國外云電腦購買怎么使用

國外云電腦購買有哪些優(yōu)缺點(diǎn)

python中split函數(shù)的用法有哪些

電腦fatal error錯誤怎么解決

最新資訊

Android Studio中控件的陰影效果如何實(shí)現(xiàn)

控件事件監(jiān)聽器編寫規(guī)范

控件單元測試編寫與執(zhí)行

Android Studio控件API變更追蹤

控件狀態(tài)保存與恢復(fù)機(jī)制

控件觸摸反饋?zhàn)远x

控件動態(tài)添加與移除技巧

控件無障礙設(shè)計在Android Studio中

控件權(quán)限與隱私保護(hù)考量

控件樣式繼承與覆蓋策略

相關(guān)推薦

python中怎么處理文本數(shù)據(jù)

怎么使用python進(jìn)行文本預(yù)處理和提取特征

使用python怎么讀取文本中的數(shù)據(jù)

SQL中怎么處理文本數(shù)據(jù)

如何使用vbs解決處理TXT文本數(shù)據(jù)相關(guān)問題

python中如何處理文本字符

Python文本預(yù)處理的方法是什么

python中怎么處理文本

Python中怎么實(shí)現(xiàn)文本數(shù)據(jù)預(yù)處理

如何使用批處理bat將文本中的數(shù)據(jù)相加輸出

相關(guān)標(biāo)簽

python3.6.0 python遞歸函數(shù) cpython python序列 python零基礎(chǔ) python學(xué)習(xí)之 python內(nèi)置函數(shù) python局部變量 python元組 python面試 python內(nèi)存分配 python 文件操作 python os模塊 python面向?qū)ο?/a> python迭代器 python 數(shù)據(jù)類型 python語言基礎(chǔ) python27.dll python運(yùn)維 Python階乘