溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

python中如何使用CIFAR10數(shù)據(jù)集

發(fā)布時(shí)間:2023-02-03 09:27:01 來(lái)源:億速云 閱讀:138 作者:iii 欄目:開(kāi)發(fā)技術(shù)

這篇“python中如何使用CIFAR10數(shù)據(jù)集”文章的知識(shí)點(diǎn)大部分人都不太理解,所以小編給大家總結(jié)了以下內(nèi)容,內(nèi)容詳細(xì),步驟清晰,具有一定的借鑒價(jià)值,希望大家閱讀完這篇文章能有所收獲,下面我們一起來(lái)看看這篇“python中如何使用CIFAR10數(shù)據(jù)集”文章吧。

    關(guān)于CIFAR10數(shù)據(jù)集的使用

    主要解決了如何把數(shù)據(jù)集與transforms結(jié)合在一起的問(wèn)題。

    CIFAR10的官方解釋

    torchvision.datasets.CIFAR10(
    root: str, 
    train: bool = True, 
    transform: Optional[Callable] = None,
    target_transform: Optional[Callable] = None,
    download: bool = False)

    注釋?zhuān)?/p>

    • root (string)存在 cifar-10-batches-py 目錄的數(shù)據(jù)集的根目錄,如果下載設(shè)置為 True,則將保存到該目錄。

    • train (bool, optional)如果為T(mén)rue,則從訓(xùn)練集創(chuàng)建數(shù)據(jù)集, 如果為False,從測(cè)試集創(chuàng)建數(shù)據(jù)集。

    • transform (callable, optional)它接受一個(gè) PIL 圖像并返回一個(gè)轉(zhuǎn)換后的版本。 例如,transforms.RandomCrop/transforms.ToTensor

    • target_transform (callable, optional) 接收目標(biāo)并對(duì)其進(jìn)行轉(zhuǎn)換的函數(shù)/轉(zhuǎn)換。

    • download (bool, optional)如果為 true,則從 Internet 下載數(shù)據(jù)集并將其放在根目錄中。 如果數(shù)據(jù)集已經(jīng)下載,則不會(huì)再次下載。

    實(shí)戰(zhàn)操作

    1.CIAFR10數(shù)據(jù)集的下載

    代碼如下:

    import torchvision   #導(dǎo)入torchvision這個(gè)類(lèi)
    
    train_set = torchvision.datasets.CIFAR10(root = "./dataset", train = True, 
    download= True)  #從訓(xùn)練集創(chuàng)建數(shù)據(jù)集
    test_set = torchvision.datasets.CIFAR10(root="./dataset", train=False,
     download=True)    #從測(cè)試集創(chuàng)建數(shù)據(jù)集

    root = "./dataset",將下載的數(shù)據(jù)集保存在這個(gè)文件夾下;download= True,從 Internet 下載數(shù)據(jù)集并將其放在根目錄中,這里就是在相對(duì)路徑中,創(chuàng)建dataset文件夾,將數(shù)據(jù)集保存在dataset中。

    2.查看下載的CIAFR10數(shù)據(jù)集

    運(yùn)行程序,開(kāi)始下載數(shù)據(jù)集。下載成功后,可以進(jìn)行一些查看。代碼如下:

    接著輸入:

    print(train_set[0])  #查看train_set訓(xùn)練集中的第一個(gè)數(shù)據(jù)
    print(train_set.classes)   #查看train_set訓(xùn)練集中有多少個(gè)類(lèi)別
     
    img, target = train_set[0]
    print(img)
    print(target)
    print(train_set.classes[target])
    img.show()  #顯示圖片

    輸出結(jié)果:

    (<PIL.Image.Image image mode=RGB size=32x32 at 0x161E924B8D0>, 6)
    ['airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship',
    'truck']
    <PIL.Image.Image image mode=RGB size=32x32 at 0x161E924B710>
    6
    frog

    注釋?zhuān)嚎梢钥匆?jiàn),train_set數(shù)據(jù)集中有10個(gè)類(lèi)別,train_set中第0個(gè)元素的target是6,也就是說(shuō),這個(gè)元素是屬于第7個(gè)類(lèi)別frog的。

    3.數(shù)據(jù)轉(zhuǎn)換

    因?yàn)檫@些圖片類(lèi)型都是PIL Image,如果要供給pytorch使用的話(huà),需要將數(shù)據(jù)全都轉(zhuǎn)化成tensor類(lèi)型。

    完整代碼如下:

    import torchvision   #導(dǎo)入torchvision這個(gè)類(lèi)
    from torch.utils.tensorboard import SummaryWriter
    
    from torchvision import transforms
    dataset_transforms = transforms.ToTensor()
    
    # dataset_transforms = torchvision.transforms.Compose([
    #     torchvision.transforms.ToTensor()
    # ])    第3  4 行代碼可以用compose直接寫(xiě)
    train_set = torchvision.datasets.CIFAR10(root = "./dataset", train = True, transform=dataset_transforms, download= True) #訓(xùn)練集
    test_set = torchvision.datasets.CIFAR10(root="./dataset", train=False, transform=dataset_transforms, download=True)   #測(cè)試集
    
    writer = SummaryWriter("logs")
    
    # print(train_set[0])  #查看train_set訓(xùn)練集中的第一個(gè)數(shù)據(jù)
    # print(train_set.classes)   #查看train_set訓(xùn)練集中有多少個(gè)類(lèi)別
    
    # img, target = train_set[0]
    # print(img)
    # print(target)
    # print(train_set.classes[target])
    # img.show()
    for i in range(20):
        img, target = train_set[i]
        writer.add_image("cifar10_test2", img, i)
    
    writer.close()

    小結(jié):CIFAR10數(shù)據(jù)集內(nèi)存很小,只有100多m,下載方便。對(duì)我們學(xué)習(xí)數(shù)據(jù)集非常友好,練習(xí)的時(shí)候,我們可以使用SummaryWriter來(lái)將數(shù)據(jù)寫(xiě)入tensorboard中。

    CIFAR-10 數(shù)據(jù)集簡(jiǎn)介

    復(fù)現(xiàn)代碼的過(guò)程中,簡(jiǎn)單了解了作者使用的數(shù)據(jù)集CIFAR-10 dataset ,簡(jiǎn)單記錄一下。

    CIFAR-10數(shù)據(jù)集是8000萬(wàn)微小圖片的標(biāo)簽子集,它的收集者是:Alex Krizhevsky, Vinod Nair, Geoffrey Hinton。

    數(shù)據(jù)集由6萬(wàn)張32*32的彩色圖片組成,一共有10個(gè)類(lèi)別。每個(gè)類(lèi)別6000張圖片。其中有5萬(wàn)張訓(xùn)練圖片及1萬(wàn)張測(cè)試圖片。

    數(shù)據(jù)集被劃分為5個(gè)訓(xùn)練塊和1個(gè)測(cè)試塊,每個(gè)塊1萬(wàn)張圖片。

    測(cè)試塊包含了1000張從每個(gè)類(lèi)別中隨機(jī)選擇的圖片。訓(xùn)練塊包含隨機(jī)的剩余圖像,但某些訓(xùn)練塊可能對(duì)于一個(gè)類(lèi)別的包含多于其他類(lèi)別,訓(xùn)練塊包含來(lái)自各個(gè)類(lèi)別的5000張圖片。

    這些類(lèi)是完全互斥的,及在一個(gè)類(lèi)別中出現(xiàn)的圖片不會(huì)出現(xiàn)在其它類(lèi)中。

    數(shù)據(jù)集版本

    作者提供了3個(gè)版本的數(shù)據(jù)集:python version; Matlab version; binary version。

    可根據(jù)自己的需求選擇。

    數(shù)據(jù)集布置

    以python version進(jìn)行介紹,Matlab version與之相同。

    下載后獲得文件 data_batch_1, data_batch_2,&hellip;, data_batch_5。測(cè)試塊相同。這些文件中的每一個(gè)都是用cPickle生成的python pickled對(duì)象。

    具體使用方法:

    def unpickle(file):
        import pickle
        with open(file, 'rb') as fo:
            dict = pickle.load(fo, encoding='bytes')
        return dict

    返回字典類(lèi),每個(gè)塊的文件包含一個(gè)字典類(lèi),包含以下元素:

    • data: 一個(gè)100003072的numpy數(shù)組(unit8)每個(gè)行存儲(chǔ)3232的彩色圖片,3072=1024*3,分別是red, green, blue。存儲(chǔ)方式以行為主。

    • labels:使用0-9進(jìn)行索引。

    數(shù)據(jù)集包含的另一個(gè)文件batches.meta同樣包含python字典,用于加載label_names。如:label_names[0] == “airplane”, label_names[1] == “automobile”

    以上就是關(guān)于“python中如何使用CIFAR10數(shù)據(jù)集”這篇文章的內(nèi)容,相信大家都有了一定的了解,希望小編分享的內(nèi)容對(duì)大家有幫助,若想了解更多相關(guān)的知識(shí)內(nèi)容,請(qǐng)關(guān)注億速云行業(yè)資訊頻道。

    向AI問(wèn)一下細(xì)節(jié)

    免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

    AI