Linux中的冷热页机制概述

哪些是冷热页?

在Linux Kernel的物理内部存款和储蓄器管理的Buddy
System中,引进了冷热页的定义。冷页表示该空闲页已经不复高速缓存中了(常常是指L2
Cache卡塔尔,热页表示该空闲页依然在高速缓存中。冷热页是针对于每CPU的,各类zone中,都会针对于全部的CPU初步化三个冷热页的per-cpu-pageset.

为啥要有冷热页?

作用有3点:

  • BuddyAllocator在分配order为0的空闲页的时候,假若分配三个热页,那么由于该页已经存在于L2
    Cache中了。CPU写访问的时候,无需先把内部存储器中的剧情读到Cache中,然后再写。纵然分配一个冷页,表达该页不在L2
    Cache中。日常景况下,尽或者用热页,是便于掌握的。什么日期用冷页呢?While
    allocating a physical page frame, there is a bit specifying whether
    we would like a hot or a cold page (that is, a page likely to be in
    the CPU cache, or a page not likely to be there卡塔尔(قطر‎. If the page will
    be used by the CPU, a hot page will be faster. If the page will be
    used for device DMA the CPU cache would be invalidated anyway, and
    a cold page does not waste precious cache contents.
    欧洲杯买球下注盘口 ,轻松易行翻译一下:当内核分配一个物理页框时,有大器晚成部分典型来限定大家是分配热页还是冷页。当页框是CPU使用的,则分配热页。当页框是DMA设备选用的,则分配冷页。因为DMA设备不会用到CPU高速缓存,所以没供给运用热页。
  • BuddySystem在给有些进度分配某些zone中空闲页的时候,首先须要用自旋锁锁住该zone,然后分配页。那样,假若多个CPU上的经过同期扩丰富配页,便会角逐。引进了per-cpu-set后,当多少个CPU上的历程同有时候分配页的时候,竞争便不会时有发生,提升了频率。别的当释放单个页面时,空闲页面首先放回到per-cpu-pageset中,以削减zone中自旋锁的使用。当页面缓存中的页面数量超过阀值时,再将页面放回到友人体系中。
  • 接收每CPU冷热页还应该有叁个功利是,能确认保障某个页一直黏在1个CPU上,那有利于抓实Cache的命中率。

冷热页的数据布局

struct per_cpu_pages {
        int count;              // number of pages in the list
        int high;               // high watermark, emptying needed
        int batch;              // chunk size for buddy add/remove
         // Lists of pages, one per migrate type stored on the pcp-lists
         每个CPU在每个zone上都有MIGRATE_PCPTYPES个冷热页链表(根据迁移类型划分)
         struct list_head lists[MIGRATE_PCPTYPES];
 };

在Linux中,对于UMA的布局,冷热页是在一条链表上进行拘押。热页在前,冷页在后。CPU每释放一个order为0的页,假诺per-cpu-pageset中的页数少于其内定的阈值,便会将释放的页插入到冷热页链表的早先处。那样,早前插入的热页便会趁机之后热页继续不停的插入向后运动,其页由热变冷的可能率便大大扩充。

如何分配冷热页

在分配order为0页的时候(冷热页机制只管理单页分配的状态卡塔尔,先找到适当的zone,然后依据必要的migratetype类型定位冷热页链表(每一个zone,对于各种cpu,有3条冷热页链表,对应于:MIGRATE_UNMOVABLE、MIGRATE_RECLAIMABLE、MIGRATE_MOVABLE)。若需求热页,则从链表头取下豆蔻梢头页(此页最“热”);若要求冷页,则从链表尾取下大器晚成页(此页最“冷”)。

分红函数(关键部分已增多注释):

/*
 * Really, prep_compound_page() should be called from __rmqueue_bulk().  But
 * we cheat by calling it from here, in the order > 0 path.  Saves a branch
 * or two.
 */
static inline
struct page *buffered_rmqueue(struct zone *preferred_zone,
            struct zone *zone, int order, gfp_t gfp_flags,
            int migratetype)
{
    unsigned long flags;
    struct page *page;
    //分配标志是__GFP_COLD才分配冷页
    int cold = !!(gfp_flags & __GFP_COLD);
again:
    if (likely(order == 0)) {
        struct per_cpu_pages *pcp;
        struct list_head *list;
        local_irq_save(flags);
        pcp = &this_cpu_ptr(zone->pageset)->pcp;
        list = &pcp->lists[migratetype];
        if (list_empty(list)) {
          //如果缺少页,则从Buddy System中分配。
            pcp->count += rmqueue_bulk(zone, 0,
                    pcp->batch, list,
                    migratetype, cold);
            if (unlikely(list_empty(list)))
                goto failed;
        }
        if (cold)
        //分配冷页时,从链表尾部分配,list为链表头,list->prev表示链表尾
            page = list_entry(list->prev, struct page, lru);
        else
        //分配热页时,从链表头分配
            page = list_entry(list->next, struct page, lru);
       //分配完一个页框后从冷热页链表中删去该页
        list_del(&page->lru);
        pcp->count--;
    } else {//如果order!=0(页框数>1),则不从冷热页链表中分配
        if (unlikely(gfp_flags & __GFP_NOFAIL)) {
            /*
             * __GFP_NOFAIL is not to be used in new code.
             *
             * All __GFP_NOFAIL callers should be fixed so that they
             * properly detect and handle allocation failures.
             *
             * We most definitely don't want callers attempting to
             * allocate greater than order-1 page units with
             * __GFP_NOFAIL.
             */
            WARN_ON_ONCE(order > 1);
        }
        spin_lock_irqsave(&zone->lock, flags);
        page = __rmqueue(zone, order, migratetype);
        spin_unlock(&zone->lock);
        if (!page)
            goto failed;
        __mod_zone_page_state(zone, NR_FREE_PAGES, -(1 << order));
    }
    __count_zone_vm_events(PGALLOC, zone, 1 << order);
    zone_statistics(preferred_zone, zone, gfp_flags);
    local_irq_restore(flags);
    VM_BUG_ON(bad_range(zone, page));
    if (prep_new_page(page, order, gfp_flags))
        goto again;
    return page;
failed:
    local_irq_restore(flags);
    return NULL;
}

参考:

  • 认知Linux/ARM
    中的冷热页
  • Linux源码

相关文章