o
    ñpi<4  ã                   @  s¸   d dl mZ d dlmZ d dlZd dlmZmZ d dlm	Z
 d dlmZ d dlmZ d dlmZ d d	lmZ d d
lmZ erPd dlmZ d dlmZ d dlmZ g ZG dd„ deƒZdS )é    )Úannotations)ÚTYPE_CHECKINGN)Ú	frameworkÚunique_name)Úbase)ÚVariable)ÚLayerHelper)Úin_pir_mode)Ú	Optimizer)Úcreate_parameter)ÚTensor)ÚOperator)ÚProgramc                      sª   e Zd ZU dZded< ded< ded< ded	< d
ed< dZ			d+d,‡ fdd„Z‡ fdd„Zej	e
jd-dd„ƒƒZdd„ Zdd„ Zdd„ Ze
j			d.d/d)d*„ƒZ‡  ZS )0Ú	LookAheada  
    This implements the Lookahead optimizer of the
    paper : https://arxiv.org/abs/1907.08610.

    Lookahead keeps two sets of params: the fast_params and
    the slow_params. inner_optimizer update fast_params every
    training step. Lookahead updates the slow_params and fast_params
    every k training steps as follows:

    .. math::

        slow\_param_t &= slow\_param_{t-1} + \\alpha * (fast\_param_{t-1} - slow\_param_{t-1})

        fast\_param_t &=  slow\_param_t

    Args:
        inner_optimizer (Optimizer): The optimizer that update fast params step by step.
        alpha (float, optional): The learning rate of Lookahead. The default value is 0.5.
        k (int, optional): The slow params is updated every k steps. The default value is 5.
        name (str, optional): Normally there is no need for user to set this property.
            For more information, please refer to :ref:`api_guide_Name`.
            The default value is None.

    Examples:

        .. code-block:: python

            >>> import numpy as np
            >>> import paddle
            >>> import paddle.nn as nn

            >>> BATCH_SIZE = 16
            >>> BATCH_NUM = 4
            >>> EPOCH_NUM = 4

            >>> IMAGE_SIZE = 784
            >>> CLASS_NUM = 10
            >>> # define a random dataset
            >>> class RandomDataset(paddle.io.Dataset): # type: ignore[type-arg]
            ...     def __init__(self, num_samples):
            ...         self.num_samples = num_samples
            ...     def __getitem__(self, idx):
            ...         image = np.random.random([IMAGE_SIZE]).astype('float32')
            ...         label = np.random.randint(0, CLASS_NUM - 1,
            ...                                 (1, )).astype('int64')
            ...         return image, label
            ...     def __len__(self):
            ...         return self.num_samples

            >>> class LinearNet(nn.Layer):
            ...     def __init__(self):
            ...         super().__init__()
            ...         self._linear = nn.Linear(IMAGE_SIZE, CLASS_NUM)
            ...         self.bias = self._linear.bias
            ...     @paddle.jit.to_static
            ...     def forward(self, x):
            ...         return self._linear(x)

            >>> def train(layer, loader, loss_fn, opt):
            ...     for epoch_id in range(EPOCH_NUM):
            ...         for batch_id, (image, label) in enumerate(loader()):
            ...             out = layer(image)
            ...             loss = loss_fn(out, label)
            ...             loss.backward()
            ...             opt.step()
            ...             opt.clear_grad()
            ...             print("Train Epoch {} batch {}: loss = {}".format(
            ...                 epoch_id, batch_id, np.mean(loss.numpy())))
            >>> layer = LinearNet()
            >>> loss_fn = nn.CrossEntropyLoss()
            >>> optimizer = paddle.optimizer.SGD(learning_rate=0.1, parameters=layer.parameters())
            >>> lookahead = paddle.incubate.LookAhead(optimizer, alpha=0.2, k=5)

            >>> # create data loader
            >>> dataset = RandomDataset(BATCH_NUM * BATCH_SIZE)
            >>> loader = paddle.io.DataLoader(
            ...     dataset,
            ...     batch_size=BATCH_SIZE,
            ...     shuffle=True,
            ...     drop_last=True,
            ...     num_workers=2)

            >>> # doctest: +SKIP('The run time is too long to pass the CI check.')
            >>> train(layer, loader, loss_fn, lookahead)

    r
   Úinner_optimizerÚfloatÚalphaÚintÚkÚstrÚtyper   ÚhelperZslowç      à?é   NÚnameú
str | NoneÚreturnÚNonec                   sÂ   |d usJ dƒ‚d|  krdksJ dƒ‚ J dƒ‚t |tƒr#|dks'J dƒ‚|| _| jjd u r:tj ¡  ¡  ¡ }n| jj}t	ƒ j
||d d |d || _|| _d| _t| jjƒ| _d | _d | _d S )	Nzinner optimizer can not be Noneç        ç      ð?zBalpha should be larger or equal to 0.0, and less or equal than 1.0r   zk should be a positive integer)Zlearning_rateÚ
parametersZweight_decayZ	grad_clipr   Z	lookahead)Ú
isinstancer   r   Ú_parameter_listÚpaddleÚstaticZdefault_main_programZglobal_blockZall_parametersÚsuperÚ__init__r   r   r   r   Ú	__class__Ú__name__r   Ú_global_step_varZ_k_var)Úselfr   r   r   r   r    ©r'   © új/home/app/PaddleOCR-VL/.venv_paddleocr/lib/python3.10/site-packages/paddle/incubate/optimizer/lookahead.pyr&   „   s6   ÿÿýû
zLookAhead.__init__c                   s    t ƒ  ||¡ | j ||¡ d S ©N)r%   Ú_set_auxiliary_varr   )r*   ÚkeyÚvalr+   r,   r-   r/   ª   s   zLookAhead._set_auxiliary_varc                 C  s`   | j  ¡  |  ¡  g }| jD ]}|jsq| ¡ dur%| ¡ }| ||f¡ q| jdd|d dS )a«  
        Execute the optimizer and update parameters once.

        Returns:
            None

        Examples:

            .. code-block:: python

                >>> import paddle
                >>> inp = paddle.rand([1,10], dtype="float32")
                >>> linear = paddle.nn.Linear(10, 1)
                >>> out = linear(inp)
                >>> loss = paddle.mean(out)
                >>> sgd = paddle.optimizer.SGD(learning_rate=0.1,parameters=linear.parameters())
                >>> lookahead = paddle.incubate.LookAhead(sgd, alpha=0.2, k=5)
                >>> loss.backward()
                >>> lookahead.step()
                >>> lookahead.clear_grad()

        N)ÚlossÚstartup_programÚparams_grads)r   ÚstepÚ_increment_global_varr"   Ú	trainableZ
_grad_ivarÚappendÚ_apply_optimize)r*   r4   ÚparamZgrad_varr,   r,   r-   r5   ®   s   

€
ÿzLookAhead.stepc                 C  s4   t |tjtjjfƒsJ ‚|D ]	}|  | j|¡ qd S r.   )r!   r   ZBlockr#   ÚpirZ_add_accumulatorÚ	_slow_str)r*   Úblockr    Úpr,   r,   r-   Ú_create_accumulatorsÖ   s   ÿzLookAhead._create_accumulatorsc              	   C  s¤   t ƒ r'| jd u rtddgt d¡dtjjjdddd| _t 	| jd¡| _d S | jd u r<tj
jt d¡dgd	dd
d| _| jjdd| jgid| jgiddid d S )NÚint32é   Zlookahead_stepFr   ©ÚvalueZ	force_cpu©ÚdtypeÚshaper   r7   Úinitializerr   r   T©r   rF   rC   rE   ZpersistableÚ	incrementÚXZOutr5   )r   ZinputsZoutputsÚattrs)r	   r)   r   r   Úgenerater#   ÚnnrG   ÚConstantInitializerrI   r$   Úcreate_global_varr   Z	append_op)r*   r,   r,   r-   r6   Ü   s4   
ÿû	
û


üzLookAhead._increment_global_varc              	   C  s\  t jdgddd}t jdgddd}tƒ r-tddgt d¡dt jjj	t
| jƒddd	}nt jjt d¡dg| jdd
d}t  | j|¡}t  | j|¡}t j|dd}t  ||¡}t j|dd}|  | j|d ¡}	||d  d| |	  }
t  |
|	¡ | j|d  d| j |	  }
||
 d| |d   }t  ||d ¡ ||
 d| |	  }t  ||	¡ d S )NrA   r@   Zlookahead_ones)rF   rE   r   Zlookahead_zerosZlookahead_kFrB   rD   TrH   Zfloat32)rE   r   r   )r#   ZonesZzerosr	   r   r   rL   rM   rG   rN   r   r   r$   rO   Ú	remainderr)   ÚequalÚcastZ_get_accumulatorr<   Zassignr   )r*   r=   Zparam_and_gradZone_varZzero_varZk_varÚmodZcond_1Zcond_2Zslow_varZtmp_varZ	tmp_var_1r,   r,   r-   Ú_append_optimize_opú   sD   ÿ
ÿû
ûzLookAhead._append_optimize_opr2   r   r3   úProgram | Noner    úlist[Tensor] | list[str] | NoneÚno_grad_setúset[Tensor] | set[str] | Noneú2tuple[list[Operator], list[tuple[Tensor, Tensor]]]c                 C  sR   t |ttjjfƒsJ dƒ‚| jj||||d\}}|  ¡  | j|||d}||fS )a‚  
        Add operations to minimize ``loss`` by updating ``parameters``.

        Args:
            loss (Tensor): A ``Tensor`` containing the value to minimize.
            startup_program (Program, optional): :ref:`api_paddle_static_Program` for
                initializing parameters in ``parameters``. The default value
                is None, at this time :ref:`api_paddle_static_default_startup_program` will be used.
            parameters (list, optional): List of ``Tensor`` or ``Tensor.name`` to update
                to minimize ``loss``. The default value is None, at this time all parameters
                will be updated.
            no_grad_set (set, optional): Set of ``Tensor``  or ``Tensor.name`` that don't need
                to be updated. The default value is None.

        Returns:
            tuple: tuple (optimize_ops, params_grads), A list of operators appended
            by minimize and a list of (param, grad) tensor pairs, param is
            ``Parameter``, grad is the gradient value corresponding to the parameter.
            In static graph mode, the returned tuple can be passed to ``fetch_list`` in ``Executor.run()`` to
            indicate program pruning. If so, the program will be pruned by ``feed`` and
            ``fetch_list`` before run, see details in ``Executor``.

        Examples:

            .. code-block:: python

                >>> import paddle

                >>> inp = paddle.rand([1, 10], dtype="float32")
                >>> linear = paddle.nn.Linear(10, 1)
                >>> out = linear(inp)
                >>> loss = paddle.mean(out)
                >>> sgd = paddle.optimizer.SGD(learning_rate=0.1,parameters=linear.parameters())
                >>> lookahead = paddle.incubate.LookAhead(sgd, alpha=0.2, k=5)
                >>> loss.backward()
                >>> lookahead.minimize(loss)
                >>> lookahead.clear_grad()

        zThe loss should be an Tensor.)r3   r    rW   )r3   r4   )	r!   r   r#   r;   ÚValuer   Úminimizer6   r9   )r*   r2   r3   r    rW   Zoptimize_opsr4   Ú_r,   r,   r-   r[   &  s   /ÿ
üÿzLookAhead.minimize)r   r   N)
r   r
   r   r   r   r   r   r   r   r   )r   r   )NNN)
r2   r   r3   rU   r    rV   rW   rX   r   rY   )r(   Ú
__module__Ú__qualname__Ú__doc__Ú__annotations__r<   r&   r/   r   Zdygraph_onlyÚimperative_baseZno_gradr5   r?   r6   rT   r[   Ú__classcell__r,   r,   r+   r-   r   $   s0   
 Wû&&,ûr   )Ú
__future__r   Útypingr   r#   Zpaddle.baser   r   Zpaddle.base.dygraphr   ra   Zpaddle.base.frameworkr   Zpaddle.base.layer_helperr   Zpaddle.frameworkr	   Zpaddle.optimizerr
   Zpaddle.pir.corer   r   r   Zpaddle.staticr   Ú__all__r   r,   r,   r,   r-   Ú<module>   s    